Medidas de tendencia central en datos agrupados

Trabajar con un conjunto muy grande de datos impide manejarlos de manera eficiente, por lo que se hace necesario representarlos mediante una distribución de frecuencias que es la agrupación de estos datos, generalmente representada en una tabla, en categorías excluyentes que muestran el número de veces que tales datos se repiten, es decir, su frecuencia de aparición en el conjunto. En ocasiones la cantidad de categorías también es muy grande -más de 10 ya es complicado de representar y manejar- por lo que se hace necesario trabajar la información de una manera aún más simplificada dividiendo el espectro de valores posibles en intervalos, llamados clases que luego se registran en una tabla conocida como distribución de frecuencias agrupadas. Así, en vez de usar cada uno de los valores individuales como categorías, se trabaja con rangos de valores, usando una distribución más compacta, que permitirá que los comportamientos y tendencias puedan visualizarse mejor.

Fuente: Pixabay

Aquí estudiaremos el comportamiento central o representativo de un conjunto de datos que ha sido agrupado de esta manera. Partiremos de un ejemplo concreto: la siguiente es la tabla de estaturas de 40 estudiantes de la UNAM, entonces el tamaño de la colección es $n=40$

1.51

1.63

1.72

1.85

1.61

1.63

1.73

1.85

1.61

1.64

1.74

1.86

1.60

1.64

1.75

1.86

1.60

1.65

1.75

1.87

1.59

1.66

1.77

1.88

1.56

1.66

1.78

1.88

1.55

1.69

1.80

1.90

1.54

1.71

1.83

1.92

1.52

1.72

1.83

1.99

Su distribución de frecuencias agrupadas se muestra en la tabla siguiente:

Número de clase	Intervalo de valores			Límites exactos		Marca de clase	Frecuencia absoluta	Frecuencia acumulada	Frecuencia relativa	Frecuencia relativa acumulada
Número de clase	Inferior	Superior	Intervalo	Inferior	Superior	Marca de clase	Frecuencia absoluta	Frecuencia acumulada	Frecuencia relativa	Frecuencia relativa acumulada
1	1.45	1.54	1.45 - 1.54	1.445	1.545	1.495	3	3	8%	8%
2	1.55	1.64	1.55 - 1.64	1.545	1.645	1.595	11	14	28%	36%
3	1.65	1.74	1.65 - 1.74	1.645	1.745	1.695	9	23	23%	59%
4	1.75	1.84	1.75 - 1.84	1.745	1.845	1.795	7	30	18%	76%
5	1.85	1.94	1.85 - 1.94	1.845	1.945	1.895	9	39	23%	97%
6	1.95	2.04	1.95 - 2.04	1.945	2.045	1.995	1	40	3%	100%
SUMA							40		100%

Media para datos agrupados

Para el cálculo de la media de una distribución de frecuencias agrupada resulta práctico aprovechar esta tabla de frecuencias.

La media es la suma de los productos de las marcas de clase por las frecuencias absolutas. Esta suma se divide entre el número total de datos:

$$\bar{x} = \frac{\Sigma_{i = 1}^{k} \text{marca de la clase } i \times \text{frecuencia absoluta de la clase } i}{\text{número de datos}}$$

Entonces tenemos

$$\bar{x}= \frac{(1.495 \times 3) + (1.595 \times 11) + (1.695 \times 9 ) + (1.795 \times 7) + (1.895 \times 9)+(1.995 \times 1)}{40}$$

$$ \left\{\right\} \bar{x} = \frac{4.485 + 17.545 + 15.255 + 12.565 + 17.055 + 1.995}{40} = \frac{68.9}{40} = 1.7225$$

Así, para esta colección de datos, tenemos que la estatura promedio es de 1.72 cm.

Moda

Es el valor que representa la mayor frecuencia absoluta. En tablas de frecuencias con datos agrupados, hablaremos de intervalo modal o clase modal, que es la clase que contiene a la moda.

Fuente: Pixabay

La moda se representa como Mo.

$$Mo=L_{inf}+\frac{a(d_1)}{d_1+d_2}$$

donde:

$L_{inf}$ es el límite inferior de la clase modal.

$d_1$ es la diferencia entre las frecuencias absolutas de la clase modal y la clase anterior

$d_2$ es la diferencia entre las frecuencias absolutas de la clase modal y la clase posterior

$a$ es el ancho de base (amplitud de los intervalos).

Observa la tabla clase hay con la mayor frecuencia absoluta es la clase 2 con 11 datos,

Número de clase	Intervalo de valores			Límites exactos		Marca de clase	Frecuencia absoluta	Frecuencia acumulada	Frecuencia relativa	Frecuencia relativa acumulada
Número de clase	Inferior	Superior	Intervalo	Inferior	Superior	Marca de clase	Frecuencia absoluta	Frecuencia acumulada	Frecuencia relativa	Frecuencia relativa acumulada
1	1.45	1.54	1.45 - 1.54	1.445	1.545	1.495	3	3	8%	8%
2	1.55	1.64	1.55 - 1.64	1.545	1.645	1.595	11	14	28%	36%
3	1.65	1.74	1.65 - 1.74	1.645	1.745	1.695	9	23	23%	59%
4	1.75	1.84	1.75 - 1.84	1.745	1.845	1.795	7	30	18%	76%
5	1.85	1.94	1.85 - 1.94	1.845	1.945	1.895	9	39	23%	97%
6	1.95	2.04	1.95 - 2.04	1.945	2.045	1.995	1	40	3%	100%;
SUMA							40		100%

Identifiquemos los elementos

$L_{inf}=1.545$

$a=0.1$

$d_1=11-3$

$d_2=11-9$

Así,

$$Mo=L_{inf}+\frac{a(d_1)}{d_1+d_2}=1.545+\left(\frac{0.1(11-3)}{(11-3)+(11-2)}\right)=1.545+\frac{8(0.1)}{8+2}$$

$$\qquad=1.545+0.08=1.625 \approx 1.63$$

Por lo que la moda en esta colección es 1.63 m.

Mediana

Es el valor que ocupa el lugar central de los datos cuando están ordenados de menor a mayor. La mediana se representa por Me. La mediana se puede hallar sólo para variables cuantitativas.

Fuente: Wikipedia

La mediana se encuentra en el intervalo donde la frecuencia acumulada llega a la mitad de la suma de las frecuencias absolutas.

Es decir, tenemos que buscar la clase en la que se encuentre $\frac{n}{2}$, esta clase se conoce como clase mediana o intervalo mediano.

Luego calculamos según la siguiente fórmula:

$$Me=L_{inf}+\frac{\left(\frac{n}{2}-f_1\right)a}{f_m}$$

donde:

$L_{inf}$ es el límite inferior de la clase mediana

$\frac{n}{2}$ es la semisuma de las frecuencias absolutas (o la mitad del total de los datos)

$f_1$ es la frecuencia acumulada de la clase anterior a la clase mediana

$f_m$ es la frecuencia absoluta de la clase mediana

$a$ es el ancho de clase

Número de clase	Intervalo de valores			Límites exactos		Marca de clase	Frecuencia absoluta	Frecuencia acumulada	Frecuencia relativa	Frecuencia relativa acumulada
Número de clase	Inferior	Superior	Intervalo	Inferior	Superior	Marca de clase	Frecuencia absoluta	Frecuencia acumulada	Frecuencia relativa	Frecuencia relativa acumulada
1	1.45	1.54	1.45 - 1.54	1.445	1.545	1.495	3	3	8%	8%
2	1.55	1.64	1.55 - 1.64	1.545	1.645	1.595	11	14	28%	36%
3	1.65	1.74	1.65 - 1.74	1.645	1.745	1.695	9	23	23%	59%
4	1.75	1.84	1.75 - 1.84	1.745	1.845	1.795	7	30	18%	76%
5	1.85	1.94	1.85 - 1.94	1.845	1.945	1.895	9	39	23%	97%
6	1.95	2.04	1.95 - 2.04	1.945	2.045	1.995	1	40	3%	100%
SUMA							40		100%

Identificamos los datos. La clase media es la 3 en donde la frecuencia acumulada llega al 59%, entonces:

$L_{inf}=1.645$

$\frac{n}{2}=\frac{40}{2}=20$

$f_1=14$

$f_m=9$

$a=0.1$

Entonces, $$Me=1.645+\frac{(20-14)0.1}{9}=1.711$$

Por lo que la mitad de la población mide a lo más 1.71 m.

Autoevaluación

Esperamos este procedimiento haya sido claro, pero para verificar tus aprendizajes, te invitamos a realizar el ejercicio siguiente.

En una panadería, se preguntó la edad a los visitantes que entraron de las 12 a las 12:30, y se obtuvieron los siguientes resultados:

Media = años.

Interpretación: La edad promedio es de años.

Media = años.

Interpretación: La edad promedio es de años.

Interpretación: La edad que divide a la población en dos es de años.

Moda = años.

Interpretación: La edad que más se repite está en la clase y es de años.

Medidas de tendencia central en datos agrupados

Media para datos agrupados

Moda

Mediana

Autoevaluación

done Evaluar

Evaluar