. Orlandoni Merli, Giampaolo; 2010. Escalas de medición en Estadística. Telos 12: 243-247
MEDIDAS DE TENDENCIA CENTRAL Son medidas estadísticas que pretenden resumir en un solo valor a un conjunto de valores. Representan un centro en torno al cual se encuentra ubicado el conjunto de los datos. Se definen como un valor representativo de un conjunto de datos. Las medidas de tendencia central más utilizadas son: Media, Mediana y Moda. MEDIDAS DE DISPERSIÓN Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas con respecto a un valor de tendencia central, por lo general, la media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos (Desviación Típica, Coeficiente de Variación, Rango, Varianza, Rango Intercuartil). MEDIDAS ESTADÍSTICAS DE POSICIÓN Tienen la propiedad de dividir al conjunto de datos, previamente ordenados de menor a mayor, en grupos con el mismo número de términos (Percentiles, Deciles, Cuartiles ).
MEDIDAS DE TENDENCIA CENTRAL
Media Geométrica Modificada
En este caso: e [ ln(xi+1)/n] = X geo ----- (2.7182818….) = 1 Si a esto le restas 1, es decir, (2.7182818….) -1 = 0 Esto se corresponde con los datos Si lo realizamos usando logaritmo neperiano (ln) : ln (x 1 +1) + ln (x 2 +1) + ln (x 3 +1)
Medidas de variabilidad o dispersión
Coeficiente de Variación
COEFICIENTE DE VARIACIÓN Medida estadística que nos informa acerca de la dispersión relativa de un conjunto de datos El coeficiente de variación es una calificación que permite a los usuarios evaluar la calidad estadística de las estimaciones. Se considera que una estimación con un coeficiente de variación: Hasta del 7%, es precisa; Entre el 8 y el 14% significa que existe una precisión aceptable; Entre el 15% y 20% precisión regular y por lo tanto se debe utilizar con precaución. Mayor del 20% indica que la estimación es poco precisa y por lo tanto se recomienda utilizarla sólo con fines descriptivos
OTRAS MEDIDAS DE VARIABILIDAD
CONSTRUCCION DE HISTOGRAMA Veamos el siguiente ejemplo : suponga que una persona investiga el precio de cierto artículo y elige 40 puntos de venta al azar obteniendo los siguientes resultados : 60 75 89 77 65 80 63 72 87 64 73 75 67 74 75 74 68 73 75 75 74 76 71 76 86 82 70 71 68 78 83 77 74 67 88 80 72 78 85 84
Observaciones Tipo de variable : Discreta. Tamaño de la muestra = n = 40. No es posible a partir de la sola presentación de los datos obtener ninguna conclusión. Aunque podemos hacer cierto cálculos sobre lo datos tal como están ( datos no agrupados ) a continuación estudiaremos la forma de agruparlos. Si presentamos los datos compactados en una tabla, hablaremos de datos agrupados . Para agrupar los datos contabilizaremos el número de veces que se repiten los diferentes datos en la muestra. A esto lo llamaremos frecuencia absoluta y lo denotaremos por n i La tabla siguiente muestra estas frecuencias en el rango de valores de X i. Observemos que los valores mínimo y máximo en la muestra son : 60 y 89 respectivamente. El rango de los datos lo denotaremos por R y se calcula como : R = X max - X min . R = 89 – 60 = 29
X i N i X i n i X i n i X i n i 60 1 69 78 2 87 1 61 70 1 79 88 1 62 71 2 80 2 89 1 63 1 72 2 81 64 1 73 2 82 1 65 1 74 4 83 1 66 75 5 84 1 67 2 76 2 85 1 68 2 77 2 86 1
Cada uno de los valores de Xi a través del rango de valores de la variable lo llamaremos clase o categoría. En la tabla anterior vemos que tenemos 30 clases. La tabla de frecuencias con 30 clases tiene las siguientes deficiencias: 1.- Muchas clases. 2.- Cada clase con frecuencia baja. Para compactar los datos más adecuadamente utilizaremos intervalos de clases. Un intervalo de clase es una unidad de agrupamiento de datos. Esta compuesto por un limite inferior y un limite superior. Ejemplo : 4 – 8 es un intervalo de clases. Para determinar el número de intervalos utilizaremos la fórmula a continuación, que da una referencia de cuantos intervalos de clases K utilizar. K = 1 + 3.3*log(n) (Regla de Sturgers ) En nuestro ejemplo : K = 1 + 3.3*log(40). K = 6.3
Algunos autores sugieren la siguiente regla: El número de clases en que se agrupan los datos se determina con la raíz cuadrada del número de datos cuando este es menor de 200: Para muestras con 200 o más datos el número de clases se determina con la raíz cúbica del número de datos:
Dado que K es una referencia podemos utilizar 6 o 7 intervalos de clases. Como norma, K debe ser mayor o igual que 5 y menor o igual que 20. En nuestro caso utilizaremos K = 6. El siguiente paso es determinar la cantidad de datos que potencialmente será incluido en cada intervalo de clase. Esta cantidad la llamaremos amplitud y la denotaremos por A. Para ello hacemos A = R/K = 29/6= 4.833 …. Si redondeamos podemos utilizar A = 5. Construcción de los intervalos de clases El limite inferior del primer intervalo de clase es 60 60 -
Construcción de los intervalos de clases 60 - 65 El limite superior del primer intervalo de clase se obtiene agregando al limite inferior una cantidad igual a A (= R/K) . Es decir será 60 + 5 = 65
Construcción de los intervalos de clases 60 - 65 65 - El limite inferior del segundo intervalo de clase será el número inmediatamente siguiente al límite superior del intervalo anterior.
Construcción de los intervalos de clases 60 – 65 65 – 70 70 – 75 75 – 80 80 – 85 85 – 90 Siguiendo con los lineamientos anteriores los 6 intervalos de clase son :
Tabla de Frecuencias La tabla de frecuencias es una tabla cuyas filas corresponden a cada intervalo de clases y consta de varias columnas. La primera columna es la de frecuencias absolutas ni en cada intervalo y se obtiene asignando cada dato en la muestra en cada intervalo. Intervalo de Clase Frecuencia Abs. ( n i ) [60 – 65[ 3 [65 – 70[ 5 [70 – 75[ 11 [75 – 80[ 11 [80 – 85[ 5 [85 – 90[ 5
Notemos que : Es decir, la suma de todas las frecuencias absolutas es igual al número de datos. Además de tener una columna con las frecuencias absolutas podemos construir una columna de frecuencias relativas f i . Intervalo de Clase Frecuencia Abs . ( n i ) Frecuencia Rel . ( f i ) [60 – 65[ 3 0.075 [65 – 70[ 5 0.125 [70 – 75[ 11 0.275 [75 – 80[ 11 0.275 [80 – 85[ 5 0.125 [85 – 90[ 5 0.125
La suma de las frecuencias relativas es igual a 1. Notar que : Para construir un Histograma ( gráfico de barras y sirve para graficar las frecuencias relativas o absolutas para variables cuantitativas) seguimos el siguiente procedimiento : En el eje horizontal ( abscisas ) escribimos equi -espaciadas, las fronteras de los intervalos de clase. A continuación dibujamos barras contiguas (pegadas entre sí), una por cada intervalo de clase, haciendo coincidir su base con los límites del intervalo de clase respectivo. La altura de la barra se indica en las ordenadas y es proporcional a la frecuencia relativa o frecuencia absoluta, dependiendo de que histograma se desea obtener.
Intervalo de Clase Frecuencia Abs . ( n i ) Frecuencia Rel . ( f i ) [60 – 65[ 3 0.075 [65 – 70[ 5 0.125 [70 – 75[ 11 0.275 [75 – 80[ 11 0.275 [80 – 85[ 5 0.125 [85 – 90[ 5 0.125 Entonces, dibujamos el Histograma de Frecuencias Relativas para la siguiente distribución de frecuencias: 60 65 70 75 80 85 90 HISTOGRAMA DE FRECUENCIA RELATIVA 0.40 0.30 0.20 0.10
La formas de un histograma puede ser diversas, pero se destacan las siguientes : HISTOGRAMA Forma Acampanada o Normal HISTOGRAMA Uniforme
HISTOGRAMA Forma Sesgada a la derecha HISTOGRAMA Forma Sesgada a la izquierda
EL DIAGRAMA DE TALLOS Y HOJAS (Stem-and-Leaf Display)
Diagrama de Caja o Boxplot
Ejemplo Domino´s Pizza ofrece entregas gratuitas de pizza a 15 km a la redonda. Raúl el propietario, desea información relacionada con el tiempo de entrega. ¿Cuánto tiempo tarda una entrega típica?. ¿En que margen de tiempos deben completarse la mayoría de las entregas?. En el caso de una muestra de 20 entregas, Raúl recopiló la siguiente información: Valor mínimo = 13 min. Cuartil 1 = 15 min. Mediana = 18 min. Cuartil 3 = 22 min. Valor máximo = 30 min. se elabora un diagrama de caja para los tiempos de entrega. ¿Qué conclusiones deduce sobre los tiempos de entrega?
El primer paso para elaborar un diagrama de caja consiste en crear una escala adecuada a lo largo del eje horizontal. Enseguida, dibujamos una caja que inicie en Q1 (15 min) y termine Q3 (22 min). Dentro de la caja trazamos una línea vertical para representar a la mediana (18 min). Por último, prolongamos líneas horizontales a partir de la caja dirigidas al valor mínimo (13 min) y al valor máximo (30 min). Estas líneas horizontales que salen de la caja, a veces reciben e nombre de bigotes.
El Diagrama de caja muestra que el valor medio de las entregas, 50%, consume entre 15 y 22 minutos. La distancia entre los extremos de la caja, 7 minutos, es el rango intercuartil. Este rango es la distancia entre el primer y tercer cuartel; muestra la propagación o dispersión de la mayoría de las entregas.