Análisis descriptivos de datos (4).pptx

IvanAndrsCarrasco 137 views 75 slides Mar 26, 2024
Slide 1
Slide 1 of 75
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49
Slide 50
50
Slide 51
51
Slide 52
52
Slide 53
53
Slide 54
54
Slide 55
55
Slide 56
56
Slide 57
57
Slide 58
58
Slide 59
59
Slide 60
60
Slide 61
61
Slide 62
62
Slide 63
63
Slide 64
64
Slide 65
65
Slide 66
66
Slide 67
67
Slide 68
68
Slide 69
69
Slide 70
70
Slide 71
71
Slide 72
72
Slide 73
73
Slide 74
74
Slide 75
75

About This Presentation

Análisis de Datos


Slide Content

Estadística y Probabilidad Clase presencial: Análisis descriptivo de datos

Instrucción o nota TEMAS A DESARROLLAR: Análisis de información: Población y muestra. Clasificación de variables . Representación de la información: Representación de la información mediante tablas de frecuencias y de doble entrada. Medidas de análisis descriptivo de datos univariados Medidas de resumen. Medidas de tendencia central. Medidas de dispersión. Medidas de posición . Representación gráfica de la información: Representación de la información mediante gráficos. Medidas de análisis descriptivo de datos bivariados : Medidas de resumen. Medidas de tendencia central. Medidas de dispersión. Medidas de posición. Bibliografía: Estadística Matus, R. 2006 Estadística Spiegel , Murray R. 2009 Estadística descriptiva Monroy Saldívar, Salvador 2008 Estadística y muestreo Martínez Bencardino , Ciro 2012 Probabilidad y estadística para ciencias químicobiológicas Marques de Cantú, María José 1991 Probabilidad y estadística para ingeniería y ciencias Sheldon M., Ross 2002

La Estadística es la Ciencia de la Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de Deducir las leyes que rigen esos fenómenos, Y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones . Descriptiva Probabilidad Inferencia Estadística descriptiva: Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos. Estadística inferencial: Apoyándose en el cálculo de probabilidades y a partir de datos muestrales , efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos.

Es una disciplina que se encarga de recolectar, resumir, analizar e interpretar datos, con el fin de explicar condiciones o situaciones, apoyando la toma de decisiones. Definición de Estadística Tipos de Estadística Descriptiva Inferencial Se ocupa de recolectar, organizar y presentar los datos para su posterior análisis. Métodos y procedimientos para deducir características de la población a partir de una muestra.

Población y muestra Población (N) Es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Corresponde al universo del que se desea medir alguna característica particular. Normalmente es demasiado grande para poder abarcarla. Ejemplo: Deseamos medir el rendimiento de los alumnos de INACAP de la carrera de Informática, por lo que la población son todos los estudiantes de dicha carrera.

Población y muestra Muestra (n) Es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) . Corresponde a un subconjunto de elementos de la población Debería ser “ representativo ” Esta formado por miembros “ seleccionados ” de la población (individuos, unidades experimentales). Ejemplo: Tomando el ejemplo de población, una muestra de ellos son los cursos.

Conceptos Básicos Variable: Corresponde a una característica observable que varía entre los diferentes individuos de una población. La información que disponemos de cada individuo es resumida en variables . Dato : Corresponde a una característica o atributo en particular. Son medidas recopiladas en forma grupal o no agrupadas. Observación : Son distintas características, propiedades o atributos observadas en un mismo sujeto u objeto . Nº de ficha Sexo Edad Hipert Fuma Diabetes 001 1 72 1 1 002 67 003 46 Variables Dato Observación Ejemplo : Ficha pacientes en una consulta médica

Variable Cuantitativa Cualitativa Ejemplo: Se desea realizar un estudio con los estudiantes que ingresan a primer año de construcción en INACAP. Para ello se consideraron las variables: tipo de colegio de procedencia, nivel socioeconómico, ingreso familiar (en miles de $) y el número de integrantes de su grupo familiar. Ingreso Familiar (m$) N° de integrantes Nivel socioeconómico (Bajo-Medio-Alto) Colegio de procedencia (Municipal-Particular-Subvencionado) Clasificación de las Variables

7 Cuantitativa Discreta Continua Variable: Estatura en metros. Ejemplo N°1 1 1,4 1,6 1,8 1,7 Variable: Cantidad de hijos por familia. 8 4 6 7, 5 ERROR!! Ejemplo N°2 Cuantitativa Discreta Cuantitativa Continua Variable Cualitativa Clasificación de las Variables

Clasificación de las Variables Variable Cualitativa Cuantitativa Discreta Continua Nominal Ordinal Existe relación de orden en sus categorías. No existe relación de orden en sus categorías. Ejemplo: Población Profesores de INACAP (Alto – Medio – Bajo) Cualitativa Ordinal a) Variable: Nivel socioeconómico. b) Variable: Género. (Masculino – Femenino) Cualitativa Nominal c) Variable: Tipo de contrato. (Plazo fijo – Indefinido) Cualitativa Nominal

Caso 1: En una clínica privada ubicada en la comuna de Providencia, se desea estudiar el sueldo mensual (en miles de $) de sus trabajadores. Población Variable Clasificación En los siguientes casos identifique la población, la variable y clasifíquela: Caso 2: En la fábrica Polystel se desea medir el tiempo que cada trabajador demora en confeccionar un pantalón. Población Variable Clasificación Trabajadores de la clínica privada. Sueldo mensual (en miles de $). Cuantitativa continua. Tiempo en la confección de un pantalón. Cuantitativa continua. Trabajadores de una fábrica textil que confeccionan pantalones. Ejercicio

Caso 3: INACAP desea analizar el número de estudiantes de la carrera de Contabilidad que aprobaron la asignatura de Matemática Financiera . Población Variable Clasificación Caso 4: En la Municipalidad de Providencia se estudia las marcas de automóviles inscritos en dicha Municipalidad. Población Variable Clasificación Alumnos de la carrera de Contabilidad. Número de alumnos que aprobaron Matemática Financiera. Cuantitativa discreta. Autos inscritos en la Municipalidad de Providencia. Marca de un automóvil. Cualitativa nominal.

Caso 5: En INACAP se desea estudiar las carreras que los alumnos siguen. Población Variable Clasificación Caso 6: En una cooperativa se desea estudiar el nivel de educación que tienen sus socios. Población Variable Clasificación Alumnos de INACAP. Carrera que estudia un alumno. Cualitativa nominal. Socios de la cooperativa. Nivel educacional. Cualitativa ordinal.

Organización y presentación de datos Tablas de Frecuencias y Gráficos Estadísticos

Presentación ordenada de datos Género Frecuencia Hombre 4 Mujer 6 Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra.

Datos desordenados y ordenados en tablas Variable: Género Modalidades: H = Hombre M = Mujer Muestra: M H H M M H M M M H equivale a HHHH MMMMMM VariableGénero Frecuencia Absoluta Frecuencia Relativa (Porcentaje) Hombre 4 4/10 = 0,4 = 40% Mujer 6 6/10 = 0,6 = 60% n=10 tamaño muestral

Tablas de Frecuencia Frecuencias Absoluta s: Contabilizan el número de individuos de cada modalidad Frecuencias Relativas (porcentaje s): Contabilizan el número de individuos de cada modalidad, pero dividido por el total Frecuencias Acumuladas: Sólo tienen sentido para variables ordinales y numéricas Exponen la información recogida en la muestra, de forma resumida sin que se pierda nada de información. ¿Qué porcentaje de individuos tiene a lo más de 3 hijos? Solución: 83,8% ¿Entre 4 y 6 hijos? Solución: 8,4% + 3,6% + 1,6% = 13,6% .

Ejemplo ¿Cuántos individuos tienen menos de 2 hijos? 419 + 255 674 individuos ¿Qué porcentaje de individuos tiene 6 hijos o menos? 97,3% ¿Qué cantidad de hijos es tal que al menos el 50% de la población tiene una cantidad inferior o igual? 2 hijos

Distribución de Frecuencias Se indica por L i al límite inferior del intervalo y por L s al límite superior. Notación Definición Marca de Clase Es el punto medio de cada intervalo (clase) y representa el valor de cada intervalo. Amplitud Es la diferencia entre el límite superior e inferior del intervalo Recorrido o rango Corresponde a la diferencia entre el mayor y el menor valor de los datos en estudio. Frecuencia absoluta Corresponde al número de observaciones que pertenecen al intervalo de clase. Frecuencia Relativa Es la razón entre la frecuencia absoluta en cada intervalo y el total de la muestra. Frecuencia Absoluta Acumulada Corresponde a la suma de las frecuencias absolutas anteriores, más la frecuencia en cuestión. Frecuencia Relativa Acumulada Corresponde a la suma de las frecuencias relativas anteriores, más la frecuencia en cuestión. La distribución de frecuencias es una tabla resumen de los datos originales, donde se fijan intervalos de clase. Para la construcción de la distribución de frecuencias, se deben conocer los siguientes conceptos:

Importante tener en cuenta Definir el propósito de la tabla. Escribir un titulo que indique QUÉ se presenta en la tabla, CÓMO, CUÁNDO y DÓNDE. Asignar escalas de clasificación en filas y columnas. Las tablas, habitualmente deben ser enumeradas cuando hay mas de una en el texto. Tabla 1. Motivo de la consulta médica, durante la primera semana de 2011 en la Clínica X Motivo Consulta Número de pacientes Bronquitis 29 Otitis 23 Heridas 17 Fracturas 12 Vacunas 9 TOTAL 90 Qué Cómo Dónde Cuándo

Para hacer más clara y evidente la información que nos dan las tablas se utilizan los gráficos. Existen múltiples tipos de gráficos, siendo los más frecuentemente usados: Gráfico de barras, gráfico de sectores o circular (pastel), histograma, polígono de frecuencias, la ojiva y el pictograma. Representaciones Gráficas La información contenida en las tablas de frecuencias resulta más accesible y fácil de interpretar si se representan por medio de gráficos estadísticos.

Gráfico circular o de torta Se utiliza para representar la frecuencia relativa ( h i ). Se aplica para cualquier tipo de variable, pero de preferencia se aplica a variables cualitativas. Nivel de Educación f i h i Básico 16 8% Medio 50 25% Universitario 112 56% Postgrado 22 11%

Histograma Duración de una llamada en minutos f i h i F i H i 6 - 9 4 1,00% 4 1,00% 9 - 12 17 4,25% 21 5,25% 12 - 15 41 10,25% 62 15,50% 15 - 18 98 24,50% 160 40,00% 18 - 21 84 21,00% 244 61,00% 21 - 24 76 19,00% 320 80,00% 24 - 27 56 14,00% 376 94,00% 27 - 30 18 4,50% 394 98,50% 30 - 33 5 1,25% 399 99,75% 33 - 36 1 0,25% 400 100,00% Se utiliza para representar la distribución de frecuencias absolutas o relativas en una variable cuantitativa continua. Esta formado por rectángulos unidos a otros, cuyos vértices de la base coinciden con los limites de los intervalos.

Polígono de Frecuencias Se utiliza para representar la distribución de frecuencias absolutas o relativas de una variable cuantitativa continua. Es útil cuando se quiere comparar dos distribuciones en un mismo gráfico. Duración de una llamada en minutos f i h i F i H i 6 - 9 4 1,00% 4 1,00% 9 - 12 17 4,25% 21 5,25% 12 - 15 41 10,25% 62 15,50% 15 - 18 98 24,50% 160 40,00% 18 - 21 84 21,00% 244 61,00% 21 - 24 76 19,00% 320 80,00% 24 - 27 56 14,00% 376 94,00% 27 - 30 18 4,50% 394 98,50% 30 - 33 5 1,25% 399 99,75% 33 - 36 1 0,25% 400 100,00%

¿Histograma / gráfico de barras? Tipo mascota N° de Hogares Perro 15 Gato 10 Pájaro 5 Pez 3 Reptil 1 Roedor 2

Gráfico de barras múltiples Se utiliza para representar la asociación de dos o más variables cualitativas o cuantitativas discretas. Sirve para mostrar dos o más conjuntos de datos al mismo tiempo y así facilitar la comparación entre ellos. Ejemplo: Se realizó una encuesta a 120 profesores de un colegio, en la que se les preguntó el estado civil y el ciclo de enseñanza a la cual pertenecían (enseñanza básica o media). Los resultados se presentan en la siguiente tabla adjunta. Estado Civil Profesores enseñanza básica Profesores enseñanza media Casado 24 22 Soltero 16 17 Viudo 5 8 Separado 13 15 Total 58 62 Se pide: Construya un gráfico para presentar visualmente los resultados obtenidos. Interprete el gráfico, indicando al menos tres aspectos.

Respuesta: Se puede señalar que el estado civil más frecuente (46) entre los profesores del colegio es casado, en cambio la minoría de ellos (13) es viudo. En la enseñanza básica y media hay más profesores solteros que separados. Más de la mitad de los profesores (79) son casados o solteros.

Gráfico de línea Los gráficos de líneas se recomiendan para representar series de tiempo, donde la variable independiente es el tiempo. Se utiliza para comparar valores a lo largo del tiempo, indicándonos las fluctuaciones que tiene la variable. Ejemplo: El Liceo Politécnico BLANCA FLOR DEL CAMPO desea estudiar la evolución de la matrícula durante los últimos años, en términos de los alumnos matriculados por género. Los resultados están detallados en la tabla adjunta. Se pide: Construya un gráfico para observar la variación de la matrícula por año. Interprete el gráfico, indicando al menos tres aspectos. Año Masculino Femenino 2005 322 319 2006 321 319 2007 321 320 2008 320 319 2009 318 321 2010 316 320

Respuesta: Los estudiantes varones muestran una tendencia descendente en la matricula anual , en cambio en l as mujeres no se observa la tendencia en la matricula anual . A partir del año 2009 y 2010 se matriculan más mujeres que varones .

Gráfico de dispersión Un diagrama de dispersión es una representación gráfica de un sistema de ejes coordenados X e Y. Cada eje representa una variable. El conjunto de todos los puntos se denomina nube de puntos . El propósito del diagrama de dispersión es mostrar, de manera intuitiva, si existe o no relación entre las variables . Ejemplo: En la siguiente tabla adjunta se observan dos variables, altura en centímetros y peso en kilogramos, de un grupo de individuos. Construya un gráfico de dispersión con los datos de la tabla. Altura en cm. Peso en Kg. 162 61 154 60 180 78 158 62 171 66 169 60 166 54 176 84 163 68

1* | 69 2* | 23677 3* | 1122235555679 4* | 2455568 5* | 178 Ahora es fácil observar, por ejemplo que: 1) La persona con menor edad tiene 16 años 2) La persona de mayor edad tiene 58 años 3) Existen tres personas con 45 años, etc. Consiste en mantener la decena del dato y clasificar la unidad numérica. Las unidades, por cada decena, son puestas en orden ascendente. Gráfico de Tallos y hojas

Este gráfico se utiliza para graficar variables cuantitativas. Consta de dos partes: la caja , que representa los datos entre el percentil 25 y 75 y en cuyo interior se identifica el valor de la mediana y los bigotes: El bigote inferior indica los valores contenidos entre el valor mínimo de la serie y el percentil 25, mientras el bigote superior representa los datos contenidos entre el percentil 75 y el valor máximo de la serie de datos. Gráfico de Cajas y bigotes o Box Plot

Se realizó un estudio sobre una muestra de 300 hogares de la comuna de Maipú que son abastecidos con agua potable por la empresa Aguas Andinas, con respecto al consumo promedio mensual (en m 3 ). Ejercicio Se pide: 1.- Identificar población y variable (clasificarla). 2.- Completar Histograma (títulos). 3.- Interpretar Histograma.

Respuesta: 1.- Identificar población y variable (clasificarla). Población Hogares de la comuna de Maipú. Variable Consumo promedio mensual de agua potable en m 3 . Clasificación Cuantitativa continua. 2.- Completar Histograma (títulos).

Interpretación : Se observa que el rango con la mayor cantidad de hogares consumen mensualmente en promedio sobre 24,8 y hasta 29,1 m 3 de agua, en cambio el rango c on la menor cantidad de hogares tiene un consumo mensual promedio sobre 42 y hasta 46,3 m 3 de agua. Además el consumo promedio mensual de agua potable de los hogares se distribuye (varía) desde 7,6 y hasta 46,3 m 3 . 3.- Interpretar Histograma.

33,67 54,00 53,00 134,00 178,00 39,33 61,33 186,00 35,00 62,00 55,50 155,00 47,00 71,50 72,00 60,67 119,00 152,00 110,00 58,00 134,00 61,00 53,67 135,00 54,00 83,00 86,50 156,00 59,50 164,00 55,50 64,50 93,00 146,00 64,33 163,00 131,00 41,33 35,67 66,67 188,00 60,00 58,67 155,00 68,00 89,50 39,00 66,67 199,00 44,00 92,00 170,00 135,00 192,00 61,00 82,00 66,00 61,33 55,50 176,00 40,33 187,00 42,00 91,50 53,50 57,67 33,33 173,00 188,00 58,00 60,50 116,00 53,33 66,67 135,00 45,33 142,00 178,00 90,00 151,00 97,00 55,67 80,00 56,67 105,00 161,00 189,00 53,67 75,00 65,50 89,00 42,00 174,00 52,67 123,00 45,00 58,00 84,50 44,33 51,33 37,33 199,00 33,67 112,00 171,00 120,00 98,50 54,67 59,33 65,00 103,00 59,00 64,33 142,00 128,00 73,00 55,50 61,00 35,00 144,00 38,00 76,50 142,00 61,33 76,00 91,00 193,00 91,50 92,00 118,00 116,00 146,00 61,00 129,00 56,50 117,00 51,00 61,00 71,50 160,00 70,50 34,33 65,00 163,00 90,50 66,67 169,00 41,67 40,67 133,00 64,00 79,00 61,67 125,00 34,67 122,00 167,00 103,00 84,50 53,33 69,00 63,50 111,00 51,00 35,33 61,00 67,50 65,50 40,00 66,67 84,00 42,67 188,00 35,33 57,00 64,67 169,00 67,50 34,67 63,00 97,50 165,00 99,50 55,00 143,00 82,00 177,00 66,50 34,33 88,50 64,00 186,00 149,00 205,80 125,00 90,50 145,00 50,00 64,67 34,33 Los siguientes datos representan las 200 ventas (en miles de $) realizadas por una tienda de ropa en un día. TABLA DE DISTRIBUCION DE FRECUENCIAS

¿Cómo resumiría los datos anteriores? Población Variable Clasificación Ventas realizadas por la tienda en un día. Monto de una venta, en miles de pesos. Cuantitativa continua. Podemos resumir los datos por medio de una tabla y/o un gráfico. Para comenzar es importante identificar la población, la variable y su respectiva clasificación o tipo, para poder realizar las interpretaciones correspondientes.

¿Cómo se elabora la tabla de frecuencias? Cantidad de datos (n) 200 N° de Intervalos 9 Valor Mínimo 33,33 Valor Máximo 205,8 Rango 172,47 Amplitud del intervalo 19,17 =CONTAR(rango matriz) =REDONDEAR( 1+3,3∙LOG10(n); 0) =MIN(rango matriz) =MAX(rango matriz) =MAX - MIN =REDONDEAR.MAS(rango /N° de intervalos; 2 ) Se utilizará la misma cantidad de decimales que tienen los datos. Se determina el número de intervalos usando la Regla de Sturges y posteriormente se calcula la amplitud, como se indica a continuación:

L i L s 33,33 52,5 52,50 71,67 71,67 90,84 90,84 110,01 110,01 129,18 129,18 148,35 148,35 167,52 167,52 186,69 186,69 205,86 El último limite superior debe ser igual o mayor al dato máximo. La cantidad de filas que tendrá la tabla es el número de intervalos. Luego se calcula el límite inferior ( L i ) y superior ( L s ) de cada intervalo. Cantidad de datos (n) 200 Cantidad de Intervalos 9 Valor Menor 33,33 Valor Mayor 205,8 Rango 172,47 Amplitud del intervalo 19,17

Representa el número de datos u observaciones que pertenecen a un intervalo. Frecuencia Absoluta f i L i L s f i 33,33 52,5 34 52,5 71,67 68 71,67 90,84 20 90,84 110,01 14 110,01 129,18 14 129,18 148,35 15 148,35 167,52 13 167,52 186,69 12 186,69 205,86 10 Interpretación: Se observan 12 ventas cuyo monto está sobre $167.520 y hasta $186.690. [ ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ]

Frecuencia Relativa h i L i L s f i h i 33,33 52,5 34 17% 52,5 71,67 68 34% 71,67 90,84 20 10% 90,84 110,01 14 7% 110,01 129,18 14 7% 129,18 148,35 15 7,5% 148,35 167,52 13 6,5% 167,52 186,69 12 6% 186,69 205,86 10 5% ] ] Para determinar las frecuencias relativas, se divide cada frecuencia absoluta por el total de datos y el resultado se expresa en %. 200 Observación: Siempre la suma de la frecuencia absoluta debe ser igual a la cantidad de datos y la suma de la frecuencia relativa debe ser igual al 100% . 100% Interpretación: El 6,5,% de las ventas fueron por un monto sobre $148.350 y hasta $167.520. Representa el porcentaje de las observaciones que pertenecen a un intervalo.

Se obtiene sumando F 2 con f 3 Se obtiene sumando F 1 con f 2 Frecuencia Absoluta Acumulada F i Corresponde a la suma acumulada de la frecuencia absoluta. L i L s f i h i F i 33,33 52,5 34 17% 34 52,5 71,67 68 34% 102 71,67 90,84 20 10% 122 90,84 110,01 14 7% 136 110,01 129,18 14 7% 150 129,18 148,35 15 7,5% 165 148,35 167,52 13 6,5% 178 167,52 186,69 12 6% 190 186,69 205,86 10 5% 200 Interpretación: 165 ventas fueron por un monto de a lo más $148.350. Se repite f 1

INTERVALOS DE LA VARIABLE Frecuencia Absoluta Frecuencia Relativa Frecuencia Absoluta Acumulada Frecuencia Relativa Acumulada Límite inferior límite superior L i L s f i h i F i H i 33,33 52,5 34 17% 34 17% 52,5 71,67 68 34% 102 51% 71,67 90,84 20 10% 122 61% 90,84 110,01 14 7% 136 68% 110,01 129,18 14 7% 150 75% 129,18 148,35 15 7,5% 165 82,5% 148,35 167,52 13 6,5% 178 89% 167,52 186,69 12 6% 190 95% 186,69 205,86 10 5% 200 100% Tabla de Frecuencia

1) Identifique población y variable (clasifíquela). 2) Complete tabla de frecuencias. 3) Interprete f 2 , F 3 , h 3 , H 5 . Ejercicio: Sueldo, en m$ Cantidad de empleados 360 – 400 35 400 – 440 80 440 – 480 104 480 – 520 140 520 – 560 13 560 – 600 28 La siguiente tabla corresponde a los sueldos (en miles de $) que paga en la actualidad una empresa comercial . Se pide:

Respuesta: Población Variable Clasificación Empleados de la empresa. Sueldo en miles de pesos. Cuantitativa continua. Sueldo, en m$ f i h i F i H i 360 – 400 35 8,75% 35 8,75% 400 – 440 80 20% 115 28,75% 440 – 480 104 26% 219 54,75% 480 – 520 140 35 % 359 89,75% 520 – 560 13 3,25% 372 93% 560 – 600 28 7% 400 100% 400 100% f 2 : F 3 : h 3 : H 5 : 1) 2) 3) 80 trabajadores tienen un sueldo superior a $400.000 y hasta $440.000. 219 trabajadores tienen un sueldo máximo de $480.000. El 26% de los trabajadores tienen un sueldo sobre $440.000 y hasta $480.000. El 93% de los trabajadores tienen un sueldo de a lo más $560.000.

Medidas de Tendencia Central Aquellos valores hacia los cuales tienden a aglomerarse los datos de una muestra. La mayoría de ellas trata de ubicar el centro de la distribución.

Medidas de Tendencia Central Las medidas de tendencia central o de resumen son valores que generalmente se ubican en la parte central de la distribución de datos . Fundamentalmente estas medidas se usan para variables cuantitativas, aportando una idea acerca del comportamiento de la variable, por ejemplo el promedio de un conjunto de datos . Entre las medidas de tendencia centra l más importantes están: - Media aritmética. - Moda. - Mediana.

La Media o promedio para Datos No Agrupados Es una de las medidas de tendencia central de mayor uso. Dada una colección de datos X 1 ,X 2 ,.... X n . Entonces el promedio se define como la suma de los datos dividida por el total de la muestra y se denota por: La Media o Promedio Ejemplo: Se tienen las notas de 20 alumnos de un curso. Éstas son: La nota promedio del curso fue de 5,3

Si los datos están agrupados en una tabla de frecuencias se calcula la media, multiplicando la marca de clase por la frecuencia de cada intervalo. Se suman los resultados de cada multiplicación y se dividen por el número total de datos. La Media o Promedio para Datos Agrupados en intervalos Proteínas (g/l) Frecuencia Absoluta fi Marca de Clase xi fi* xi 40 – 45 2 42,5 85 45 – 50 6 47,5 285 50 – 55 12 52,5 630 55 – 60 13 57,5 747,5 60 – 65 5 62,5 312,5 65 – 70 2 67,5 135 Total 40 2195 Proteínas totales del plasma en prematuros normales de 15 días de edad Ejemplo: El promedio de concentración de proteínas en el plasma, en niños prematuros normales, es de 54,9 gramos.

Ventajas y Desventajas de la Media Aritmética Ventajas El concepto de media aritmética es familiar para mucha gente e intuitivamente claro. Es un valor único que generalmente representan mejor a una distribución. Ya que en su cálculo se consideran todos los datos. Desventajas Puede verse afectada por la presencia de valores extremos o atípicos que no son representativos del conjunto de datos. En estos casos podría resultar más representativo calcular la media sin tomar en cuenta el valor extremo. Puede ser poco representativa en distribuciones que presentan mucha asimetría .

Es aquel valor que más se repite en una muestra y se denota por Mo. La moda es el estadístico de centralización adecuado si la variable está medida en escala nominal : También se utiliza la moda si la variable está medida en escala ordinal o numérica discreta : La Moda para Datos No Agrupados Si la variable es continua, formalmente la moda no existe, pues es muy difícil que al sacar una muestra de números reales dos o mas de ellos coincidan. La Moda Ejemplo: Considere las siguientes notas de un curso de 20 alumnos La nota más frecuente en el curso fue 5,0 Distribución del número de hijos en mujeres post menopáusica Distribución trabajadores por género

Moda para Datos Agrupados en intervalos Li : Límite inferior del intervalo que contiene la frecuencia mas alta Δ 1 : Diferencia entre la frecuencia mas alta y la del intervalo anterior Δ 2 : Diferencia entre la frecuencia mas alta y la del intervalo siguiente A : Amplitud del intervalo Ejemplo: Li : 24 años A : 4 Δ 1 : 15-10=5 Δ 2 : 15-12=3 La moda o dato más frecuente de edad en este grupo de datos, es de 26,5 años. Para calcularla debe ubicarse el intervalo que tiene la mayor frecuencia EDAD fi 16 – 20 8 20 – 24 10 24 – 28 15 28 – 32 12 32 – 36 5

Ventajas y Desventajas de la Moda Ventajas No se ve afectada por la presencia de valores extremos bajos o altos. Puede también aplicarse a datos cualitativos. Desventajas Puede no existir o puede que exista más de una moda ( bimodal : 2 modas; polimodal: más de 2 modas). Esto significa que pierde utilidad y dificulta su interpretación.

Es aquel valor que divide la muestra en dos partes iguales. De este modo, la mediana es el primer valor de la variable que deja por debajo de sí al 50% de las observaciones. La mediana corresponde al percentil 50 o Cuartil 2, (Mediana=P 50 =Q 2 ). Notemos que la mediana es tanto un estadígrafo de posición y de centralización. Mediana para Datos No Agrupados La Mediana

Si n es par: Mediana Datos No Agrupados 55 Si n es impar: Ejemplo: 5 7 7 10 12 18 25 Ejemplo: 5 7 7 10 12 18 25 32 El valor que divide la muestra en dos partes iguales, es 10 La mediana es igual al promedio de las dos posiciones centrales Como la cantidad de datos es par, entonces la mediana corresponde al promedio de los datos centrales, por lo tanto la mediana es 11.

Mediana para Datos agrupados en intervalos D ividir el total de la muestra en dos (n/2) y buscar el intervalo que contenga la frecuencia absoluta acumulada igual o mayor a n/2. Donde: Li : Límite inferior del intervalo de la clase mediana n : Número total de observaciones Fi anterior : Frecuencia acumulada hasta el intervalo anterior a que contiene la mediana. fi : Frecuencia absoluta de la clase mediana. A : Amplitud de la clase mediana. n/2 : Muestra/2. Clase mediana EDAD fi Fi 15 – 25 40 40 25 – 35 67 107 35 – 45 143 250 45 – 55 180 430 55 – 65 270 700 65 – 75 275 975 Li : 55 n : 975 Fi anterior : 430 fi : 270 A : 10 n/2 : 975/2= 487,5 Ejemplo: Distribución por edad de 975 individuos El 50% de los individuos tiene 57,1 años o menos El valor que divide la muestra en dos partes iguales, es 57,1

Ventajas y Desventajas de la Mediana Ventajas La más importante es que no se ve afectada como la media, por datos con valores extremos . Por lo que al existir valores extremos la mediana es más representativa que la media aritmética. La facilidad para entenderla conceptualmente . Desventajas El ordenar los datos en forma creciente para calcular su valor, puede implicar un mayor tiempo, si se trabaja con una gran número de datos y no se cuenta con un ordenador .

Ejercicio Se llevó a cabo un estudio en los policlínicos de la capital, sobre el número de atenciones de personas con problemas respiratorios durante el mes de julio del 2011, considerado el mes más crítico en cuanto a niveles de contaminación. El estudio se basó en una muestra de 14 policlínicos de Santiago. Calcule e interprete las medidas de tendencia central. 28 – 24 – 10 – 36 – 30 – 17 – 8 – 11 – 51 – 15 – 31 – 15 – 34 – 15

Respuestas Interpretación: Los policlínicos realizaron en promedio 23,2 atenciones a personas con problemas respiratorios durante en mes de julio del 2011. Media = 23,2 Interpretación: El número más frecuente de atenciones en los policlínicos a personas con problemas respiratorios en mes de julio del 2011 fue 15. Moda = 15 Interpretación: Al menos el 50% de los policlínicos realizaron 20 atenciones o menos en mes de julio del 2011 a personas con problemas respiratorios. Mediana = 20,5

Las medidas de posición no centrales permiten conocer otros valores característicos de la distribución, que no son los valores centrales, los que nos ayudan a ubicar un dato dentro de la distribución . Entre las medidas de posición , están: Cuartiles Quintiles Deciles Percentiles Medidas de Posición no central

Los cuartiles son valores que dividen a la muestra ordenada en forma ascendente en 4 partes iguales, cada una de ellas con un 25% de las observaciones. Cuartiles

Los quintiles son valores que dividen a la muestra ordenada en forma ascendente en 5 partes iguales, cada una de ellas con un 20% de las observaciones. Quintiles

Los deciles son valores que dividen a la muestra ordenada en forma ascendente en 10 partes iguales, cada una de ellas con un 10% de las observaciones. Deciles

Percentiles Si los datos se encuentren tabulados se deben seguir los siguientes pasos: 1. Calcular frecuencias acumuladas simples ( ) 2. Determinar el intervalo, en el cual el primer supere a       : Límite inferior del intervalo que contiene al percentil : Total de observaciones : Frecuencia acumulada del intervalo anterior : Frecuencia absoluta del intervalo que contiene al percentil : Amplitud del intervalo

    Se puede observar que ambos alunmos tienen idéntico rendimiento promedio. Sin embargo ¿quién tiene rendimiento más homogéneo?, por inspección vemos que DIEGO, pues obtuvo sólo notas 4.0, mientras que NATALIA obtuvo toda la gama de notas. Para contestar la pregunta propuesta mediante el uso de indicadores estadísticos se desarrollaron los estadígrafos de variabilidad o medidas de Dispersión . Alumno Calificaciones Promedio DIEGO 4,0 4,0 4,0 4,0 4,0 4,0 4,0 4,0 NATALIA 2,0 3,0 7,0 4,0 6,0 5,0 1,0 4,0 Medidas de Dispersión Las medidas de dispersión cuantifican la variabilidad (el grado de separación) que presenta un conjunto de datos. Ya que dos conjuntos de datos pueden tener las mismas medidas de tendencia central pero diferir en términos de variación .

Se define el rango o recorrido de los datos como la distancia que existe entre el dato de mayor valor (máximo) y el de menor valor (mínimo). Para el ejemplo anterior: Rango(Calificaciones de Natalia)=7,0 -1,0 = 6 Rango(Calificaciones de Diego)= 4,0 – 4,0 = 0 Se puede observar que mientras mas heterogénea es la colección de datos mayor es el valor del rango. Sin embargo el Rango puede exagerar el grado de heterogeneidad del los datos, para prevenir este hecho se prefiere usar como medida de variabilidad otro tipo de Rango, denominado Rango intercuartílico . Rango o Recorrido

Rango Intercuartílico Dado que el rango puede exagerar el grado de heterogeneidad del los datos, para prevenir este hecho se prefiere usar como medida de variabilidad el rango intercuartílico , que corresponde a la distancia entre primer y tercer cuartil. Esta medida, no es tan sensible a valores extremos. En esta salida se han destacado en negritas los tres cuartiles, C1=31 años C2=35 años C3=45 años Ejemplo: A continuación se presentan los estadígrafos de resumen de la variable edad, medida en un grupo de 30 pacientes RIC= C 3 -C 1 RIC= 45-31=14

Varianza Varianza: Datos no agrupados Ejemplo: Consideremos las calificaciones de 2 alumnos: Natalia y Diego Nota Desvío de las notas, respecto del promedio 2 2 - 4= -2 3 3 - 4= -1 7 7 - 4= 3 4 4 - 4= 0 6 6 - 4= 2 5 5 - 4= 1 1 1 - 4= -3 Total 28 Mide la dispersión de los datos con respecto a su media, su calculo es la media de las diferencias cuadráticas de cada observación con su media. Es representada como σ 2 cuando es la varianza poblacional y S 2 varianza muestral . Describe la variabilidad de los datos alrededor de la media: es grande cuando hay mucha dispersión y pequeña cuando hay poca dispersión.

Desviación estándar: Datos Agrupados Proteínas totales del plasma en prematuros normales de 15 días de edad La mayoría de las concentraciones de proteínas en el plasma, están entre 54,9 -5,99 y 54,9 + 5,99, es decir entre 48,41 y 60,39. ó Proteínas (g/l) Frecuencia Absoluta (fi) Marca de Clase ( X´i ) fi * X´i       40 – 45 2 42,5 85 -12,4 153,76 307,52 45 – 50 6 47,5 285 -7,4 54,76 328,56 50 – 55 12 52,5 630 -2,4 5,76 69,12 55 – 60 13 57,5 747,5 2,6 6,76 87,88 60 – 65 5 62,5 312,5 7,6 57,76 288,8 65 – 70 2 67,5 135 12,6 158,76 317,52 Total 40   2175    437,56 1399,4

Coeficiente de Variación Es una medida que permite interpretar el grado de heterogeneidad entre los datos y comparar el nivel de dispersión de dos muestras de variables diferentes. Entre menor es el valor, más homogéneos son los datos. Se calcula como el cociente entre la desviación estándar y el promedio, multiplicado por 100. Para el ejemplo de las calificaciones de Natalia, encontramos : Es decir un 55% de variabilidad o dispersión, que es alto:.

0 1 Datos más dispersos (más heterogéneos) Homogéneo: Uniforme, semejante, similar, idéntico. Heterogéneo: D iverso, variado, mezclado, distinto. Observación: Expresado en porcentaje el coeficiente de variación toma valores desde 0% al 100%. Datos menos dispersos (más homogéneos) Coeficiente de Variación

El Box Plot es un gráfico muy útil que reúne los conceptos de centralización, simetría y variabilidad, el cual permite comparar el comportamiento de la variable. Box Plot o gráfico de cajas y bigotes Valores Outlier o atípicos

Box Plot o gráfico de cajas y bigotes

Interpretación El rango de edad de este grupo de pacientes, está entre 16 y 58 años. La edad promedio es de 36,13 años. El 25% de las personas tiene 31 años o menos. El 50% de las personas tiene 35 años o menos. La mayoría de las edades se concentra entre 36,13±10,5, es decir, entre 25,6 y 46,6 años. La varianza es de 109,4 Los datos presentan una asimetría positiva. Los datos tienen una variabilidad de 28,9%, es decir una variabilidad moderada.

Estadística y probabilidad Clase presencial: Análisis descriptivo de datos
Tags