3. Estadisticos Descriptivos 2023 I I.pptx

MariaFernanda542965 12 views 109 slides Sep 22, 2025
Slide 1
Slide 1 of 109
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49
Slide 50
50
Slide 51
51
Slide 52
52
Slide 53
53
Slide 54
54
Slide 55
55
Slide 56
56
Slide 57
57
Slide 58
58
Slide 59
59
Slide 60
60
Slide 61
61
Slide 62
62
Slide 63
63
Slide 64
64
Slide 65
65
Slide 66
66
Slide 67
67
Slide 68
68
Slide 69
69
Slide 70
70
Slide 71
71
Slide 72
72
Slide 73
73
Slide 74
74
Slide 75
75
Slide 76
76
Slide 77
77
Slide 78
78
Slide 79
79
Slide 80
80
Slide 81
81
Slide 82
82
Slide 83
83
Slide 84
84
Slide 85
85
Slide 86
86
Slide 87
87
Slide 88
88
Slide 89
89
Slide 90
90
Slide 91
91
Slide 92
92
Slide 93
93
Slide 94
94
Slide 95
95
Slide 96
96
Slide 97
97
Slide 98
98
Slide 99
99
Slide 100
100
Slide 101
101
Slide 102
102
Slide 103
103
Slide 104
104
Slide 105
105
Slide 106
106
Slide 107
107
Slide 108
108
Slide 109
109

About This Presentation

Clase semana 03 de estadística aplicada. Estadísticos descriptivos.


Slide Content

EstadísticOS descriptivos Profesora: Emma Pérez Palacios Curso: Estadística Descriptiva

Estadígrafos Descriptivos Son indicadores estadísticos que con ayuda de los gráficos y tablas describen las características principales de los datos de la (s) de estudio

CASO: Acciones Negociadas en la Bolsa de Valores de Lima Datos: 1.-Cotizaciones Diarias de los ADR´s de Telefónica de España (TEF): 1/10/01 - 23/01/02

Gráfico Lineal Fuente : Bolsa de Valores de Lima. Cotizaciones Diarias de los ADR´s de Telefónica de España (TEF): 1/10/01 - 23/01/02

Gráfico Lineal Cotizaciones Diarias de las Acciones de Credicorp (BAP): 1/10/01 - 23/01/02

A. Tabla de distribución de frecuencias Cotizaciones de Cierre Diarias de los ADR´s de Telefónica de España :01-10-01 - 23-01-02 - (US$) Fuente : Bolsa de Valores de Lima .             1 31.39 - 33.05 32.22 9 9 11.84 11.84 2 33.05 - 34.68 33.88 5 14 6.58 18.42 3 34.68- 36.34 35.54 8 22 10.53 28.95 4 36.34 - 38 37.2 12 34 15.79 44.74 5 38 - 39.66 38.86 8 42 10.53 55.26 6 39.66 - 41.32 40.52 20 62 26.32 81.58 7 41.32 - 42.96 42.18 14 76 18.42 100.00 Total n=76 100 -            

B. Tabla de distribución de frecuencias Cotizaciones de Cierre Diarias de las Acciones de Credicorp : 01-10-01 - 23-01-02 - (US$) Fuente : Bolsa de Valores de Lima .             1 7.79 - 8.00 7.895 10 10 13.51 13.51 2 8.00 - 8.21 8.105 9 19 12.16 25.68 3 8.21 - 8.42 8.315 11 30 14.86 40.54 4 8.42 - 8.63 8.525 3 33 4.05 44.59 5 8.63 - 8.84 8.735 14 47 18.92 63.51 6 8.84 - 9.05 8.945 23 70 31.08 94.59 7 9.05 - 9.26 9.155 4 74 5.41 100.00 Total n = 74 100 -            

A. Polígono de distribución frecuencia Cotizaciones Diarias de los ADR´s de Telefónica de España Media =38.18 Mediana =38.86 Moda =40.79

B. Polígono de distribución frecuencia Media = 8.56 Mediana =8.69 Moda=8.91 Cotizaciones Diarias de las Acciones de Credicorp

Estadígrafos de tendencia central

Polígono de distribución normal

Promedio o media (  o )   a) Para Datos sin Agrupar X i = Valores de una variable cuantitativa n = nº de datos u observaciones   b) Para Datos Agrupados Y i = promedio de los limites de los intervalos o marca de clase Para una Tabla Interválica Para una Tabla Simple     Y

  Formula X i = Valores de una variable cuantitativa n = nº de datos u observaciones Ejemplo X i = Nº de clientes atendidos por día : 15, 24, 13, 12, 10, 25   Interpretación : El número promedio de clientes atendidos por día es 16.5 ó 17 Promedio o media para datos no tabulados Nota: Solo se redondea para la interpretación por ser variable discreta

Promedio ( ) - datos tabulados: tabla simple   Datos: Nº de unidades vendidas de un grupo de vendedores. Xi : Nº de unidades vendidas. Unidad de análisis: Cada vendedor     I nterpretación : El número promedio de unidades vendidas fue de 13

Promedio ( ): datos tabulados: tabla interválica       Interpretación : El Tiempo promedio de ensamblado fue de 14.47 minutos )

Propiedades de la media 1. M (A) = A 2. a) M (A * X) = A * M (X) b) 3. a) M( A + X) = A + M(X) b) M(A + B * X ) = A + B * M(X) M( X ± Y) = M(X) ± M(Y)   Sea X una variable cuantitativa Media aritmética de: M(x) =   A, B : Constantes

Ejercicios: La remuneración promedio de los trabajadores de un empresa es de 1 935 soles. M(X) = 1 935 Por concepto de reparto de utilidades percibieron una única vez un bonificación de 500 soles. Si además la empresa acordó un incremento de la remuneraciones del orden del 20% ¿Cuál será la remuneración promedio incluyendo sólo la bonificación? M( X + 500 ) = M(X) + 500 = 1 935 + 500 = S/. 2 435.00 ¿Cuál será la remuneración promedio incluyendo la bonificación y el incremento de las remuneraciones? M( 500 + (X + 0.2 X) ) = M ( 500 + 1.2 X ) = 500 + 1.2 (1935) = S/. 2 822.00

Desventajas de la media aritmética

Media aritmética para sub-grupos (media de medias) Si Consideran k sub-grupos de tamaños n 1 , n 2 , …, n k a los cuales les corresponden las medias aritméticas, luego la media aritmética de todos los datos está dada por:

Ejemplo La empresa A tiene 100 trabajadores, con una remuneración promedio mensual por empleado de $300. La empresa B tiene 400 trabajadores, con un remuneración promedio mensual de $250. La empresa C tiene 250 trabajadores y un remuneración promedio mensual de $280. ¿Cuál es el remuneración promedio mensual por trabajador para las 3 empresas en conjunto? Empresa: A B C dólares

Media Armónica La media armónica es la recíproca de la media aritmética. Los elementos del conjunto deben ser necesariamente no nulos. Esta media es poco sensible a los valores grandes y los infravalora respecto a la media aritmética, pero muy sensible a los valores próximos a cero, ya que los recíprocos 1/X i  son muy altos, por lo que les da más peso que en las medias aritmética y geométrica. Si algún valor fuese cero, la media armónica quedaría indeterminada.   Se usa cuando la variable es una razón de otras dos variables ejemplo: Velocidad ( Kms / Hr ), v elocidad de procesamiento (nº trabajos / hr ), resistencia (kg/cm 2 ), en general muchas de la mediciones de las ciencias físicas

Media Armónica para datos sin agrupar Para su cálculo, primero se debe determinar la media aritmética de los recíprocos de los valores individuales, para después obtener el recíproco de esa media aritmética. Lo anterior en fórmula queda:   Ejemplo Encontrar la media armónica de los valores 1,4,10,8 y 10 que representan la cantidad de archivos procesados por hora durante cierta semana.     Interpretación : Se procesan en promedio 3 archivos por semana

Media Armónica para datos agruprados   Ejemplo Obtener la media armónica de los siguientes datos, que representa el nº de unidades ensamblados por hora de un grupo de 20 operadores. Construyendo las columnas 1/ yi se multiplica: 1 / yi por fi     Interpretación : El número promedio armónico unidades ensambladas es de 3 o 4. La fórmula para su cálculo es la siguiente:       fi   0 – 2 1 2 1/1 2*1/1 2 – 4 3 5 1/3 5*1/3 4 – 6 5 4 1/5 4*1/5 6 – 8 7 8 1/7 8*1/7 8 – 10 9 1 1/9 1*1/9 Total n=20 -      1/ Yy fi x 1/ yi

Media Aritmética Ponderada La variable x tiene k valores, x 1 , x 2 , … , x k . El valor x i tiene peso w i . La media aritmética de x esta dada por:

Ejemplo Los kilómetros recorridos durante cada viaje y el numero de viajes de su domicilio a la escuela por cada uno de los cinco estudiantes tomados como muestra, están en la siguiente tabla.( Ponderar el numero de kilómetros recorridos en cada viaje X por el numero de viajes W hecho por cada estudiante y obtener la media ponderada )   Estudiantes  Kilómetros recorridos por viaje Número de viajes    Total de kilómetros recorridos A 1 6 6 B 4 5 20 C 10 4 40 D 8 2 16 E 10 3 30 Total n=20 112   Interpretación : El promedio ponderado en cada viaje se recorrieron 5.6 km

La mediana (me) La mediana es la medida de tendencia central que divide al conjunto de datos ordenados en dos grupos, cada uno con el mismo número de datos. Me 50% 50%

La Mediana para datos no tabulados (sin agrupar) Si , ,….., son los datos entonces , ,….., son los datos ordenados de menor a mayor  

Mediana para datos sin agrupar Proceso : 1. Ordenar de menor a mayor 2. Ubicar el (los) valor(res ) centrales 3. a) Si n (# de valores) es impar: La mediana es el valor central de los datos, puesto que divide a los datos en dos partes iguales Ej. Xi : # de sucursales por empresa : 2, 3, 1, 0, 3, 4, 1 X (1) , X (2) , X (3) , X (4) , X (5) , X (6) , X (7) 0, 1, 1 , 2 , 3, 3, 4 n = 7 ( impar ) => Me = X (n+1)/2 =X 4 = 2 La mediana es 2, divide los datos en dos partes iguales de 3 valores Interpretación : El 50% de las empresas tienen 2 sucursales o menos.

Mediana para datos sin agrupar Proceso : 3. b) Si n (# de valores) es par Existen dos valores centrales. La mediana es el promedio de los dos valores centrales Ej. Xi : # de sucursales por empresa : 2, 5, 3, 1, 0, 3, 4, 1 0, 1, 1 , 2, 3, 3, 4,5 Los valores 2 y 3 son los valores centrales, y divide a los datos en dos partes iguales n = 8 ( par ) => Me = (2+3) / 2 = 2 ó 3 Interpretación : El 50% de las empresas tienen 2 o 3 o menos sucursales

Mediana para datos agrupados tabla simple La mediana es el valor de la variable Xi que divide a los datos en dos partes iguales. F 3 contiene a n/2 = 10 Me = n/2 = 20/2 = 10 Me = 12 Interpretación : El 50% de los vendedores registraron 12 unidades vendidas o menos

Los valores 12 es el valor central, ya que divide a los datos en dos partes iguales Entonces: Me = 1 2 Me Datos OriginalesOrdenados X (i): Xi: Posibles valores de X

c) Mediana para una Tabla Interválica: 1ro. Se calcula n/2 2do. Se ubica el intervalo mediano: Aquel que tiene un F j que contenga a los n/2 datos. 3ro Aplicar la sgt . Fórmula:  

Tiempo en minutos Operarios [Lim. Inf - Lim. Sup.) 8 - 10 9 3 3 10 - 12 11 4 7 12 - 14 13 5 12 Lj= 14 - 16 15 8 20 16 - 18 17 6 26 18 - 20 19 4 30 n=30       Mediana para datos tabulados -tabla interválica 1 ro hallar el intervalo mediano, es aquel que contiene acumulativamente a n/2:_ n/2 = 15 => f 3 = 12 < (n/2 = 15) < (f 4 = 20) => j = 4 2. Aplicar la siguiente fórmula: Me = 14 + 2 x (15 - 12) = 14.75 8     Contiene a n/2 = 15 Interpretación : El 50% de los operarios registraron 14.75 minutos de ensamblado o menos i 1 2 3 J = 4 5 6

La Moda La Moda un grupo de datos es el valor de la variable que más se repite en la muestra. Se denota por M o . Cuando todos los datos tienen la misma frecuencia, la moda no existe, también existen datos que tienen más de una moda.

Moda para datos no agrupados Siguiendo la definición de la moda. Sea X : El numero de hijos por hogar en una pequeña comunidad Xi: 3, 2, 1, 2, 1, 3, 4, 0, 2, 3, 3 La Moda es el valor de la variable que más se repite. Mo = 3 : La mayoría de los hogares tienen 3 hijos Un conjuntos de datos puede tener más de una Moda. Ejemplo Xi: 3, 2, 1, 2, 1, 1, 3, 1, 4, 0, 2, 3, 3 Mo 1 = 1 Md 2 = 3 La mayoría de lo hogares tienen 1 y 3 hijos respectivamente. Nota

Moda para datos agrupados - tabla simple La Moda es el valor de la variable Xi que le corresponde el mayor f i (Frec. Absoluta Simple) Es decir: Mo = X j > fi > fi Mo =12 6 Interpretación : La mayoría de los vendedores registraron 12 unidades vendidas

Moda para datos agrupados en una tabla interválica Se debe identificar la mayor frecuencia a la cual llamaremos f j , y luego aplicar la siguiente fórmula:   A j x

Moda para datos agrupados - tabla interválica 1. Hallar el intervalo que le corresponde el mayor valor de f i 2. Aplicar fórmula donde : L j = Limite inferior del intervalo-j que tiene la mayor f i A j = Amplitud interválica del intervalo -j f j = Es la mayor frecuencia absoluta simple d 1 = f j - f j-1 d 2 = f j - f j+1

Moda para datos agrupados – tabla interválica 1. Intervalo Modal: Aquel que tiene el mayor fi : [14, 16) 2. Aplicar la fórmula: Mo = 14 + 2 x ( 3 ) = 15.2 ( 3+ 2 ) d1 = 8 - 5 = 3 d2 = 8 - 6 = 2 Tiempo en minutos Operarios [Lim. Inf - Lim. Sup.) 8 - 10 9 3 3 10 - 12 11 4 7 12 - 14 13 5 12 14 - 16 15 8 20 16 - 18 17 6 26 18 - 20 19 4 30 n=30       > fi Interpretación : La mayoría de los operarios registraron 15.2 minutos de ensamblado

Moda para datos agrupados Es el valor mayor que más se repite. Mo = 30 min o menos Mo = Atendido por Prof.de la Salud

Relación entre media, mediana y moda 1. Si el polígono es Simétrico 2. Si el polígono es Asimétrico (+) Media > Mediana> Moda Media = Mediana = Moda 3. Si el polígono es Asimétrico (-) Media< Mediana < Moda Media = Me = Mo Mo Me Media Media Me Mo

Relación entre Media, Mediana y Moda

Nota: Los softwares estadísticos como el Minitab y el SPSS calculan los estadígrafos como la media, mediana y moda solo para datos sin agrupar. En el Minitab la secuencia es: Stat/ basic statistic/ display statistic descriptive/ seleccionar variable/ statistic/ seleccionar los estadígrafos / Ok.

Derivados de la mediana Son otros Estadísticos Descriptivos que proporcionan un valor representativo de algún porcentaje específico de los datos . Ejemplo el 20% 35%, o 95% de los datos Sólo se utilizan cuando el número de los datos ( n) es grande (n > 50). Estos son : .Percentiles o Centiles (P 1 , P 2 , P 3 , ... , P 99 ) . Cuartiles ( Q 1 , Q 2, Q 3 ) . Quintiles (q 1 , q2,q3,q4) . Deciles (D1, D2, …,D9)

Estaturas de jugadores: ¿Cuál es la estatura mínima a partir del cual se encuentra el 20% de los jugadores con mayores estaturas? 20% estatura mínima

Percentiles Son medidas de posición, se denotan por P i P i : Es el percentil - i , para i = 1, … , 99. El percentil P k (i = K) separa al conjunto de datos ordenados de menor a mayor, en dos grupos, de manera que k% de los datos caen por debajo del percentil .

Percentiles o Centiles Divide la población(datos) en 100 partes iguales (de 1% c/u) Son 99 percentiles : p 1 , p 2 , p 3 , . . . p 99 p 1 p 2 p 3 p 4 1% US$ 35.07 US$ 37.15 US$ 40.08 US$ 41.32 1% 1% .... .... p 99 p 40 p 98 .... p 80 p 60 1% 1% 1% .... .... p 20 Interpretación: p 20 : El 20% de los días las cotizaciones fueron  a US$ 35.07 p 40 : El 40% de los días las cotizaciones fueron  a US$ 37.15 p 60 : El 60% de los días las cotizaciones fueron  a US$ 40.08 p 80 : El 80% de los días las cotizaciones fueron  a US$ 41.32 Y i = Cotizaciones de los ADR´s de Telefónica de España

Percentiles para datos no agrupados Ordene los datos de manera ascendente. Calcule la posición i del percentil k: Si es entero, el valor del percentil será el dato que ocupe dic h a posición . Si es decimal, el valor del percentil se obtendrá: E: parte entera d: parte decimal

Cuartiles y Deciles Cuartiles dividen un conjunto de datos en 4 partes porcentualmente iguales. Se denotan por Q 1 , Q 2 , Q 3 . Deciles dividen un conjunto de datos en 10 partes porcentualmente iguales. Se denotan por D 1 , D 2 , ... , D 8 , D 9 .

Equivalencias: Se puede observar que: Quartiles Q 1 = P 25 Q 2 = P 50 = Me Q 3 = P 75 Quintiles q1 = P20 q2= P40 q3 = P60 q4 =P80 Q 1 25 P 50= Q 2 75 Q 3 q1 q2 D1 = P10 D2 = P20 D3 = P30 . . . D9= P90

Percentiles Los percentiles dividen un conjunto de datos en 100 partes porcentualmente iguales. Dado un percentil P k , el K% de los datos son menores o iguales al valor de P k y el otro (100-k)% superiores al valor de P k

Percentiles otro concepto Son medidas de posición, se denotan por P i P K : Es el percentil - K , para k = 1, … , 99. El percentil P k separa al conjunto de datos ordenados de menor a mayor, en dos grupos, de manera que k% de los datos caen por debajo del percentil .

Percentiles para Datos Agrupados en tabla Interválica De forma similar a la mediana: 1ro Se ubica el intervalo del Pk : Aquel tiene un Fj que contiene el k(n)/100 datos. 2do Se aplica la sgt . fórmula:

Ejemplo (Tarea) Se eligió a 11 alumnos del salón y se les pregunto sobre la nota que obtuvieron en la 1° práctica calificada del curso: 12; 15; 20; 12; 10; 18; 17; 15; 15; 08; 10 Hallar e interpretar Q 1 y D 7 Hallar e interpretar P 85 y P 15 Hallar la nota mínima que debe tener el alumno para pertenecer al tercio superior. Hallar la nota máxima para pertenecer al 28% de los alumnos que tienen las menores notas .

Percentiles para datos tabulados o agrupados De forma similar a la mediana: Para una tabla Interválica De forma similar a la Mediana

Donde: Es el limite inferior del intervalo j Es la amplitud del intervalo j Es la frecuencia absoluta simple del intervalo j Es la frecuencia absoluta acumulada del intervalo j – 1 (anterior intervalo j)   Percentiles para datos sin agrupar : Se ordenan ascendentemente los datos. Se calcula k´ = k(n+1)/100. P k es aproximadamente el valor de X i que ocupa el lugar k´-ésimo. Ejemplo: Ordenar los valores en forma ascendente El P30 el valor de la variable que ocupa la posición 0.30 x n, si n= 30 el percentil 30 el valor que ocupa la posición 0.30 x 9 = 9 de la serie ordenada.

Percentiles para datos no agrupados Ordene los datos de manera ascendente. Calcule la posición i del percentil k: Si es entero, el valor del percentil será el dato que ocupe dic h a posición . Si es decimal, el valor del percentil se obtendrá: E: parte entera d: parte decimal

Cuartiles y Deciles Cuartiles dividen un conjunto de datos en 4 partes porcentualmente iguales. Se denotan por Q 1 , Q 2 , Q 3 . Deciles dividen un conjunto de datos en 10 partes porcentualmente iguales. Se denotan por D 1 , D 2 , ... , D 8 , D 9 .

Equivalencias: Se puede observar que: Q 1 = P 25 Q 2 = P 50 = Me Q 3 = P 75 Q 1 25 P 50= Q 2 75 Q 3

donde:

Tabla de distribución de frecuencias Cotizaciones de Cierre Diarias de las Acciones de Credicorp: 01-10-01 - 23-01-02 - (US$) (Tarea)             1 7.79 - 8.00 7.895 10 10 13.51 13.51 2 8.00 - 8.21 8.105 9 19 12.16 25.68 3 8.21 - 8.42 8.315 11 30 14.86 40.54 4 8.42 - 8.63 8.525 3 33 4.05 44.59 5 8.63 - 8.84 8.735 14 47 18.92 63.51 6 8.84 - 9.05 8.945 23 70 31.08 94.59 7 9.05 - 9.26 9.155 4 74 5.41 100.00 Total n = 74 100 -             Calcular e interpretar: Q 1 , Q 3 , P 10 , P 60 , y P 90

Estadígrafos de Dispersión Mide la variabilidad del conjunto de datos, a fin de ser comparado con otro conjunto de datos Se analizan comparativamente entre 2 o más grupos

NOTA: Los estadísticos(estadígrafos) de dispersión se analizan comparativamente. La excepción del coeficiente de variación : CV que es un estadístico de dispersión relativa

El rango (R) R = MAX. - MIN. Ejemplo Xi : # de sucursales por empresa Sector 1 : Xi = 2, 3, 1, 0, 3, 4, 1 Sector 2 : Xi = 10, 3, 1, 2, 15, 5 Mínimo = 0 Máximo = 4 R = MAX. - MIN. = 4 - 0 = 4 Sector 1 : Sector 2 Mínimo = 1 Máximo = 15 R = MAX. - MIN. = 15 - 1 = 14 Interpretación : La dispersión de Nº de sucursales de la empresas del Sector 2 es mayor que la Sector 1

Rango intercuartílico RIC = Q 3 – Q 1 = IQR ( en inglés) Es la diferencia entre el Cuartil mayor (Q 1 ) y el Cuartil menor (Q 3 ). Como se puede observar este valor sólo considera al 50% de las observaciones centrales de la distribución. Q 1 Me= P 50= Q 2 Q 3 50% 25% 25%

La Varianza Esta medida es la más utilizada porque considera al total de datos de la muestra. Se define como el promedio de los cuadrados de las distancias de cada dato a la media aritmética.

m= nº de valores posible de la variable n= nº datos = tamaño de la muestra Nota: Si los datos están tabulados en una tabla Interválica se reemplaza Xi por Yi es la marca clase o punto medio La D esviación estándar Es la raíz cuadrada positiva de la varianza. m m

    La varianza muestral es la que se va a utilizar en el curso N N µ = Media poblacional N= Nº de datos de la población o tamaño de la población = Media muestral n= Nº de datos de la muestra o tamaño de la muestra-.  

Coeficiente de Variación Es una medida de dispersión relativa, sirve para comparar las dispersiones de dos o más grupos de datos. normalmente se da en porcentaje. El C.V.es útil para comparar dos o mas grupos de datos inclusive con diferente unidades de medida, como ejemplo valores monetarios en soles y dólares. En la practica se considerar : Un grupo de datos heterogéneo o con considerable dispersión cuando el C.V. es superior al 20% . Caso contrario los datos son homogeneos = Desviación Estándar * 100 Media %

Varianza y Desviación Estándar- Datos no agrupados X : Número de artículos vendidos por día: La dispersión de las unidades vendidas del vendedor 2 es mayor que las del vendedor1

Datos: edades de ocho clientes : Ejemplo : Dato  X i  X i 2   X 1 34 1156   X 2 37 1369   X 3 23 529   X 4 34 1156   X 5 45 2025   X 6 56 3136   X 7 34 1156   X 8 22 484 Total 285 11011 > 20% La variable edad es heterogenea

La Varianza Para datos Agrupados o Tabulados Tabla Simple Tabla interválica Cambia Xi por Yi: Marca de clase i Y

Ejemplo Los siguientes datos corresponden a las edades de un grupo de alumnos: 24 17 23 18 19 20 19 21 20 17 Obtenemos: < 20% La variable edad es homogénea

Datos acerca de los pagos mensuales de consumo con tarjeta de crédito de 500 clientes de InterBank . Ejemplo: Haciendo los cálculos se tiene > 20% La variable pagos mensuales de consumos de la t. crédito es heterogénea

Ejemplo Para la siguiente tabla de frecuencias de ingresos por venta diarios en miles de soles de una MYPE. Calcule: varianza, desviación estándar y coeficiente de variación: HORAS Y i f i Yi*fi Y i 2 *f i 2,8 – 3,3 3,05 2 6,10 18,6050 3,3 – 3,8 3,55 6 21,30 75,6150 3,8 – 4,3 4,05 10 40,50 164,0250 4,3 – 4,8 4,55 17 77,35 351,9425 4,8 – 5,3 5,05 8 40,40 204,0200 5,3 – 5,8 5,55 5 27,75 154,0125 5,8 – 6,3 6,05 2 12,10 73,2050 TOTAL 50 225,50 1041,425 CV = 15.65 < 20% La variable ingresos por venta diarios (miles S/.) es homogénea m m   m V(Y)= CV(Y)

Tarea 1: Tabla Simple Nº de Unidades vendidas de un grupo de 20vendedores 1. Hallar e interpretar todos los estadísticos de dispersión (en forma operativa) 2. Verificar con los resultados del del Excel Para la varianza con las 2 fórmulas 3. Crear otra distribución con la misma variable pero para otro grupo de vendedores 4. Interpretar los resultados n= 20 Nº de datos o tamaño de la muestra m= 6 : Nº de valores posible de Xi

Tarea 2: Tabla interválica Tiempo de ensamblado de una unida de producción por un grupo de 30 operarios 1. Hallar e interpretar todos los estadísticos de dispersión (en forma operativa) para las dos fórmulas 2. Crear otra distribución con la misma variable pero para otro grupo de vendedores n= 30 Nº de datos o tamaño de la muestra m= 6 Nº de intervalos Para la varianza con las 2 fórmulas Y

Propiedades de la Varianza 1. La varianza de un conjunto de datos siempre es un número no negativo. Esto es, V(x)  0. 2. La varianza de una constante es igual a cero. Esto significa que si: x 1 = x 2 = ... = x n = b, luego V(x) = 0. 3. Si a cada observación se suma o resta una constante b>0, la varianza del nuevo conjunto de datos coincide con el valor de los datos originales. Esto es: V( x±b )=V(x). 4. Si a cada observación se le multiplica por una constante b, la varianza del nuevo conjunto de datos es igual a la varianza del conjunto de datos originales multiplicada por el cuadrado de la constante. V(b x) = b 2 V(x). 5. La propiedad del cambio de escala es un caso especial de la unión de la 3ra y 4ta propiedad. V(a x±b )= a 2 V(x)

Propiedades de la Varianza Si K es una constante, X e Y son variables: V(X)  V(K ) = 0 V(K X ) = K 2 V(X) V(K ± X) = V(X) V( X + Y) = V(X) + V(Y) + 2 . COV(XY) V( X - Y) = V(X) + V(Y) – 2 . COV(XY) COV(X Y) = Es la covarianza de X e Y COV(X Y) (+) = 0 (-)

Aplicación del coeficiente de variación Analizar comparativamente los sueldos de los trabajadores de una empresa de según su categoría. Según la dispersión relativa (CV ) CV( direc .) < CV( empl ) < CV (operar.) Según la desviación estándar (S): Los Sueldos de los empleados es mas homogéneo, Los Sueldos de los operarios es mas heterogéneo

Uso de la desviación estándar Si se tiene un número de datos grande ( n > 30 ), y la distribución de frecuencias es simétrica, se cumple que:

Uso de la desviación estándar: Teorema de Chebichev

Estadísticos de concentración Si CAs<0, la distribución es asimétrica negativa o hacia la izquierda. Si CAs=0, la distribución es simétrica . Si CAs>0, la distribución es asimétrica positiva o hacia la derecha. Coeficiente de Asimetría

Fórmula del Coeficiente a AsImetría para el MINITAB < 0 : Datos con Asimetría a la izquierda = 0 : Datos son Simétricos > 0 : Datos con Asimetría a la derecha

Estadísticos de forma Coeficiente de Kurtosis : Mide el grado de apuntamiemto de un polígono de frecuencias Si k = 0,263 la distribución es mesokúrtica . Si k < 0,263 la distribución es platikúrtica . Si k > 0,263 la distribución es leptokúrtica

Estadísticos de forma Coeficiente de Kurtosis Si k = 0,263 la distribución es mesokúrtica. Si k < 0,263 la distribución es platikúrtica. Si k > 0,263 la distribución es leptokúrtica

Fórmula de lA Kurtosis para el MINITAB > 0 Leptokurtica K = 0 Mesokurtica o Normal < 0 platilkurtica

Tarea Datos: Número de unidades vendidas de un grupo de n= 20 vendedores Calcular e interpretar el Coef . de Asimetría y kurtusis . Para datos sin agrupar. Con los 2 tipos fórmulas Con el Excel ( fx ) Minitab Nº de unidades vendidas 1 10 2 11 3 11 4 11 5 12 6 12 7 12 8 12 9 12 10 12 11 13 12 13 13 13 14 13 15 13 16 14 17 14 18 14 19 14 20 15

Resumen Cotizaciones diarias de los ADR´s Telef . España (US$) Interprete los siguientes resultados : Media 38.183 Mediana 38.967 Moda 41.28 Q 1 35.72 Q 3 40.91 P 10 32.79 P 90 42.08 Varianza 2925.61 S 54.0889 C.V 1.4166 Cas -0.0435 K 0.2793

Diagrama de cajas Aplicándolo en el software Minitab

Pasos a seguir Pasos a seguir

Permite identificar los datos extremos Pasos a seguir

Datos a considerar

Diagrama de cajas múltiple Pasos a seguir

Nota : Haciendo clic en cada caja muestra los estadígrafos de cada grupo

¿Cómo se pueden resumir los datos en un gráfico? Una empresa tiene 40 empleados: Los sueldos se encuentran entre 700 y 10 000 nuevos soles . Valores Extremos (outliers) P 25 P 50 P 75 50% central de los datos v v 700 10000 Sueldos (nuevos soles) Realicemos un análisis exploratorio a la distribución de los sueldos de la empresa, observando en un gráfico la forma que tiene

Diagrama de caja Un diagrama de caja es una gráfica que describe la distribución de un conjunto de datos tomando como referencia los valores de los cuartiles como medida de posición y el valor del rango intercuartílico como medida de referencia de dispersión.

Diagrama de cajas múltiple Permite: Comparar las medianas de dos o mas conjuntos de datos. Observar el tipo de distribución de los datos (simétrica o asimétrica). Determinar la dispersión en el 50% central de los datos. Identificar la presencia de valores extremos (datos atípicos)

Construcción de un diagrama de caja Se calculan: Los cuartiles: Q 1 , Q 2 , Q 3 , y el RIC (rango intercuartílico o IQR) Se traza una línea de referencia horizontal o vertical (para la escala) Se traza un rectángulo con los extremos en el primer y tercer cuartil y se traza una recta vertical en la mediana. Se dibujan los límites a 1,5 rango intercuartílico de los cuartiles 1 y 3. Se considera que los datos fuera de estos límites son atípicos. L i =Q 1 - (1,5)RIC; Ls =Q 3 +(1,5)RIC. Las líneas antes y después de las cajas se llaman bigotes, se traza desde los extremos de la caja hasta el mínimo y máximo dentro de los límites inferior y superior. Se marcan con un asterisco los valores fuera de los límites (valores atípicos).

bigote Elementos de un Diagrama de Caja

Q 1= P 25 Q 3 = P 75 Fórmulas RIC = Q 3 - Q 1 L i = Q 1 - (1,5)RIC Ls =Q 3 + (1,5)RIC : Para k = 25 y 75

¿Cómo se pueden resumir los datos en un gráfico? 700 10000 Sueldos (nuevos soles) Valores Extremos (outliers) P 25 = Q1 P 50 = Me P 75 = Q3 Una empresa tiene 40 empleados: Los sueldos se encuentran entre 700 y 10 000 nuevos soles. Realicemos un análisis exploratorio a la distribución de los sueldos de la empresa, observando en un gráfico la forma que tiene. 50% central de los datos

Nota: Límites no se grafican Los valores extremos son aquellos que están fuera de los limites. Si no hay valores extremos, el bigote superior coincide con el valor más alto y el bigote inferior coincide con el valor más pequeño. Para el caso de ausencia de valores extremos, si la distancia entre: (Q1, Me ) < (Me, Q3) entonces el polígono de los datos es asimétrico( +) (Q1, Me ) > (Me, Q3) entonces el polígono de los datos es asimétrico( -)

Ejemplo 1 Se desea analizar el consumo de gas natural en los hogares de un distrito limeño, el gasto mensual en este combustible, en nuevos soles de 36 hogares se muestra a continuación. 20,6 21,2 21,8 23,5 24 24,3 24,5 24,6 24,6 24,6 24,8 24,9 25 25,2 25,4 26,3 27,1 27,3 27,5 28,3 28,4 28,6 29,3 29,4 29,5 29,5 29,5 29,6 30,4 30,4 30,9 31,5 32,4 32,5 32,7 37,6 Realice un diagrama de caja con esta información. Comente el resultado.

Solución Después de ordenar los datos: Cálculos: Q 1 =24,60; Q 2 = 27,40 Q 3 = 29,53 RIC = 4,93 1,5RIC = 7,395 LI = 24,60 – 7,395 = 17,205 LS = 29,53+7,395 = 36,925 Construcción de la escala:

Tarea Dos modos que usan los colaboradores de una fábrica para ir a trabajar diariamente son A y B. A continuación vemos unas muestras de tiempos en minutos de cada modo: Trace un diagrama de caja (Minitab) para cada modo y en base a los resultados obtenidos, ¿Qué modo de trasporte debe preferirse?, Explique sus razones. Modo A 28 29 32 37 33 25 29 32 41 34 Modo B 29 31 33 32 34 30 31 32 35 33

Solución en Minitab