PRESENTACIÓN 1 ESTADISTICA DESCRIPTIVA.pptx

cfabregas2 24 views 67 slides Sep 12, 2025
Slide 1
Slide 1 of 67
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49
Slide 50
50
Slide 51
51
Slide 52
52
Slide 53
53
Slide 54
54
Slide 55
55
Slide 56
56
Slide 57
57
Slide 58
58
Slide 59
59
Slide 60
60
Slide 61
61
Slide 62
62
Slide 63
63
Slide 64
64
Slide 65
65
Slide 66
66
Slide 67
67

About This Presentation

PRESENTACIÓN


Slide Content

Profesor: Alirio Gerardino Morales. Licenciado en Matemática y Física Especialista en Estadística Aplicada Magister en Estadística Aplicada Doctor en Ciencias de la Educación Referencia: Llinas Humberto, Estadística Inferencial. Canavo George, Probabilidad y Estadística Aplicaciones y Métodos. Montgomery Douglas. Probabilidad y Estadística para Ingeniería . ESTADÍSTICA DESCRIPTIVA

CONTENIDO. Introducción. Estadística descriptiva. Distribución de frecuencia. Medidas de tendencia Central y variabilidad. Estadística inferencial. Muestras aleatorias y distribuciones muéstrales Teoría de estimación. Prueba de hipótesis. Prueba de bondad de ajuste Tablas de contingencias. Métodos no paramétricos

INTRODUCCIÓN. En la vida diaria los diversos fenómenos de orden económico, social, político, educacional, e incluso biológico, nos induce a tener un registro ordenado y continuo de los datos necesarios para un estudio de lo que ha sucedido, sucede o puede suceder. Para ello se requiere contar con un método, con un conjunto de reglas o principios, que nos permita la observación, el ordenamiento, la cuantificación y el análisis de dichos fenómenos.

CONCEPTO DE ESTADISTICA. ESTADISTICA: La Estadística se considera como la técnica o método científico usado para recolectar, organizar, resumir, presentar, analizar, interpretar, generalizar y contrastar los resultados de las observaciones de los fenómenos reales. Estadística: no es más que una colección de datos numéricos y categóricos ordenados y clasificados según un determinado criterio.

DFINICIÓN DE ESTADISTICA DESCRIPTIVA La Estadística se considera como la técnica o método científico usado para recolectar, organizar, resumir, presentar, analizar e interpretar un fenómeno en estudio. DEFINICIÓN DE ESTADISTICA INFERENCIAL. La estadística inferencial abarca aquellos métodos y conjuntos de técnicas que se utilizan para obtener conclusiones sobre las leyes de comportamiento de una población basándose en los datos de muestras tomadas de esa población. DEFINICIÓN DE ESTADISTICA MATEMATICA. Estadística, es la ciencia que, utilizando como instrumento a las matemáticas y al cálculo de probabilidades, estudia las leyes de comportamiento de aquellos fenómenos que, no estando sometidos a las leyes físicas y basándose en ellas predecir y realizar inferencias de los resultados.

APLICACIÓN DE LA ESTADISTICA. En general, el problema que enfrentan las empresas e industrias no es la escasez de información, sino como utilizar la información disponible para tomar las decisiones más adecuadas. Por esta razón, desde la perspectiva de una toma de decisiones informada, cabe preguntarse por qué un ingeniero, un administrador, un economista, etc , necesita saber estadística. Para dar respuesta a esta inquietud podemos decir que estos deben comprender la estadística, básicamente, por tres razones fundamentales: 1. Presentar y describir la información en forma adecuada. 2. Inferir conclusiones sobre poblaciones grandes basándose solamente en la información obtenida de subconjuntos de ellas. 3. Utilizar modelos para obtener pronósticos confiables.

DEFINICION DE POBLACIÓN. Una población es el conjunto total de objetos que son de interés para un problema dado. Los objetos pueden ser personas, animales, productos fabricados, etc. Cada uno de ellos recibe el nombre de elemento o individuo de la población. Ejemplo: población estudiantil de la Universidad del atlántico, los niños de una ciudad, enfermos de un hospital, etc. DEFINICIÓN DE MUESTRA. Una muestra es un subconjunto de la población. Ejemplo: Si todos los estudiantes de la Universidad del Atlántico es una población, los estudiantes nacidos en determinado mes del año pueden constituir una muestra.

TIPOS DE DATOS: Existen dos tipos de datos: Numéricos (cuantitativos) y Categóricos o (cualitativos). DATOS NUMERICOS (CUANTITATIVOS) Los datos numéricos o cuantitativos producen respuestas numéricas como el peso en kilogramos o el número de universidades que hay en la Costa Atlántica. Estos datos son de dos tipos: discretos y continuos. DATOS DISCRETOS: Producen respuestas numéricas de enteros que surgen de un conteo. Ejemplos de datos discretos son la cantidad de universidades que hay en la Costa Atlántica, el número de estudiantes en la Universidad del Atlántico en el año 2018, número de hijos en una familia, etc.

DATOS CONTINUOS Producen respuestas numéricas que surgen de un proceso de medición, donde la característica de que se mide puede tomar cualquier valor numérico en un intervalo. Ejemplos datos continuos son el peso (en kilogramos) de una persona, su estatura (en metros), el tiempo que usted tarda en llegar a la Universidad del Atlántico, etc. DATOS CATEGORICOS O CUALITATIVOS. Representan categorías o atributos (Ejemplo, si o no) que pueden clasificarse como un criterio o cualidad.

ORGANIZACIÓN DE DATOS SEGÚN ESCALAS DE MEDIDAS. Los datos también se pueden clasificar según la escala de medición o el procedimiento que los genero. Cuatro tipos de escalas de medición usados en estadística son: Las escalas nominal. Las escala Ordinal. Las escalas de intervalo. Las escalas de razón.

DATO DE NIVEL NOMINAL: (Solo permite asignarle un nombre al elemento medido) Un dato nominal se crea cuando se utilizan nombres para establecer categorías con la condición de que cada dato pertenezca única y exclusivamente a una de estas categorías. Existen escalas nominales tanto para los datos numéricos como categóricos. Una escala nominal para datos numéricos asigna números a las categorías. Por ejemplo, entre los datos numéricos que son nominales se incluyen los números en las camisetas deportivas, los números telefónicos, etc

DATOS DE NIVEL ORDINAL: (Permiten establecer un orden entre los elementos medidos). Los datos medidos en una escala nominal ordenada de alguna manera se denominan datos ordinales. Una escala ordinal coloca las medidas en categorías, cada una de las cuales indica un nivel distinto respecto a un atributo que se está midiendo. La lista de datos ordinales comprende: Ejemplo: Clasificaciones por letra: A, B, C y D; estos grados indican categorías de perfeccionamiento, así como los niveles alcanzados. La evaluación de un docente: insuficiente, aceptable, bueno y excelente. Etc.

DATOS POR INTERVALOS: (Calcular diferencias entres las mediciones). Los datos medidos en una escala ordinal para los cuales pueden clasificarse las distancias entre valores, se llaman datos de intervalos. Ejemplo, temperatura de una persona, sobrepeso respecto a un patrón de comparación. DATOS DE RAZÓN: (Comparar mediciones mediante un cociente) Los datos medidos en una escala de intervalo con un punto cero que significa “ninguno”, se llaman datos de razón. Las escalas de razón incluyen salarios, unidades de producción, peso, altura, etc.

DEFINICION DE ESTADÍSTICOS Y PARÁMETROS. Definición de estadístico: Son valores que se obtienen de una muestra, y se consideran como estimadores de los parámetros. Media aritmética muestral Desviación estándar muestral: S Varianza muestral: S 2 Proporción muestral:   Definición de parámetros: Son valores que se obtienen de una población. Media aritmética poblacional: µ Desviación estándar poblacional: σ Varianza poblacional: σ 2 Proporción poblacional: P  

ORGANIZACIÓN DE DATOS MEDIANTE TABLAS. Recordemos que entre las técnicas utilizadas en la estadística descriptiva están las de organizar y resumir un conjunto de datos para facilitar su estudio. Por tal razón estudiaremos la tabulación de datos mediante las tablas de frecuencias. Definición de frecuencia absoluta: Es el número de veces que se repite un dato en un conjunto de datos, simbolizado con la letra f. Ejemplo: En el conjunto de datos 5, 2, 5, 3, 2, 6, 8, 8, 8, y 7, el cinco se repite 2 veces (por lo tanto, tiene frecuencia f = 2), el siete aparece una vez (o sea, frecuencia f = 1), el ocho tiene frecuencia f = 3, etc.

TABLA DE FRECUENCIA NO AGRUPADA. Son aquellas que nos suministran: los datos y su correspondiente frecuencia. Los datos organizados en tablas de frecuencias no agrupadas se denominan usualmente datos no agrupados. Ejemplo: La tabla de frecuencias (no agrupada) para el conjunto de datos. 5, 2, 5, 3, 2, 6, 8, 8, 8, y 7. Datos 2 3 5 6 7 8 Frecuencias 2 1 2 1 1 3

TABLAS DE FRECUENCIAS AGRUPADAS Otra posibilidad de organizar datos es agruparlos en intervalos (llamados intervalos de clase o, simplemente, clases). En las tablas de frecuencias agrupadas encontramos LOS INTERVALOS DE CLASES y la FRECUENCIA DE CLASE, que no es mas que, el total de datos que hay en cada clase. Los datos organizados en tablas de frecuencias agrupadas se denominan generalmente datos agrupados. Con el objetivo de construir tablas, diagrama y graficas que revelen rápidamente la concentración y distribución de los datos, facilitando la comprensión de la información, sugerimos algunos pasos para construir una Tabla o distribución de frecuencia agrupada. lo cual se puede entender mejor con el siguiente ejemplo.

TABLAS DE FRECUENCIAS AGRUPADAS Ejemplo. Construya una tabla de frecuencias agrupadas considerando los siguientes datos. 16, 23, 25, 23, 18, 21, 24, 27, 18, 18, 26, 26, 27, 21, 18, 21, 20, 21, 25, 14, 18, 19, 20, 23, 27, 22, 25, 18, 22, 21, 26, 30, 17, 24, 26, 22, 24, 26, 24 y 22. Organización: 14, 16, 17, 18, 18, 18, 18, 18, 18, 19, 20, 20, 21, 21, 21, 21, 21, 22, 22, 22, 22, 23, 23, 23, 24, 24, 24, 24, 25, 25, 25, 26, 26, 26, 26, 26, 27, 27, 27, 30.

Rango (R) igual a Dato mayor (X M ) menos dato menor ( X m .) R = X M - X m = 30 – 14 = 16 Numero de intervalos de clases (c). c = 1 + 3.3 log n, (regla de Sturges). Donde n: número de datos o tamaño de la muestra. Entonces: c = 1 + 3.3 log 40 = 6.287 Otra regla c = = = 6.32 se aproxima a 6.0   Amplitud de clase (w): denotado considerado como el ancho del intervalo de clase se define: W = R/ c = 16/ 6 = 2,666 como la variable del estudio es discreta; es decir; la unidad de precisión es 1, se toma escogemos el mínimo entero mayor que 2,666 como el valor de la amplitud. Entonces: w = 3. .  

Punto medio de cada unidad de medida:  Como la variable es discreta, El punto medio de la unidad de medida es 1/2 = 0.5. Nota: si la variable es continua y entre los datos el mayor numero de cifra decimal es uno el punto medio de la unidad de medida es 0.1/2 = 0,05, si el mayor numero de cifras decimales es dos el punto medio de la unidad de medida es 0.01/2 = 0,005 y así sucesivamente. Limite inferior (o frontera inferior) de la primera clase : es la diferencia entre el dato menor y el punto medio de la unidad de medida. I inf = X m - punto medio de la unidad de medida = 14 - 0.5 = 13.5. Limite superior (o frontera superior) de la primera clase: Es la sumatoria entre el intervalo inferior y la amplitud. I sup = I inf + w = 13.5 + 3.0 = 16.5

TABLA DE DISTRIBUCION DE FRECUENCIA Encontramos los limites o fronteras de las siguientes clases, teniendo en cuenta que el limite superior de una clase es el limite superior de la clase siguiente. Intervalos 13.5 - 16.5 2 16.5 - 19.5 8 19.5 - 22.5 11 22.5 - 25.5 10 25.5 - 28.5 8 28.5 - 31.5 1 Intervalos 13.5 - 16.5 2 16.5 - 19.5 8 19.5 - 22.5 11 22.5 - 25.5 10 25.5 - 28.5 8 28.5 - 31.5 1

Definición de frecuencia relativa : La frecuencia relativa de un dato o de una clase, se encuentra dividiendo frecuencia de dicho dato (o de la clase) entre el total de datos. Definición de frecuencia acumulada : La frecuencia acumulada de cualquier dato o clase, es la suma de la frecuencia de ese mismo dato o clase con las frecuencias de todos los demás datos o clases anteriores. A la tabla se le llama tabla de frecuencias acumuladas. Definición de frecuencia relativa acumulada : La frecuencia relativa acumulada de cualquier dato o clase, se obtiene dividiendo la frecuencia acumulada del dato o de la clase por el numero total de datos..  

TABLA DE DISTRIBUCION DE FRECUENCIA Definición de marca de clase : Esla sumatoria entres el intervalo inferior y el intervalo superior divididos entre dos. X I = ( I inf + I sup ) / 2   Intervalos X i 13.5 - 16.5 2 0.05 2 0.05 15 16.5 - 19.5 8 0.20 10 0.25 18 19.5 - 22.5 11 0.275 21 0.525 21 22.5 - 25.5 10 0.25 31 0.775 24 25.5 - 28.5 8 0.20 39 0.975 27 28.5 - 31.5 1 0.025 40 1 30 Intervalos X i 13.5 - 16.5 2 0.05 2 0.05 15 16.5 - 19.5 8 0.20 10 0.25 18 19.5 - 22.5 11 0.275 21 0.525 21 22.5 - 25.5 10 0.25 31 0.775 24 25.5 - 28.5 8 0.20 39 0.975 27 28.5 - 31.5 1 0.025 40 1 30

Definición de tablas bivariadas Una tabla de frecuencias bivariadas es un arreglo de datos clasificados en dos categorías con sus respectivas frecuencias. Las categorías pueden ser números discretos, intervalos numéricos o valores cualitativos como género, color de cabello o religión. Ejemplo: Una encuesta sobre el deporte preferido tuvo los resultados en hombres y mujeres que se muestran en la siguiente tabla bivariada .

. Ejemplo: Una encuesta sobre el deporte preferido tuvo los resultados en hombres y mujeres que se muestran en la siguiente tabla bivariada .   Deportes favoritos Béisbol Basquetbol Futbol   Hombre Mujer 19 15 24 16 18 16 58 50 Total 35 33 40 108

ORGANIZACIÓN DE DATOS MEDIANTES REPRESENTACIONES GRAFICAS. Hay gráficas de varios tipos, entre los cuales se encuentran los siguientes: El diagrama circular. El diagrama de barras. El diagrama de caja y bigote, El histograma. El polígono de frecuencia o de frecuencia relativas. La ojiva o polígono de frecuencia acumulado. Diagrama de tallo y hojas.  Diagrama circular: Se utilizan generalmente para datos categóricos.

Ejemplo de distribución de datos categoricos : Encuesta realizados a una muestra de estudiantes de la Universidad del Atlántico, sobre su deporte favorito: Deportes Frecuencias Frecuencias relativas Futbol 12 0,40 Béisbol 9 0,30 Tenis 3 0,10 Basquetbol 6 0,20

Diagrama circular: El diagrama circular lo utilizamos para hacer representaciones porcentuales. Donde a cada categoría le corresponde una parte del circulo. Así: Para la categoría futbol la frecuencia relativa es 0.40 ósea 40% y sabemos que un circulo tiene 360 grados, realizamos una regla de tres. 360 grados----------100% -------------40% Al futbol le corresponde una parte del circulo determinado por el ángulo de 144°.Se realizan cálculos semejantes para las demás categorías  

Diagrama de barra o histograma de frecuencias no agrupada: Es una representación gráfica en la que cada una de las modalidades del aspecto de interés se representa mediante una barra.

Histograma de frecuencia agrupada: Para la construcción del histograma tomaremos como ejemplo la tabla de frecuencia agrupada de la diapositiva 23. Se levantan las barras usando las fronteras de clases y las frecuencias (absolutas, relativas, acumuladas o acumulada relativa) para indicar la altura de la barra.

Definición de Polígonos: Estos gráficos se utilizan para representar series cronológicas y se construye usando una tabla de frecuencias (absoluta o relativa) agrupadas con marcas de clase. Si se usan frecuencias absolutas, se denomina polígono de frecuencias y si se utilizan frecuencias relativas, polígono de frecuencias relativas .

Ojivas: Este gráfico se utiliza para interpolar o aproximar el número o porcentaje de observaciones menores o iguales que un valor específico. Se construye usando una tabla de frecuencias (acumulada o acumulada relativa) agrupadas con fronteras superiores de clase.

Diagrama de tallo y hojas El uso de una tabla de frecuencia agrupada tiene una desventaja bastante obvia: los datos originales se pierden en el proceso de agrupamiento. Para salvar esta limitación puede usarse el llamado diagrama de tallo y hojas. Estos diagramas fueron creados por el estadístico John Tukey y ofrecen una forma novedosa y rápida de exhibir información numérica: si un numeral tiene dos o más dígitos, entonces, se puede descomponer en una rama y una hoja. Un tallo es el primer digito o parte del numeral, mientras que una hoja está formada por ´el o los dígitos restantes. Por ejemplo, el numeral 534 se puede descomponer en dos formas:

Ejemplo: Los datos de abajo muestran el número de anuncios radiofónicos de 30 segundos pagados el año pasado por cada uno de los 45 miembros de una empresa. Organice los datos en un diagrama de tallo y hojas y determine la forma que toma este diagrama. ¿Alrededor de qué valores tiende a acumularse el número de anuncios? ¿Cuál es el menor número de anuncios pagados por un comerciante? ¿El mayor número pagado? 96, 93, 88, 117, 127, 95, 113, 96, 108, 94, 148, 156, 139, 142, 94, 107, 125, 155, 155, 103, 112, 127, 117, 120, 112, 135, 132, 111, 125, 104, 106, 139, 134, 119, 97, 89, 118, 136, 125, 143, 120, 103, 113, 124, 138.

Diafragma de tallo y hoja 8 8 9 9 6 3 5 6 4 4 7 10 8 7 3 4 6 3 11 7 3 2 7 2 1 9 8 3 12 7 5 7 5 5 4 13 9 5 2 9 4 6 8 14 8 2 3 15 6 5 5

Diafragma de tallo y hoja ordenado 8 8 9 9 3 4 4 5 6 6 7 10 3 3 4 6 7 8 11 1 2 2 3 3 7 7 8 9 12 4 5 5 5 7 7 13 2 4 5 6 8 9 9 14 2 3 8 15 5 5 6

. MEDIDAS DE TENDENCIAS CENTRAL O DE CENTRALIZACION . Al estudiar la información estadística mediante su representación gráfica, se puso en evidencia un significativo comportamiento de los datos en cuanto a la frecuencia con que se presentan los valores: algunos de estos valores son más frecuentes que otros. Además, se observó´ una clara tendencia de agrupación en el vecindario de los valores más frecuentes, de aquí deriva el nombre de medidas de tendencia central. La media aritmética La mediana. La moda. La media geométrica. La media armónica

La media aritmética Definición: La media aritmética de cierto conjunto de números se encuentra sumando los números y dividiendo después entre la cantidad de datos. En otras palabras, si x1,..., xn son números, entonces, la media aritmética de este conjunto de números esta´ dada por = En estadística se habla de media aritmética poblacional, y se simboliza por µ, cuando el conjunto de datos corresponden a los de la población; y de media aritmética muestral, y se simboliza por , cuando se tienen en cuentan las muestras  

Ejemplo: Supongamos que tenemos la muestra siguiente de edades en año de principiantes de una universidad: 18, 18, 18, 18, 19, 19, 19, 20, 20, 21. Entonces, la media aritmética de estos datos es los datos de una muestra. Media aritmética = (18+18+18+18+19+19+19+20+20+21) / 10 = 19 Media aritmética ponderada. Generalmente, para calcular la media de un conjunto de datos, es más cómodo utilizar la llamada media aritmética ponderada, la cual es un caso especial de la media aritmética. Esta se puede utilizar cuando se tienen varias observaciones con un mismo valor, lo que puede ocurrir si se han organizado los datos en una tabla de frecuencias.

Del ejemplo anterior se tiene: Datos 18 19 20 21 Frecuencias 4 3 2 1 Entonces: =  

Media para datos agrupados. La media aritmética para datos agrupados = ∑ x i f / n. Intervalos f j fr f a x i x i f 11,5 - 14,5 2 0,05 2 13 26 14,5 - 17,5 8 0,20 10 16 128 17,5 - 20,5 11 0,275 21 19 209 20,5 - 23,5 10 0.25 31 22 220 23,5 - 26,5 8 0,20 39 25 200 26,5 - 29,5 1 0,025 40 28 28   40 1,00     Intervalos f j fr f a x i x i f 11,5 - 14,5 2 0,05 2 13 26 14,5 - 17,5 8 0,20 10 16 128 17,5 - 20,5 11 0,275 21 19 209 20,5 - 23,5 10 0.25 31 22 220 23,5 - 26,5 8 0,20 39 25 200 26,5 - 29,5 1 0,025 40 28 28   40 1,00     = 811/40 = 20,3  

Mediana: Para datos medidos en al menos una escala de intervalo, la mediana es el puntaje medio ordenado. Si n es impar, entonces la mediana es el dato del centro, es decir, la mediana es el dato que se encuentra en el lugar (n+1) /2 si n es par, entonces, la mediana es la media de los dos datos que ocupan posiciones centrales, es decir, la mediana es el promedio de las datos que se encuentran en los lugares n /2 y (n/ 2) + 1.

Ejemplo: El conjunto de números 3, 4, 4, 5, 6, 8, 8, 8 y 10 tiene mediana 6, puesto que ya los datos están ordenados, el número de datos es 9 (impar) y, en este caso, el 6 está ubicado en el centro (en el cuarto lugar). Ejemplo: El conjunto de números 5, 5, 7, 9, 11, 12, 15 y 18 tiene mediana 8/2 =4 y (8/2) +1= 5, entonces la mediana es (9+11)/2 = 10, puesto que ya los datos están ordenados, el número de datos es 8 (par), el 9 y el 11 son los dos datos que ocupan posiciones centrales y 10 es el promedio de estos dos datos.  

Mediana = I inf + * w I INF : Intervalo inferior de la clase mediana n: número de datos o tamaño de la muestra f a : Frecuencia acumulada que antecede a la frecuencia acumulada de la clase mediana. f m : Frecuencia absoluta de la clase mediana. w: amplitud.  En el intervalo de clase donde f a ≥ n/2 es la clase mediana. Mediana = 17.5 + * 3 = 20.2  

Moda. Definición: La moda, si se da, es el dato con mayor frecuencia. Ejemplo: El conjunto 2, 2, 5, 7, 9, 9, 9, 11 tiene moda 9 porque este valor es el dato con mayor frecuencia. Moda para datos agrupados. Moda= I inf + * w ; donde: I inf : Es el intervalo inferior de la clase mediana. d 1 : Es la diferencia entre el la frecuencia absoluta de la clase modal y la frecuencia que le antecede. d 2 : Es la diferencia entre la frecuencia absoluta de la clase modal y la frecuencia que le sigue. w: Es la amplitud. Moda = 17.5 + * 3 = 19  

La media geométrica La media geométrica es útil para encontrar los cambios porcentuales en una serie de números positivos, inclusive, para encontrar el promedio de proporciones, índices, tasas de crecimiento. Tiene mucha aplicación en el comercio y en la economía porque nos interesa encontrar el cambio porcentual en las ventas, salarios o datos económicos, tales como el producto nacional bruto. Definición: La media geométrica de un conjunto de n datos x 1 + x 2 + ……. x n , se define: Media geométrica = ( x 1 .x 2 ….. x n ) 1/n Ejemplo: La media geométrica de los números 2; 4 y 8 es Media geométrica = (2*4*8) 1/3 = 4

Intervalos f j fr f a x i x i f j F j logx i f j *1/x i f j ( 11,5 - 14,5 2 0,05 2 13 26 2,228 0,154 106,58 14,5 - 17,5 8 0,20 10 16 128 9,633 0,500 147,92 17,5 - 20,5 11 0,275 21 19 209 14,066 0,579 18,59 20,5 - 23,5 10 0.25 31 22 220 13,424 0,4545 28,9 23,5 - 26,5 8 0,20 39 25 200 11,184 0,320 176,72 26,5 - 29,5 1 0,025 40 28 28 1,447 0,0357 59,29   40 1,00     51,982 2,0432 538,0 Intervalos f j fr f a x i x i f j F j logx i f j *1/x i 11,5 - 14,5 2 0,05 2 13 26 2,228 0,154 106,58 14,5 - 17,5 8 0,20 10 16 128 9,633 0,500 147,92 17,5 - 20,5 11 0,275 21 19 209 14,066 0,579 18,59 20,5 - 23,5 10 0.25 31 22 220 13,424 0,4545 28,9 23,5 - 26,5 8 0,20 39 25 200 11,184 0,320 176,72 26,5 - 29,5 1 0,025 40 28 28 1,447 0,0357 59,29   40 1,00     51,982 2,0432 538,0 Para datos Agrupados la media geométrica se define: Media geométrica = antilog ( ∑f( log x i )/n). Media geometrica = antilog (51,982/40) = antilog (1.29955) = 19,93

Media armónica: Definición: La media armónica es el reciproco de la media aritmética de los reciproco de los datos. Es decir, la media armo ‘nica de los datos x 1 ,x 2 ,..., x n esta´ dada por: Media armónica = n/ (1/x 1 +1/x 2 +……….1/ x n )    Ejemplo : Hallar la media armónica de los datos 2, 4 y 8  Media armónica = 3/(1/2+1/4+1/8) = 3.43 Para datos agrupados la media armónica de define:  Media armónica = ∑(f *1/x i )/n   H -1 = 1/( 2.0432/40) = 1/0.05108 = 19.58

Medidas de colocación o de posición. Definición: Una medida de colocación o de posición relativa para una distribución de frecuencias es aquel valor para el cual una porción específica de la distribución queda en o debajo de él. La mediana. Los percentiles. Los cuartiles. Los deciles

Percentil: Definición : El p- ésimo (punto) percentil es un valor tal que por lo menos un p% de los datos tienen dicho o menos de ese valor y, al menos, un (100 − p)% de los datos tienen este valor o más. Para calcular el p- ésimo (punto) percentil de un conjunto de n datos, es importante tener en cuenta los siguientes pasos: • Ordenar los datos de manera ascendente. • Calcular un índice i a través de la formula i = np /100, siendo p el percentil de interés y n, la cantidad de datos. • Decidir de acuerdo a uno de los dos casos: Si el índice i no es entero, se redondea al entero siguiente. Este valor aproximado de i indica la posición del p- ésimo percentil. Si i es entero, el p- ésimo percentil es el promedio de los valores de los datos ubicados en las posiciones i y i + 1.

Ejemplo: Calcule (a) el 85 ésimo punto percentil y (b) el 50 ésimo punto percentil de los siguientes datos que representan los salarios (en millones de pesos) de 12 empleados en una empresa: 2,350; 2,450; 2,550; 2,380; 2,255; 2,210; 2,390; 2,630; 2,440; 2,825; 2,420; 2,380.  Organización de datos. Como primer paso fundamental, debemos ordenar los datos de manera ascendente (preferiblemente, con ayuda de un diagrama de tallo y hojas): 2,210; 2,255; 2,350; 2,380; 2,380; 2,390; 2,420; 2,440; 2,450; 2,550; 2,630; 2,825.

Índice= n*p/100 = 12* 85/100 10.2; como el índice no es entero se redondea al entero siguiente 11. Por lo tanto, el lugar del 85-ésimo percentil es el lugar 11. En nuestros datos ordenados corresponde a 2,630. Esto quiere decir que el 85% de los empleados de la empresa ganan $2.630.000 o menos de este valor y que el 15% de estos empleados ganan $2.630.000 o más que este valor.

Cuartiles. Como veremos en la siguiente definición , los cuartiles son casos particulares de los percentiles. Definición: Los cuartiles son las medidas de posición relativa correspondiente a un conjunto ordenado de datos divididos en cuatro partes (iguales) y se define como sigue: • Q 1 = primer cuartil o 25-ésimo percentil. • Q 2 = segundo cuartil o 50-ésimo percentil o también mediana. • Q 3 = tercer cuartil o 75-ésimo percentil. Q 1 = (2.350 + 2.380)/2 = 2.365; el 25% de los empleados de la empresa gana $ 2.365.000 o menos y el 75% de estos empleados gana $2.365.000 o más que este valor. Q 3 = (2.450 + 2.550)/2 = 2.500; el 25% de los empleados de la empresa gana $ 2.500.000 o menos y el 75% de estos empleados gana $2.500.000 o más que este valor.

Deciles : Definición: Los deciles son las medidas de posición relativa correspondiente a un conjunto de datos (ordenado ascendentemente) que esta´ dividido en diez partes, de tal forma que cada parte contiene aproximadamente 10% de las medidas. Hay nueve deciles , denotados por D 1 , D 2 ... y D 9 . Si D n es el n- ésimo decil , entonces, cada punto decil corresponde a un punto percentil. Por ejemplo, D4 es el 40-´esimo punto percentil, D7 es 70-´esimo punto percentil, etc.

MEDIDAS DE DISPERSION O VARIABILIDAD . Una medida de dispersión o variabilidad es la desviación de cada uno de los datos con respecto a la una medida de centralización. Ejemplo: La tabla nos muestra los salarios diarios de un empleado en una industria. Empresa 1 34500 30700 32900 36000 34100 33800 32500 Empresa 2 34000 27500 31600 39700 35300 33800 32600 Se observa que la media en ambas muestras es $33500 Una medida de centralización, casi nunca es suficiente por sí sola, para analizar adecuadamente las características de un conjunto de datos. Por lo general, necesitaremos, además, una medida de la dispersión o variación de los datos, entre las que analizaremos se encuentran el rango o recorrido, el rango intercuartil , la desviación, la varianza y la desviación estándar.

Rango Es la medida de dispersión más simple. Esta medida ya ha sido utilizada en secciones anteriores. Definición : El rango o recorrido de un conjunto de datos se define como la diferencia entre el dato más alto y el más bajo. R = x m - x m Rango intercuartil Una medida de dispersión que elimina la influencia de los valores extremos de los datos es el rango intercuartil . Definición: El rango intercuartil , simbolizado por R.I, es la diferencia entre el tercer y el primer cuartil. Es decir, R.I = Q3 − Q1.

Varianza: La varianza de un conjunto de n datos x 1 , x 2 , ……… x n , se define: Ejemplo: calcular la varianza de los siguientes datos muestrales: 3, 5, 8 y 4.   La media aritmética = 5 S 2 = = 4.66  

Para datos agrupados la varianza se define: La varianza para datos agrupados del ejemplo 1. S 2 = 10.831 Otra forma de calcular la varianza es: S 2 = [∑x i 2 - (∑x i ) 2 /n]/(n-1)

La desviación estándar desviación típica. Definición: La desviación estándar de un conjunto de n datos x 1 , x 2 , ……… x n , se define:  S = , entonces S = = 3.29   Desviación media. Definición: La desviación media de un conjunto de datos es la media de las desviaciones de cada dato. Es decir, la desviación media de los datos x 1 ,..., x n se define como DM =(| − | + | − | +···+ | − |)/ n La definición es análoga para datos poblacionales. Observemos que la desviación media está medida en las mismas unidades que la de los datos.  

Teorema: (Regla de Tchebychev ) Para cualquier población con media µ y desviación estándar σ, por lo menos el 100(1−1/k^2)% de los valores de la población se encuentran a una distancia de la media menor que k veces la desviación estándar, para cualquier número k > 1. En otras palabras, dentro del intervalo que va desde µ − kσ hasta µ + kσ se encuentra por lo menos el 100(1 − 1/k^2)% de los valores de la población. Para ver cómo funciona la regla de Tchebychev en la práctica, hemos construido la siguiente tabla: k 1,5 2,0 2,5 3,0 3,5 4,0 100(1-1/k 2 )% 55,6% 75% 84% 88,9% 91,18% 93,7%

Ejemplo: Un inspector de control de calidad selecciona aleatoriamente 14 clavos de una caja de 100 clavos de 1 pulgada (una pulg .=2,54 cm). Las longitudes, en cm, son 2,36; 2,40; 2,50; 2,51; 2,51; 2,52; 2,52; 2,53; 2,54; 2,54; 2,55; 2,55; 2,60; 2,70 Si el inspector decide excluir los clavos que están fuera del intervalo ± 2s, ¿cuál es el porcentaje de clavos excluidos? ¿Se verifica la regla de Tchebychev ? SOLUCION: Vemos que = 2,52 y s = 0,07. Como deseamos desechar los clavos que están fuera del intervalo x ± 2s, es decir, [2,38;2,66], observamos que dos clavos no pertenecen a ese intervalo (los de longitud 2,70 y 2,36) que corresponde al 14,28% de la muestra. La regla de Tchebychev afirma que por lo menos el 75% de los clavos deberán estar en el intervalo ±2s, es decir, a lo más el 25% estarán fuera de dicho intervalo, lo cual verifica la regla de Tchebychev  

El coeficiente de variación Para comparar las dispersiones de dos o más conjuntos de valores no podemos confrontar simplemente las varianzas o las desviaciones estándar respectivas, puesto que estos coeficientes de dispersión vienen afectados por la escala de medida del respectivo valor. Es necesario, por tanto, eliminar esa influencia convirtiendo dichos valores en números sin unidades de medidas. Una medida que cumple perfectamente con este cometido es el llamado coeficiente de variación de Pearson. Definición: El coeficiente de variación de Pearson de un conjunto de datos, simbolizado por CV, es igual a la desviación estándar dividida entre la media, multiplicada por 100 por ciento. Es decir, CV = (S / media aritmética) * 100

MEDIDAS DE FORMAS. Una vez iniciado el análisis estadístico de sintonización de la información, para lo cual hemos estudiado las medidas de tendencia central, de posición relativa y de dispersión de un conjunto de datos, necesitamos conocer más sobre el comportamiento de tales datos. Para ello estudiaremos las medidas de forma, las cuales nos proporcionan información sobre cómo se distribuyen los datos. Las medidas de forma se clasifican en: Medidas de asimetría o coeficiente de sesgo. Medida de curtosis o de apuntamiento

Medidas de asimetría Las medidas de asimetría o coeficientes de sesgo tienen como finalidad la de elaborar un indicador que permita establecer el grado de simetría (o asimetría) que presenta una distribución, sin necesidad de llevar a cabo su representación gráfica. La medida de asimetría más utilizada en la práctica es el llamado coeficiente de asimetría de Pearson. Ap = (Media aritmética – moda)/ S Si Ap = 0, Nos indica que los datos están distribuido simétricamente. (Distribución normal de los datos) Si Ap > 0, entonces la distribución de los datos es sesgada a la derecha. Si Ap < 0, entonces la distribución de los datos es sesgada a la izquierda.

Medidas de curtosis o apuntamiento Las medidas de curtosis estudian la distribución de frecuencias en la zona central de la misma. La mayor o menor concentración de frecuencias alrededor de la media y en la zona central de la distribución dará lugar a una distribución más o menos apuntada. Por esta razón, a las medidas de curtosis se aplican a distribuciones campaniformes, es decir, unimodales simétricas o con ligera asimetría.

GRACIAS
Tags