Prueba de Chi Cuadrado.metodos estadisticos ppt

ESMITJHONATANQUISPEP 1 views 36 slides Oct 08, 2025
Slide 1
Slide 1 of 36
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36

About This Presentation

metodos estadisticos


Slide Content

PRUEBA DE CHI CUADRADO

1. Introducción   Una de las mayores utilidades de la distribución Chi-Cuadrado consiste en que permite comparar frecuencias observadas (frecuencias obtenidas en un experimento o muestreo) con frecuencias esperadas según un modelo supuesto (hipótesis nula). Esta característica de la distribución Chi-Cuadrado permite efectuar las siguientes pruebas: 1. Pruebas de bondad de ajuste a una distribución de probabilidades. 2. Prueba de homogeneidad de subpoblaciones. 3. Prueba de independencia. La metodología a utilizar en cada uno de los tres casos será muy similar. La diferencia principal está en la forma en que se calculan las frecuencias esperadas ya que estas dependerán de la hipótesis nula en cuestión.

2. Pruebas Chi-Cuadrado de Bondad de Ajuste Las pruebas de bondad de ajuste permiten evaluar cuán bien (o mejor dicho cuán mal) una variable aleatoria se ajusta a una distribución de probabilidades teórica. Otras pruebas de bondad de ajuste son la de Anderson-Darling y la de Kolmogorov-Smirnov. Mientras que la prueba Chi-Cuadrado se basa en la comparación de las frecuencias observadas con las frecuencias esperadas bajo el supuesto de que la hipótesis nula es verdadera, las pruebas de Anderson-Darling y de Kolmogorov-Smirnov se basan en la comparación de la distribución de probabilidades acumuladas empírica (resultado de la muestra) con la distribución de probabilidades acumuladas teórica (según H ).

c

c 2. Pruebas Chi-Cuadrado de Bondad de Ajuste Ejemplo 1 : Suponga que, en una población de enfermos con cáncer, históricamente los 3 tipos más frecuentes siguen las proporciones 35%, 24% y 18%, y que entonces un estudio es desarrollado para evaluar si estas proporciones han cambiado (debido a la nueva tecnología médica, nuevos hábitos de vida, etc.). En este caso la hipótesis nula sería: H : Las proporciones poblacionales no han cambiado H : p 1 = 0.35 p 2 = 0.24 p 3 = 0.18 p 4 = 0.23 (otros tipos de cáncer) y la hipótesis alterna: H 1 : Las proporciones poblacionales sí han cambiado H 1 : Al menos uno de los  i es diferente.  

2.1. Prueba de Bondad de Ajuste a una Distribución de Frecuencias Tipo de cáncer 1 2 3 4 Frecuencia observada 341 220 185 254 Tipo de cáncer 1 2 3 4 Frecuencia esperada 350 240 180 230 Suponga que en el estudio se obtuvieron los siguientes resultados con una muestra aleatoria de 1000 enfermos de cáncer: Las frecuencias esperadas, si se supone que la hipótesis nula es verdadera (es decir que las proporciones no han cambiado), serán:

2.1. Prueba de Bondad de Ajuste a una Distribución de Frecuencias Con estos datos, el estadístico de prueba resulta : El valor de tabla es (0.95, 3gl) = 7.815. Como el valor calculado es menor al valor de tabla, la información muestral no es suficiente para rechazar Ho, y se concluye que no existe suficiente evidencia estadística para aceptar que las proporciones de enfermos de cáncer hayan cambiado. Los grados de libertad para efecto de leer en la tabla de Chi cuadrado es: Gl: (Número de clases – 1), en este caso 4 clases o categorías, Entonces 4- 1 = 3 gl

2.2. Prueba de Bondad de Ajuste a una Distribución de Probabilidades Esta prueba permite analizar si la distribución de probabilidades de una variable aleatoria se ajusta o no a una distribución de probabilidades teórica dada. En esta sección se presentarán los casos de bondad de ajuste a la distribución Binomial, Poisson , distribución Normal y otra de carácter probabilístico. Sin embargo, el estudiante podrá aplicar esta metodología a cualquier otra distribución sin mucha dificultad . Distribución Binomial Una variable aleatoria X tendrá distribución Binomial con parámetros n y π si cumple con las siguientes características: X es el número de éxitos en n ensayos independientes de un experimento, o el número de éxitos en una muestra de tamaño n. Para que los resultados de la muestra sean independientes la población debe ser infinita. Si la población es finita el muestreo debe ser con reemplazo. π es la probabilidad de éxito para cada uno de los n ensayos. Esta probabilidad debe ser constante para los n ensayos. Las siguientes variables podrían tener una distribución Binomial: Número de artículos defectuosos por lote. Número de personas que responden favorablemente a un tratamiento. Número de penales que falla un jugador en una ronda de 12. Número de entrevistados que sí estarían dispuestos a comprar un nuevo producto .

El procedimiento para la prueba será muy similar al presentado en la sección anterior. La única diferencia está en la forma de calcular las frecuencias esperadas, que en este caso se calcularán bajo el supuesto de que la variable tiene una distribución de probabilidades dada. Distribución Binomial Hipótesis: Ho: La variable X tiene una distribución de probabilidades dada. Hi: La variable X no tiene una distribución de probabilidades dada. Estadístico de prueba: Grados de libertad = ( k - p - 1), clases- parámetro-1 Las frecuencias esperadas se calculan de la siguiente manera: e i = np i donde p i son las probabilidades correspondientes a cada valor de X según la distribución de probabilidades establecida en la hipótesis nula.

Si la distribución es Binomial las probabilidades se calcularán con la siguiente fórmula: Distribución Binomial Regla de Decisión : La hipótesis nula se rechaza con un nivel de significación α sí el valor de X 2 calculado, resulta mayor que el de la tabla Número de naranjas podridas 1 2 3 4 5 6 Frecuencia observada (bolsas) 334 369 191 63 22 12 9 Ejemplo 2 : Hay 1000 bolsas de naranjas, cada una de las cuales contiene 10 naranjas. Algunas de las naranjas están podridas. ¿Es la distribución de probabilidades del número de naranjas podridas por bolsa una Binomial? Los resultados obtenidos tras analizar las 1000 bolsas son los siguientes:   H : El número de naranjas podridas por bolsa sigue una distribución Binomial H 1 : El número de naranjas podridas por bolsa no sigue una distribución Binomial # de naranjas podridas = 1(369) + 2(191) + 3(63) + 4(22) + 5(12) + 6(9) = 1142 p = = 0.1142 entonces q = 1- 0.1142 = 0.8858  

Para hallar la frecuencia esperada, empleamos la fórmula de la distribución binomial y consideramos los siguientes datos: n= 10 p = 0.1142 q = 1-01142 = 0.8858 La probabilidad de no encontrar una naranja podrida, es decir cero podridas Distribución Binomial

Dado que no se conoce la proporción de naranjas podridas p , este valor será estimado con la proporción muestral p : p ˆ = p = # de naranjas podridas # de naranjas 1142 10000 0.1142 = = Ahora, se calculan las probabilidades binomiales para X = 0, 1, 2, 3, 4, 5 y 6 ó más, y a partir de estas probabilidades se calculan las frecuencias esperadas: Núm. de naranjas podridas (X) 1 2 3 4 5 6 ó + Frecuencias observadas 334 369 191 63 22 12 9 p(X) 0.2974 0.3834 0.2224 0.0765 0.0173 0.0027 0.0003 Frecuencias esperadas 297.4 383.4 222.4 76.5 17.3 2.7 0.3 Note que las dos últimas frecuencias esperadas son menores a 5, por lo que será necesario agrupar las tres últimas categorías: Número de naranjas podridas (X) 1 2 3 4 ó + Frecuencias observadas 334 369 191 63 43 p(X) 0.2974 0.3834 0.2224 0.0765 0.0203 Frecuencias esperadas 297.4 383.4 222.4 76.5 20.3 Distribución Binomial

Distribución Binomial Con estos datos el estadístico de prueba es : Los grados de libertad para el estadístico de prueba serán 3 , puesto que (k-p-1) = (5-1-1) El valor de la tabla con α= 0.05 y con 3 gl es = 7.815 Como el valor calculado es mayor que el valor de tabla se rechaza Ho. En conclusión existe suficiente evidencia estadística para aceptar que el número de naranjas podridas por bolsa no sigue una distribución Binomial.   X 2 = + = 37.21  

Distribución de Poisson Una variable aleatoria X tendrá distribución de Poisson con parámetro m = l si cumple con las siguientes características: la distribución de Poisson es una distribución de probabilidad discreta que expresa, a partir de una frecuencia de ocurrencia media, la probabilidad de que ocurra un determinado número de eventos durante cierto período de tiempo. Concretamente, se especializa en la probabilidad de ocurrencia de sucesos con probabilidades muy pequeñas, o sucesos «raros». La función de densidad de probabilidad de la distribución de Poisson es: Donde: P(X=x): Es la probabilidad de ocurrencia de la variable discreta x λ : Promedio de ocurrencias en un intervalo (tiempo, volumen, área, etc.) ε: valor constante de 2. 71828 x: Es el número de ocurrencias

Ejemplo 3 : Un entomólogo está analizando la distribución de una especie de insecto en una zona de cultivo. Para dicho estudio seleccionó 40 parcelas de 2m x 2m y contabilizó el número de insectos de dicha especie en cada una. Los resultados son los siguientes: Distribución de Poisson Número de insectos 1 2 3 4 Número de parcelas 4 16 12 6 2 Pruebe con α =0.05 si los datos se ajustan a una distribución de Poisson. Ho: El número de insectos por parcela sigue una distribución de Poisson H1: El número de insectos por parcela no sigue una distribución de Poisson. Dado que no se conoce el parámetro λ , este valor será estimado con la media muestral:

Distribución de Poisson

Ahora, se calculan las probabilidades de la distribución de Poisson para X = 0, 1, 2, 3 y 4 ó más, y a partir de estas probabilidades se calculan las frecuencias esperadas: Distribución de Poisson Número de insectos (X) 1 2 3 4 ó más Frecuencias observadas 4 16 12 6 2 p(X) 0.1920 0.3169 0.2614 0.1438 0.0859 Frecuencias esperadas 7.68 12.68 10.46 5.75 3.43 Agrupando las dos últimas categorías se tiene: Número de insectos ( X ) 1 2 3 ó más Frecuencias observadas 4 16 12 8 p ( X ) 0.1920 0.3169 0.2614 0.2296 Frecuencias esperadas 7.68 12.68 10.46 9.19 Los grados de libertad para el estadístico de prueba serán 2; (4 categorías – 1 – 1) en la tabla es valor es: 5.991

Como el valor calculado es menor al valor de tabla no se rechaza H . En conclusión no existe suficiente evidencia estadística para rechazar que el número de insectos por parcela siga una distribución de Poisson. Distribución de Poisson Aplicando la fórmula de Chi Cuadrado: Tenemos:

Distribución Normal La distribución normal es una distribución con forma de campana donde las desviaciones estándar sucesivas con respecto a la media establecen valores de referencia para estimar el porcentaje de observaciones de los datos. Estos valores de referencia son la base de muchas pruebas de hipótesis, como las pruebas Z Histograma de una distribución normal hipotética Alrededor del 95% de las observaciones está dentro de 2 desviaciones estándar de la media, estos valores se ubicará dentro de ± 1.96 desviaciones estándar con respecto a la media. Por lo tanto, menos del 5% (0.05) de las observaciones estará fuera de este rango. Este rango es la base del nivel de significancia de 0.05 que se utiliza para muchas pruebas de hipótesis. Aproximadamente el 68% de las observaciones está dentro de una 1 desviación estándar de la media (-1 a +1), y alrededor del 99.7% de las observaciones estarían dentro de 3 desviaciones estándar con respecto a la media (-3 a +3).

Distribución Normal Tabla de la distribución normal La tabla de la distribución normal presenta los valores de probabilidad para una variable estándar Z, con media igual a 0 y varianza igual a 1. Para usar la tabla, siempre debemos estandarizar la variable por medio de la expresión: Siendo el valor de interés; la media de nuestra variable y su desviación estándar. Recordemos que corresponden a parámetros, o sea valores en el universo, que generalmente no conocemos, por lo que debemos calcular Z usando los datos de nuestra muestra. Si tenemos una distribución de frecuencias, cada clase o categoría estará representado dentro de la campana de Gauss o distribución Normal con un frecuencia relativa que será la probabilidad de ocurrencia dentro de ese espacio especifico, este valor lo hallamos por la aplicación de la formula de z

Distribución Normal Peso en gramos Nº de Mazorcas (f i ) X i De menos de 200 a 250 18 225 De 250 a 300 22 275 De 300 a 350 28 325 De 350 a 400 9 375 De 400 a más de 450 3 425 ¿Se puede afirmar con un α = 0.05 que el peso de la mazorca se ajusta a una distribución normal?

Peso en gramos Nº de Mazorcas (f i ) X i fiXi De menos de 200 a 250 18 225 4050 De 250 a 300 22 275 6050 De 300 a 350 28 325 9100 De 350 a 400 9 375 3375 De 400 a más de 450 3 425 1275 Totales 80   23850

Uso de la calculadora científica

Distribución Normal Planteamos las hipótesis: Ho: El peso de las mazorcas se ajusta a una distribución normal H 1 : El peso de las mazorcas no se ajusta a una distribución normal   En este caso primero tenemos que hallar las probabilidades que corresponde a cada clase para en función de ello calcular las frecuencias esperadas, entonces aplicamos la fórmula de z. Para ello necesitamos calcular 2 parámetros, la media y la desviación estándar: Utilizamos nuestra calculadora científica, cargando en x las marcas de clase y en f, las frecuencias de cada clase. Utilizamos las fórmulas de media y variancia para hallar los valores requeridos. Los valores calculados son: La media es = 298.125 y desviación estándar = 53.92

Distribución Normal 200 250 300 350 400 450 Empleando la fórmula de z, vamos a calcular la probabilidad teórica de cada intervalo bajo la curva normal

Distribución Normal Empleando la fórmula de z, vamos a calcular la probabilidad teórica de cada intervalo bajo la curva normal En la tabla de z la probabilidad es 0.3133, a este valor le restamos a 0.5 y resulta que la probabilidad del intervalo es de 0.1867 Para el primer intervalo cuyos límites son desde menos 200 hasta 250 250-298.125 Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133 Para el segundo intervalo entre 250 y 300 tenemos a la probabilidad encontrada 250 le vamos a sumar el que resulte de hallar ese pequeño intervalo desde la media. 300-298.125 A este valor le sumamos 0.3133 y resulta que la probabilidad de este intervalo es 0.3253 Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359

Distribución Normal Para el tercer intervalo entre 300 y 350 350-298.125 y resulta 0.3195 Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389 Para el cuarto intervalo entre 350 y 400 400-298.125 Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706 Para el quinto intervalo entre 400 y más de 450 Le restamos de 0.5 – (0.012+0.3195+0.1391) = 0.0294 Con estos datos construimos las frecuencias teóricas y hallamos el valor de Chi Cuadrado calculado

Distribución Normal Peso en gramos o i X i P(x) e i X 2 De menos de 200 a 250 18 225 0.1867 14.94 0.63 De 250 a 300 22 275 0.3253 26.02 0.62 De 300 a 350 28 325 0.3195 25.56 0.23 De 350 a 400 9 375 0.1391 11.13 0.41 De 400 a más de 450 3 425 0.0294 2.35 0.18   80   1.0000 80 2.07   g 0.995 0.99 0.975 0.95 0.90 0.75 0.50 0.25 0.10 0.05 0.025 1 0.000 0.000 0.001 0.004 0.016 0.102 0.455 1.323 2.706 3.841 5.024 2 0.01 0.02 0.05 0.10 0.21 0.58 1.39 2.77 4.61 5.99 7.38 3 0.07 0.11 0.22 0.35 0.58 1.21 2.37 4.11 6.25 7.81 9.35 Los grados de libertad seria 5-2-1=2, y en la tabla al nivel de 0.05 es 5.99 En consecuencia X 2 calculado es menor que X 2 tabular, por consiguiente se acepta la Ho, es decir que el peso de las mazorcas se ajusta a una distribución normal

3. Pruebas Chi-Cuadrado para Tablas de Contingencia de dos Entradas En esta sección se verán las pruebas de homogeneidad de subpoblaciones y de independencia. Si bien ambas pruebas presentan el mismo procedimiento de cálculo, las hipótesis a probar son diferentes y por lo tanto las conclusiones obtenidas también. 3.1. Prueba de Homogeneidad de Subpoblaciones   Existen r poblaciones y una muestra aleatoria es extraída desde cada población. Sea n i · el tamaño de la muestra extraída de la i - ésima población. Cada observación de cada muestra puede ser clasificada en una de c categorías diferentes. Los datos son arreglados en la siguiente tabla de contingencia r x c :   Categoría 1 Categoría 2 . . . Categoría c Total Población 1 o 11 o 12 . . . o 1c n 1· Población 2 o 21 o 22 . . . o 2c n 2· . . .   . . . . . . . . . . . . Población r o r2 o r2 . . . o rc n r · Total n ·1 n ·2 . . . n ·c n ·· En la tabla, o ij es el número de observaciones de la muestra i clasificadas en la categoría j ; n · j es el número total de observaciones en la categoría j extraídas desde las r poblaciones y n ·· es el total de observaciones extraídas desde las r poblaciones.

3.1. Prueba de Homogeneidad de Subpoblaciones   Hipótesis : Sea p ij la probabilidad de que una observación seleccionada de la población i sea clasificada en la categoría j . Entonces las hipótesis son: H : p 1 j = p 2 j = . . . = p rj para todo j = 1, 2, ... c . H 1 : Al menos una igualdad no se cumple. Las hipótesis pueden expresarse equivalentemente de la siguiente manera: H : La variable aleatoria tiene la misma distribución de probabilidades en las r poblaciones. H 1 : La variable aleatoria tiene una distribución de probabilidades diferente en al menos una de las poblaciones. Estadístico de prueba Regla de decisión : La hipótesis nula se rechaza con un nivel de significación a si el c 2 calculado resulta mayor que el valor de tabla. c 2 [1- a , (r-1)(c-1) ].

3.1. Prueba de Homogeneidad de Subpoblaciones Para conocer la opinión de los ciudadanos sobre la actuación del alcalde de la ciudad, se realiza una encuesta a 404 personas, cuyos resultados se recogen en la siguiente tabla: Ejemplo 4.   Desacuerdo De acuerdo No contestan Total Mujeres 84 78 37 199 Varones 118 62 25 205 Total 202 140 62 404 Contrastar, con un nivel de significación del 5%, que no existen diferencias de opinión entre hombres y mujeres ante la actuación del alcalde. Se tienen dos muestras clasificadas en tres niveles, donde se desea conocer si los hombres y mujeres proceden de la misma población, es decir, si se comportan de manera semejante respecto a la opinión de la actuación del alcalde. H o : No existe diferencia entre hombres y mujeres respecto a la opinión H 1 : Si existe diferencia

La frecuencia esperada se calcula, multiplicando el total de fila donde se encuentra la frecuencia observada por el total de columna correspondiente todo sobre el gran total 3.1. Prueba de Homogeneidad de Subpoblaciones   Desacuerdo De acuerdo No contestan Total Mujeres 84 99.5 78 68.96 37 30.54 199 199 Varones 118 102.5 62 71.04 25 31.46 205 205 Total 202 202 140 140 62 62 404 404 9.79 Para ver el valor en la tabla de Chi cuadrado, tenemos que los gl = filas -1 por columnas-1, es decir (2-1)(3-1) =2 que nos da el valor de 5.991, Esto quiere decir que las submuestras no son homogéneas es decir, no proceden de la misma población, hombres y mujeres no opinan lo mismo.

3.2. Prueba de Independencia Esta prueba permite analizar si dos variables aleatorias son o no independientes En consecuencia las hipótesis pueden expresarse, de la siguiente manera: H : Las variables X y Y son independientes. H 1 : Las variables X y Y no son independientes. Ejemplo 5 : En un estudio sobre enfermedades al corazón en hombres, 356 voluntarios fueron clasificados de acuerdo con su nivel socioeconómico y sus hábitos de fumar. Los datos se presentan en la siguiente tabla: Hábito de fumar   Alto Nivel Socioeconómico Medio   Bajo   Total Filas Actualmente 51 22 43 116 En el pasado 92 21 28 141 Nunca 68 9 22 99 Total Columnas 211 52 93 356 ¿Es el hábito de fumar independiente del nivel socioeconómico? Las hipótesis a contrastar serán las siguientes: H : El hábito de fumar es independiente del nivel socioeconómico. H 1 : El hábito de fumar no es independiente del nivel socioeconómico.

3.2. Prueba de Independencia Las frecuencias observadas y esperadas (frecuencias esperadas entre paréntesis) se presentan en la siguiente tabla: Hábito de fumar Nivel Alto Socioeconómico Medio   Bajo   Total Filas Actualmente 51 ( 68.75 ) 22 ( 16.94 ) 43 ( 30.30 ) 116 En el pasado 92 ( 83.57) 21 ( 20.60 ) 28 ( 36.83 ) 141 Nunca 68 ( 58.68 ) 9 ( 14.46 ) 22 ( 25.86 ) 99 Total Columnas 211 52 93 356 Con estos datos, procedemos a calcular Chi cuadrado Los grados de libertad serán (3-1) (3-1) = 4, en la tabla corresponde a 9.488 Entonces Chi cuadrado calculado es mayor que el valor tabular, se rechaza la hipótesis nula, es decir el habito de fumar no es independiente del nivel socioeconómico.