ANOVA DE UNO Y DOS FACTORES.pptx

6,380 views 88 slides May 18, 2022
Slide 1
Slide 1 of 88
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49
Slide 50
50
Slide 51
51
Slide 52
52
Slide 53
53
Slide 54
54
Slide 55
55
Slide 56
56
Slide 57
57
Slide 58
58
Slide 59
59
Slide 60
60
Slide 61
61
Slide 62
62
Slide 63
63
Slide 64
64
Slide 65
65
Slide 66
66
Slide 67
67
Slide 68
68
Slide 69
69
Slide 70
70
Slide 71
71
Slide 72
72
Slide 73
73
Slide 74
74
Slide 75
75
Slide 76
76
Slide 77
77
Slide 78
78
Slide 79
79
Slide 80
80
Slide 81
81
Slide 82
82
Slide 83
83
Slide 84
84
Slide 85
85
Slide 86
86
Slide 87
87
Slide 88
88

About This Presentation

as


Slide Content

ANÁLISIS DE VARIANZA Claudio Cerrón Landeo

Objetivos de clase Reconocer las características de una prueba de varianzas. Determinar en que circunstancias se aplica ANOVA. Al finalizar la presentación el estudiante podrá Distribución F

Programas de capacitación Programas 1 2 3 85 80 82 72 84 80 83 81 85 80 78 90   82 88

ANOVA: Una prueba para más de dos medias Ho : µ1 = µ2 = µ3 = . . . . H1 : Por lo menos una media es diferente

ANOVA: Una prueba para más de dos medias Análisis de la varianza (ANOVA) ANOVA de dos vía o factores (Two-ways) ANOVA de una vía o factor ( one-way ) Modelo aditivo (sin interacción) Modelo con interacción FACTOR 1 A B C 3.2 2.3 3.4 4.2 2.7 3.9 4.1 4.1 4.0 3.9 3.8 2.3 3.7 3.6 3.5 3.5 FACTOR 1 A B C FACTOR 2 E 3.2 2.3 3.4 F 4.2 2.7 3.9 G 4.1 4.1 4.0 H 3.9 3.8 2.3 I 3.7 3.6 3.5 FACTOR 1 A B C FACTOR 2 E 3.2 3.4 2.3 2.6 3.4 3.6 F 4.2 3.9 2.7 3.4 3.9 2.9 G 4.1 4.0 4.1 3.8 4.0 4,3 H 3.9 3.6 3.8 4.6 2.3 2.6 I 3.7 3.2 3.6 4.2 3.5 3.7

ANOVA de un Factor ANOVA de una Vía

Requisitos Las poblaciones tienen distribuciones que son aproximadamente normales. Este requisito no es demasiado estricto, ya que el método funciona bien, a menos que la población tenga una distribución muy diferente de la normal o existan datos extremos

Requisitos Las poblaciones tienen la misma varianza σ 2 (o desviación estándar σ ). (Este requisito no es demasiado estricto, ya que el método funciona bien a menos que las varianzas poblacionales difieran en grandes cantidades).  

Requisitos Las muestras son aleatorias simples (es decir, muestras del mismo tamaño que tienen la misma probabilidad de ser elegidas). Las muestras son independientes entre sí (es decir, no están emparejadas o asociadas de ninguna forma). Las diferentes muestras provienen de poblaciones que están categorizadas de una sola forma o factor. (Ésta es la base del nombre del método: análisis de varianza de un factor).

Programas de capacitación Programas 1 2 3 85 80 82 72 84 80 83 81 85 80 78 90   82 88 Datos: K = 3 # de tratamientos N = 14 total de datos n 1 = 4 Tamaño muestra 1 n 2 = 5 Tamaño muestra 2 n 3 = 5 Tamaño muestra 3

ANOVA: Una prueba para más de dos medias Ho : µ Capacitación1 = µ Capacitación2 = µ Capacitación3 (El tipo de capacitación no influye en el rendimiento de los trabajadores) H1 : Por lo menos una media es diferente (El tipo de capacitación influye en el rendimiento de los trabajadores) VARIABLE DE INTERÉS O RESPUESTA (y): El rendimiento de los trabajadores FACTOR O VARIABLE INDEPENDIENTE (x): El tipo de capacitación

Programas de capacitación El análisis de la varianza se basa en la comparación de la cantidad de variación en cada uno de los programas (tratamientos). Si de un tratamiento a otro la variación es significativamente alta, los tratamientos tienen efectos diferentes en las poblaciones.

Programas de capacitación Existen tres tipos de fuentes de variación: Variación total Variación entre muestras. Variación dentro de las muestras.

Programas de capacitación Variación entre muestras: Los empleados del programa 1 no obtuvieron el mismo puntaje que los del programa 2 o el programa 3. Variación producida por el factor o tratamiento

Programas de capacitación Variación dentro de las muestras No todos los empleados del mismo programa obtuvieron el mismo puntaje. Variación dentro de los tratamientos Por el error de muestreo

Programas de capacitación Variación total Entre el total de empleados muestreados no todos obtuvieron la misma nota. SCMT + SCME = SCMT

Distribución F Es una distribución que depende de los grados de libertad del numerador de los grados de libertad del denominador     Zona de No Rechazo Zona de Rechazo  

TABLA ANOVA (una vía) Origen de la Varianza Suma de cuadrados (SC) Grados de Libertad ( gl ) Cuadrados Medios (CM) Estadíst . de Prueba (F) Tratamiento o Factor o vía (entre muestras) SCTR = K-1 CMTR= F = Error (dentro de las muestras) SCE = N-k CME= Total SCT = SCTR + SCE N-1 Origen de la Varianza Suma de cuadrados (SC) Grados de Libertad ( gl ) Cuadrados Medios (CM) Estadíst . de Prueba (F) Tratamiento o Factor o vía (entre muestras) K-1 Error (dentro de las muestras) N-k Total SCT = SCTR + SCE N-1 Valores críticos en la Tabla A-5 con grados de Libertad del Numerador = k - 1 y Grados de libertad del denominador N - k

Ejemplo 1 Un estudio compara los efectos sobre las ventas de 4 promociones de un mes en el punto de venta. Presentamos las ventas unitarias de las tiendas que utilizaron las 4 promociones en meses distintos: Ventas (US$ miles) Muestras gratis Regalo de un paquete Descuento Reembolso en otras compras 78 94 73 79 87 91 78 83 81 87 69 78 89 90 83 69 85 88 77 81 90 83       73 Al nivel de significancia de 0.01, ¿las promociones producen diferentes efectos sobre las ventas?

Ejemplo 1 Hipótesis H0: = = = H1: Por lo menos una media es diferente   Ventas (US$ miles) Muestras gratis Regalo de un paquete Descuento Reembolso en otras compras 78 94 73 79 87 91 78 83 81 87 69 78 89 90 83 69 85 88 77 81 90 83       73 Calculamos las medidas: n, , s y   K=4 N = 23

Ejemplo 1 - Datos H0: = = = H1: Por lo menos una media es diferente   Ventas (US$ miles) Muestras gratis Regalo de un paquete Descuento Reembolso en otras compras 78 94 73 79 87 91 78 83 81 87 69 78 89 90 83 69 85 88 77 81 90 83       73 = 5 6 5 7 Ventas (US$ miles) Muestras gratis Regalo de un paquete Descuento Reembolso en otras compras 78 94 73 79 87 91 78 83 81 87 69 78 89 90 83 69 85 88 77 81 90 83       73 5 6 5 7

Ejemplo 1 - Medias H0: = = = H1: Por lo menos una media es diferente   Ventas (US$ miles) Muestras gratis Regalo de un paquete Descuento Reembolso por correo 78 94 73 79 87 91 78 83 81 87 69 78 89 90 83 69 85 88 77 81 90 83       73 = 5 6 5 7 = 84 90 76 78 Ventas (US$ miles) Muestras gratis Regalo de un paquete Descuento Reembolso por correo 78 94 73 79 87 91 78 83 81 87 69 78 89 90 83 69 85 88 77 81 90 83       73 5 6 5 7 84 90 76 78

Ejemplo 1 – Desviaciones Estándar H0: = = = H1: Por lo menos una media es diferente   Ventas (US$ miles) Muestras gratis Regalo de un paquete Descuento Reembolso por correo 78 94 73 79 87 91 78 83 81 87 69 78 89 90 83 69 85 88 77 81 90 83       73 = 5 6 5 7 = 84 90 76 78 = 4.4721 2.4495 5.2915 5.2599 Ventas (US$ miles) Muestras gratis Regalo de un paquete Descuento Reembolso por correo 78 94 73 79 87 91 78 83 81 87 69 78 89 90 83 69 85 88 77 81 90 83       73 5 6 5 7 84 90 76 78 4.4721 2.4495 5.2915 5.2599 = 82  

Ejemplo 1 – Suma de cuadrados m. Calculamos las sumatorias de cuadrados: = 5 6 5 7 = 84 90 76 78 = 4.4721 2.4495 5.2915 5.2599 5 6 5 7 84 90 76 78 4.4721 2.4495 5.2915 5.2599 = 82         Origen de las variaciones SC gl CM F Por el Tratamiento 696 Por el Error

Ejemplo 1– Suma de cuadrados Error Calculamos las sumatorias de cuadrados: = 5 6 5 7 = 84 90 76 78 = 4.4721 2.4495 5.2915 5.2599 5 6 5 7 84 90 76 78 4.4721 2.4495 5.2915 5.2599 = 82         Origen de las variaciones SC gl CM F Por el Tratamiento 696 Por el Error 388

Origen de las variaciones SC gl CM F Por el Tratamiento 696 3 Por el Error 388 19 Ejemplo 1 Cuadrados Medios H0: = = = H1: Por lo menos una media es diferente   K=4 N = 23

Ejemplo 1 – CM del Tratamiento H0: = = = H1: Por lo menos una media es diferente   Origen de las variaciones SC gl CM F Por el Tratamiento 696 3 232 Por el Error 388 19 Total 22 ÷ ÷ = =

Ejemplo 1 – CM del Error H0: = = = H1: Por lo menos una media es diferente   Origen de las variaciones SC gl CM F Por el Tratamiento 696 3 232 Por el Error 388 19 20.4211 Total 22 ÷ ÷ = =

Ejemplo 1 – Estadístico de Prueba H0: = = = H1: Por lo menos una media es diferente   Origen de las variaciones SC gl CM F Por el Tratamiento 696 3 232 Por el Error 388 19 20.4211 Total 22 ÷ = 11.361

Ejemplo 1 – Valor Crítico H0: = = = H1: Por lo menos una media es diferente   Origen de las variaciones SC gl CM F Por el Tratamiento 696 3 232 11.361 Por el Error 388 19 20.4211 Total 22 3.1274

Ejemplo 1 - Conclusión H0: = = = H1: Por lo menos una media es diferente   Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Entre grupos Por el Tratamiento 696 3 232 11.361 Dentro de los grupos Por el Error 388 19 20.4211 Total 22 3.127 Rechazamos H0 como verdadera V F Existe evidencia muestral suficiente para afirmar que por lo menos una media es diferente

APLICACIÓN CON R Suponga que un estudio quiere comprobar si existe una diferencia significativa entre el % de bateos exitosos de los jugadores de béisbol dependiendo de la posición en la que juegan. En caso de que exista diferencia se quiere saber qué posiciones difieren del resto. La siguiente tabla contiene una muestra de jugadores seleccionados aleatoriamente. Se muestra en el cuadro parte de los datos, la data completa se encuentra en el archivo compartido.

APLICACIÓN CON R 1. Estudio de los datos: Número de grupos, observaciones por grupo y distribución de las observaciones Se identifica el número de grupos y cantidad de observaciones por grupo para determinar si es un modelo equilibrado. También se calculan la media y desviación típica de caga grupo.

APLICACIÓN CON R Dado que el número de observaciones por grupo no es constante, se trata de un modelo no equilibrado. Es importante tenerlo en cuenta cuando se comprueben las condiciones de normalidad y homocedasticidad. La representación gráfica mas útil antes de realizar un ANOVA es el modelo Box- Plot .

APLICACIÓN CON R Este tipo de representación permite identificar de forma preliminar si existen asimetrías, datos atípicos o diferencia de varianzas. En este caso, los 4 grupos parecen seguir una distribución simétrica. En el nivel IF se detectan algunos valores extremos que habrá que estudiar con detalle por si fuese necesario eliminarlos. El tamaño de las cajas es similar para todos los niveles por lo que no hay indicios de falta de homocedasticidad.

APLICACIÓN CON R 2. Verificar condiciones para un ANOVA Homocedasticidad Test de Bartlett bartlett.test (y ~ x) Independencia Normalidad Test de Kolgomorov Smirnof Lilliefors library( nortest ) lillie.test ( datos )

APLICACIÓN CON R 3. Análisis de varianza ANOVA

APLICACIÓN CON R

APLICACIÓN CON R 4. Comparaciones múltiples

APLICACIÓN CON R Como era de esperar no se encuentra diferencia significativa entre ningún par de medias.

APLICACIÓN CON R 5. Conclusión En el estudio realizado se ha observado un tamaño de efecto pequeño y las técnicas de inferencia ANOVA no han encontrado significancia estadística para rechazar que las medias son iguales entre todos los grupos.

EJEMPLO 2 Pseudomonas fragi Se realizó un estudio para investigar el efecto del CO 2  sobre la tasa de crecimiento de  Pseudomonas fragi  (un corruptor de alimentos). Se cree que el crecimiento se ve afectado por la cantidad de CO 2  en el aire. Para contrastarlo, en un experimento se administró CO 2  a 5 presiones atmosféricas diferentes a 10 cultivos diferentes por cada nivel, y se anotó el cambio (en %) de la masa celular al cabo de una hora: Realiza el análisis de varianza para determinar si el crecimiento se ve afectado por la cantidad de CO 2 .

El análisis de varianza de dos vías, también conocido como plan factorial con dos factores, sirve para estudiar la relación entre una variable dependiente cuantitativa y dos variables independientes cualitativas (factores) cada uno con varios niveles. El ANOVA de dos vías permite estudiar cómo influyen por si solos cada uno de los factores sobre la variable dependiente (modelo aditivo) así como la influencia de las combinaciones que se pueden dar entre ellas (modelo con interacción).

Supóngase que se quiere estudiar el efecto de un fármaco sobre la presión sanguínea (variable cuantitativa dependiente) dependiendo del sexo del paciente (niveles: hombre, mujer) y de la edad (niveles: niño, adulto, anciano). El efecto simple de los factores consiste en estudiar cómo varía el efecto del fármaco dependiendo del sexo sin diferenciar por edades, así como estudiar cómo varía el efecto del fármaco dependiendo de la edad sin tener en cuenta el sexo. El efecto de la interacción doble consiste en estudiar si la influencia de uno de los factores varía dependiendo de los niveles del otro factor. Es decir, si la influencia del factor sexo sobre la actividad del fármaco es distinta según la edad del paciente o lo que es lo mismo, si la actividad del fármaco para una determinada edad es distinta según si se es hombre o mujer. EJEMPLO

• Para cada celda, los valores muestrales provienen de una población con una distribución que es aproximadamente normal. • Las poblaciones tienen la misma varianza (o desviación estándar σ). • Las muestras son aleatorias simples. • Las muestras son independientes entre sí. • Los valores muestrales se categorizan en dos factores. • Todas las celdas tienen el mismo número de valores muestrales. Dos factores o vías (requisitos)

ANOVA de 2 factores Análisis de la varianza (ANOVA) ANOVA de dos vía o factores (Two-ways) ANOVA de una vía o factor ( one-way ) Modelo aditivo (sin interacción) Modelo con interacción FACTOR 1 A B C FACTOR 2 E 3.2 2.3 3.4 F 4.2 2.7 3.9 G 4.1 4.1 4.0 H 3.9 3.8 2.3 I 3.7 3.6 3.5

Diseño del modelo ANOVA de dos factores sin interacción

Diseño del modelo ANOVA de dos factores sin interacción

Diseño por bloques Interesa saber si la variable Y tiene la misma media para los distintos niveles del factor A. Los valores pueden depender de los niveles de un segundo factor B. El factor A tiene I niveles; el factor B, J niveles. Para cada nivel de A se realizan J mediciones de Y y una medición en cada nivel de B (en total de I × J mediciones). EJEMPLOS Eficiencia de varios modelos de un tipo de máquina. Se controla la influencia del medio ambiente. Factores: modelo de la máquina, condiciones ambientales. Análisis de muestras. Factores: muestra, analista. Eficacia de distintos tratamientos (dosis) con un determinado medicamento. Factores: tratamiento, edad del paciente. Tiempo de permanencia en sangre del principio activo de un medicamento. Factores: preparación, individuo. ANOVA de dos factores sin interacción

Entre Muestras o Tratamientos Entre columnas SCTR = K-1 CMTR= Dentro de los grupos Por el Error SCE =SCT-(SCBL+SCTR) (L-1)(K-1) CME= Total SCT= N-1   Entre Muestras o Tratamientos Entre columnas K-1 Dentro de los grupos Por el Error SCE =SCT-(SCBL+SCTR) (L-1)(K-1) Total N-1   Este caso también se denomina sin repetición o de diseño aleatorio Origen de las variaciones Suma de cuadrados gl Promedio de los cuadrados F Entre Bloques Entre filas SCBL= L-1 CMBL= Entre Bloques Entre filas L-1 ANOVA de dos factores sin interacción

Ejemplo En una empresa se prueban tres sistemas nuevos de contabilidad. Se prueba el sistema, pero se desea aislar el efecto de la experiencia de uso en este tipo de aplicaciones. Sistemas Nivel de experiencia A B C 1 27 21 25 2 31 33 35 3 42 39 39 4 38 41 37 5 45 46 45

Planteamiento de Hipótesis Filas o Bloques Ho: μ 1 = μ 2 = μ 3 = μ 4 = μ 5 (No hay diferencia entre niveles de experiencia) H1: Por lo menos un nivel de experiencia produce efectos diferentes. Columnas o Tratamientos. Ho: μ A = μ B = μ C (No hay diferencia entre tipos de sistemas) H1: Por lo menos un sistema es diferente.

Datos Este caso también se denomina sin repetición o con una sola muestra por fila. Sistemas (tratamientos) Nivel de experiencia (filas) 1 2 3 1 27 21 25 2 31 33 35 3 42 39 39 4 38 41 37 5 45 46 45

Datos Sistemas (tratamientos) Nivel de experiencia (filas) 1 2 3 1 27 21 25 2 31 33 35 3 42 39 39 4 38 41 37 5 45 46 45 36.267   N = 15 Número de Filas L = 5 Número de Columnas o Tratamiento k = 3  

Sistemas (tratamientos) Nivel de experiencia (filas) 1 2 3 n i s i 1 27 21 25 3 24.333 3.055 2 31 33 35 3 33 2. 3 42 39 39 3 40 1.732 4 38 41 37 3 38.667 2.082 5 45 46 45 3 45.333 0.577 n j 5 5 5 36.6 36 36.2 s j 7.503 9.592 7.294 Sistemas (tratamientos) Nivel de experiencia (filas) 1 2 3 n i s i 1 27 21 25 3 24.333 3.055 2 31 33 35 3 33 2. 3 42 39 39 3 40 1.732 4 38 41 37 3 38.667 2.082 5 45 46 45 3 45.333 0.577 n j 5 5 5 36.6 36 36.2 s j 7.503 9.592 7.294 Número de Filas L = 5 Número de Columnas o Tratamiento k = 3 36.267   N = 15   Datos

Sumatorias: Filas o Bloques: SCBL= SCBL = 3(24.33-36.267) 2 + 3(33--36.267) 2 + 3(40-36.267) 2 + 3(38.667-36.267) 2 + 3(45.33-36.267) 2 SCBL = 764.944   Columnas o Tratamientos: SCTR= SCBL = 5(36.6-36.267) 2 +5(36-36.267) 2 +5(36.2-36.267) 2 SCTR = 0.933   Total: SCT= , donde; = (7.335) 2 = 53.796 SCT = (53.796)(15) SCT = 806.933   Suma de Cuadrados del Error: SCE = SCT-(SCBL+SCTR) SCE = 806.933-(764.944+0.933) SCE = 41.056

Tabla ANOVA 2 factores Origen de las variaciones SC gl CM F Entre Bloques Entre filas SCB =764.944 L-1 CMBL= Entre Muestras o Tratamientos Entre columnas SCTR =0.933 K-1 CMTR= Por el Error SCE =SCT-(SCBL+SCTR) L*K CME= Total 806.933 N-1   Origen de las variaciones SC gl CM F Entre Bloques Entre filas SCB =764.944 L-1 Entre Muestras o Tratamientos Entre columnas SCTR =0.933 K-1 Por el Error SCE =SCT-(SCBL+SCTR) L*K Total 806.933 N-1  

   = = =   Tabla ANOVA 2 factores

Origen de variaciones SC gl CM F F crit Entre Bloques Entre filas SCB =764.933 4 191.233 37.253 3.8379 Tratamientos Entre columnas SCTR = 0.933 2 0.467 0.0909 4.4590 Dentro de los grupos Por el Error SCE = 41.067 8 5.133 Total SCT=806.933 14     3.8379 4.4590 = 4 = 8 α = 0.05   = 2 = 8 α = 0.05   Reglas de decisión

Conclusiones Origen de variaciones SC gl CM F F crit Entre Bloques Entre filas SCB =764.933 4 191.233 37.253 3.8379 Tratamientos Entre columnas SCTR = 0.933 2 0.467 0.0909 4.4590 Dentro de los grupos Por el Error SCE = 41.067 8 5.133 Total SCT=806.933 14     3.8379 Rechazamos Ho 4.4590 = 4 = 8 α = 0.05   = 2 = 8 α = 0.05   No rechazamos Ho

Pruebas Post Hoc Solo en el caso de las Filas o Bloques se ha probado diferencias y se puede afirmar que el nivel de experiencia si incide en la calificación . Debe realizarse pruebas en pares de Bonferroni para determinar cual o cuales de las medias son diferentes

ANOVA de dos factores Análisis de la varianza (ANOVA) ANOVA de dos vía o factores (Two-ways) ANOVA de una vía o factor ( one-way ) Modelo aditivo (sin interacción) Modelo con interacción FACTOR 1 A B C FACTOR 2 E 3.2 3.4 2.3 2.6 3.4 3.6 F 4.2 3.9 2.7 3.4 3.9 2.9 G 4.1 4.0 4.1 3.8 4.0 4,3 H 3.9 3.6 3.8 4.6 2.3 2.6 I 3.7 3.2 3.6 4.2 3.5 3.7

Diseño del modelo ANOVA de dos factores con interacción

Diseño del modelo ANOVA de dos factores con interacción

Diseño del modelo ANOVA de dos factores con interacción

Diseño del modelo ANOVA de dos factores con interacción

Diseño del modelo ANOVA de dos factores con interacción

Origen de las variaciones SC gl CM F Filas Entre filas SCFil L-1 CMBL= Columnas Entre columnas SCCol K-1 CMTR= Iteracción SCI (L-1)(K-1) CMI= Error Por el Error SCE gl = glt -( Σ gl ) CME= Total SCT N-1   Origen de las variaciones SC gl CM F Filas Entre filas SCFil L-1 Columnas Entre columnas SCCol K-1 Iteracción SCI (L-1)(K-1) Error Por el Error SCE gl = glt -( Σ gl ) Total SCT N-1   Diseño del modelo ANOVA de dos factores con interacción

Ejemplo Se quiere probar dos nuevos fármacos somníferos. Se mide el tiempo de respuesta y se obtiene: Fármaco A Fármaco B Placebo C Mujer         34 27 25 33 30 19 28 29 26 41 29 30 43 32 28 Hombre         32 31 21 35 32 28 36 29 17 34 26 30 38 29 26 ¿Hay diferencia entre los tiempos de respuesta entre los fármacos A, B y un grupo placebo? El sexo de los pacientes influye de alguna manera

Planteamiento de Hipótesis FACTOR A Ho: μ mujer = μ hombre H1: Por lo menos una media es diferente. FACTOR B Ho: μ A = μ B = μ C H1: Por lo menos una media es diferente. INTERACCIÓN AB Ho: No existe interacción entre sexo y fármaco H1: Existe interacción entre sexo y fármaco

El resultado de la tabla ANOVA es: Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F Muestra 3.333 1 3.333 0.206 0.654 4.260 Columnas 545.067 2 272.533 16.875 2.654E-05 3.403 Interacción 1.8667 2 0.933 0.058 0.944 3.403 Dentro del grupo 387.6 24 16.15 Total 937.867 29

El resultado de la tabla ANOVA es: Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F Muestra 3.333 1 3.333 0.206 0.654 4.260 Columnas 545.067 2 272.533 16.875 2.654E-05 3.403 Interacción 1.8667 2 0.933 0.058 0.944 3.403 Dentro del grupo 387.6 24 16.15 Total 937.867 29 En el caso de la comparación de acuerdo al sexo; Valor P = 0.654 > α = 0.05. No se rechaza Ho, por lo que se puede aceptar que no existe influencia alguna del sexo. Ho: μ mujer = μ hombre H1: Por lo menos una media es diferente.

El resultado de la tabla ANOVA es: Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F Muestra 3.333 1 3.333 0.206 0.654 4.260 Columnas 545.067 2 272.533 16.875 2.654E-05 3.403 Interacción 1.8667 2 0.933 0.058 0.944 3.403 Dentro del grupo 387.6 24 16.15 Total 937.867 29 En el caso de Tipo de fármaco; Valor P = 0.00002654 < α = 0.05. Se rechaza Ho, por lo menos una media es diferente, se concluye que el tipo de fármaco genera efecto sobre el tiempo. Ho: μ A = μ B = μ C H1: Por lo menos una media es diferente.

El resultado de la tabla ANOVA es: Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F Muestra 3.333 1 3.333 0.206 0.654 4.260 Columnas 545.067 2 272.533 16.875 2.654E-05 3.403 Interacción 1.8667 2 0.933 0.058 0.944 3.403 Dentro del grupo 387.6 24 16.15 Total 937.867 29 En el caso de la interacción Tipo de fármaco-sexo: Valor P = 0.944 > α = 0.05. No se rechaza Ho, no existe diferencias ocasionadas por la interacción. Ho: No existe interacción entre sexo y fármaco H1: Existe interacción

APLICACIÓN CON R Supóngase un estudio clínico que analiza la eficacia de un medicamento teniendo en cuenta dos factores, el sexo (masculino y femenino) y la juventud (joven, adulto). Se quiere analizar si el efecto es diferente entre alguno de los niveles de cada variable por si sola o en combinación. Este estudio implica comprobar si el efecto medio del fármaco es significativamente distinto entre alguno de los siguientes grupos: hombres, mujeres, jóvenes, adultos, hombres jóvenes, hombres adultos, mujeres jóvenes y mujeres adultas. En R se puede realizar este tipo de ANOVA con las funciones: • Modelo aditivo: aov ( variable_respuesta ~ factor1 + factor2, data) • Modelo con interacción: aov ( variable_respuesta ~ factor1 x factor2, data)

APLICACIÓN CON R Generamos la data en el script dado que no se cuenta con un archivo adicional. Visualizamos las seis primeras filas del dataframe datos.

APLICACIÓN CON R Luego generaremos los diagramas “Box- plot ” para identificar posibles diferencias significativas, asimetrías, valores atípicos y homogeneidad de varianza entre los distintos niveles. Se acompaña a los gráficos de la media y varianza de cada grupo ; previo llamado a la librería ggplot2.

APLICACIÓN CON R Para visualizar p1 y p2 en una sola línea. También visualizaremos p3.

APLICACIÓN CON R También calcularemos la media y desviación estándar para cada nivel de los factores. De la misma manera calcularemos la media y desviación estándar de la interacción. A partir de la representación gráfica y el cálculo de las medias se puede intuir que existe una diferencia en el efecto del fármaco dependiendo de la edad y también del sexo. El efecto parece ser mayor en mujeres que en hombres y en adultos que en jóvenes, si bien la significancia se tendrá que confirmar con el ANOVA. La distribución de las observaciones de cada nivel parece simétrica con la presencia de un único valor atípico. A priori parece que se satisfacen las condiciones necesarias para un ANOVA, aunque habrá que confirmarlas estudiando los residuos.

APLICACIÓN CON R Es posible identificar posibles interacciones de los dos factores de forma gráfica mediante lo que se conocen como “gráficos de interacción”. Si las líneas que describen los datos para cada uno de los niveles son paralelas significa que el comportamiento es similar independientemente del nivel del factor, es decir, no hay interacción. Podemos utilizar el código base de R En la sgte ppt usaremos la librería ggplot2.

APLICACIÓN CON R Se observa una clara interacción entre ambos factores. La respuesta al fármaco es distinta entre adultos y jóvenes, y de tendencia inversa dependiendo del sexo. En mujeres, la respuesta es mayor cuando son jóvenes que cuando son adultas y en hombres mayor cuando son adultos y menor cuando son jóvenes. El ANOVA permitirá saber si las diferencias observadas son significativas.

APLICACIÓN CON R El ANOVA permitirá saber si las diferencias observadas son significativas. Es importante también analizar el tamaño del efecto, para ello utilizaremos la librería effectisize . El análisis de varianza no encuentra diferencias significativas en el efecto del fármaco entre hombres y mujeres (factor sex) pero sí encuentra diferencias significativas entre jóvenes y adultos y entre al menos dos grupos de las combinaciones de sexo y edad, es decir, hay significancia para la interacción. El tamaño del efecto η2 es grande tanto para edad como para la interacción de edad y sexo. Importante: El orden en el que se multiplican los factores no afecta únicamente si el tamaño de los grupos es igual, de lo contrario sí afecta.

APLICACIÓN CON R Para poder dar por válidos los resultados del ANOVA es necesario verificar que se satisfacen las condiciones de un ANOVA. Los residuos muestran la misma varianza para los distintos niveles (homocedasticidad) y se distribuyen de forma normal. La observación número 15 tiene un residuo atípicamente grande. Sería conveniente repetir el ANOVA sin esta observación para comprobar el impacto.

Ejercicios:
Tags