Objetivos de clase Reconocer las características de una prueba de varianzas. Determinar en que circunstancias se aplica ANOVA. Al finalizar la presentación el estudiante podrá Distribución F
Programas de capacitación Programas 1 2 3 85 80 82 72 84 80 83 81 85 80 78 90 82 88
ANOVA: Una prueba para más de dos medias Ho : µ1 = µ2 = µ3 = . . . . H1 : Por lo menos una media es diferente
ANOVA: Una prueba para más de dos medias Análisis de la varianza (ANOVA) ANOVA de dos vía o factores (Two-ways) ANOVA de una vía o factor ( one-way ) Modelo aditivo (sin interacción) Modelo con interacción FACTOR 1 A B C 3.2 2.3 3.4 4.2 2.7 3.9 4.1 4.1 4.0 3.9 3.8 2.3 3.7 3.6 3.5 3.5 FACTOR 1 A B C FACTOR 2 E 3.2 2.3 3.4 F 4.2 2.7 3.9 G 4.1 4.1 4.0 H 3.9 3.8 2.3 I 3.7 3.6 3.5 FACTOR 1 A B C FACTOR 2 E 3.2 3.4 2.3 2.6 3.4 3.6 F 4.2 3.9 2.7 3.4 3.9 2.9 G 4.1 4.0 4.1 3.8 4.0 4,3 H 3.9 3.6 3.8 4.6 2.3 2.6 I 3.7 3.2 3.6 4.2 3.5 3.7
ANOVA de un Factor ANOVA de una Vía
Requisitos Las poblaciones tienen distribuciones que son aproximadamente normales. Este requisito no es demasiado estricto, ya que el método funciona bien, a menos que la población tenga una distribución muy diferente de la normal o existan datos extremos
Requisitos Las poblaciones tienen la misma varianza σ 2 (o desviación estándar σ ). (Este requisito no es demasiado estricto, ya que el método funciona bien a menos que las varianzas poblacionales difieran en grandes cantidades).
Requisitos Las muestras son aleatorias simples (es decir, muestras del mismo tamaño que tienen la misma probabilidad de ser elegidas). Las muestras son independientes entre sí (es decir, no están emparejadas o asociadas de ninguna forma). Las diferentes muestras provienen de poblaciones que están categorizadas de una sola forma o factor. (Ésta es la base del nombre del método: análisis de varianza de un factor).
Programas de capacitación Programas 1 2 3 85 80 82 72 84 80 83 81 85 80 78 90 82 88 Datos: K = 3 # de tratamientos N = 14 total de datos n 1 = 4 Tamaño muestra 1 n 2 = 5 Tamaño muestra 2 n 3 = 5 Tamaño muestra 3
ANOVA: Una prueba para más de dos medias Ho : µ Capacitación1 = µ Capacitación2 = µ Capacitación3 (El tipo de capacitación no influye en el rendimiento de los trabajadores) H1 : Por lo menos una media es diferente (El tipo de capacitación influye en el rendimiento de los trabajadores) VARIABLE DE INTERÉS O RESPUESTA (y): El rendimiento de los trabajadores FACTOR O VARIABLE INDEPENDIENTE (x): El tipo de capacitación
Programas de capacitación El análisis de la varianza se basa en la comparación de la cantidad de variación en cada uno de los programas (tratamientos). Si de un tratamiento a otro la variación es significativamente alta, los tratamientos tienen efectos diferentes en las poblaciones.
Programas de capacitación Existen tres tipos de fuentes de variación: Variación total Variación entre muestras. Variación dentro de las muestras.
Programas de capacitación Variación entre muestras: Los empleados del programa 1 no obtuvieron el mismo puntaje que los del programa 2 o el programa 3. Variación producida por el factor o tratamiento
Programas de capacitación Variación dentro de las muestras No todos los empleados del mismo programa obtuvieron el mismo puntaje. Variación dentro de los tratamientos Por el error de muestreo
Programas de capacitación Variación total Entre el total de empleados muestreados no todos obtuvieron la misma nota. SCMT + SCME = SCMT
Distribución F Es una distribución que depende de los grados de libertad del numerador de los grados de libertad del denominador Zona de No Rechazo Zona de Rechazo
TABLA ANOVA (una vía) Origen de la Varianza Suma de cuadrados (SC) Grados de Libertad ( gl ) Cuadrados Medios (CM) Estadíst . de Prueba (F) Tratamiento o Factor o vía (entre muestras) SCTR = K-1 CMTR= F = Error (dentro de las muestras) SCE = N-k CME= Total SCT = SCTR + SCE N-1 Origen de la Varianza Suma de cuadrados (SC) Grados de Libertad ( gl ) Cuadrados Medios (CM) Estadíst . de Prueba (F) Tratamiento o Factor o vía (entre muestras) K-1 Error (dentro de las muestras) N-k Total SCT = SCTR + SCE N-1 Valores críticos en la Tabla A-5 con grados de Libertad del Numerador = k - 1 y Grados de libertad del denominador N - k
Ejemplo 1 Un estudio compara los efectos sobre las ventas de 4 promociones de un mes en el punto de venta. Presentamos las ventas unitarias de las tiendas que utilizaron las 4 promociones en meses distintos: Ventas (US$ miles) Muestras gratis Regalo de un paquete Descuento Reembolso en otras compras 78 94 73 79 87 91 78 83 81 87 69 78 89 90 83 69 85 88 77 81 90 83 73 Al nivel de significancia de 0.01, ¿las promociones producen diferentes efectos sobre las ventas?
Ejemplo 1 Hipótesis H0: = = = H1: Por lo menos una media es diferente Ventas (US$ miles) Muestras gratis Regalo de un paquete Descuento Reembolso en otras compras 78 94 73 79 87 91 78 83 81 87 69 78 89 90 83 69 85 88 77 81 90 83 73 Calculamos las medidas: n, , s y K=4 N = 23
Ejemplo 1 - Datos H0: = = = H1: Por lo menos una media es diferente Ventas (US$ miles) Muestras gratis Regalo de un paquete Descuento Reembolso en otras compras 78 94 73 79 87 91 78 83 81 87 69 78 89 90 83 69 85 88 77 81 90 83 73 = 5 6 5 7 Ventas (US$ miles) Muestras gratis Regalo de un paquete Descuento Reembolso en otras compras 78 94 73 79 87 91 78 83 81 87 69 78 89 90 83 69 85 88 77 81 90 83 73 5 6 5 7
Ejemplo 1 - Medias H0: = = = H1: Por lo menos una media es diferente Ventas (US$ miles) Muestras gratis Regalo de un paquete Descuento Reembolso por correo 78 94 73 79 87 91 78 83 81 87 69 78 89 90 83 69 85 88 77 81 90 83 73 = 5 6 5 7 = 84 90 76 78 Ventas (US$ miles) Muestras gratis Regalo de un paquete Descuento Reembolso por correo 78 94 73 79 87 91 78 83 81 87 69 78 89 90 83 69 85 88 77 81 90 83 73 5 6 5 7 84 90 76 78
Ejemplo 1 – Desviaciones Estándar H0: = = = H1: Por lo menos una media es diferente Ventas (US$ miles) Muestras gratis Regalo de un paquete Descuento Reembolso por correo 78 94 73 79 87 91 78 83 81 87 69 78 89 90 83 69 85 88 77 81 90 83 73 = 5 6 5 7 = 84 90 76 78 = 4.4721 2.4495 5.2915 5.2599 Ventas (US$ miles) Muestras gratis Regalo de un paquete Descuento Reembolso por correo 78 94 73 79 87 91 78 83 81 87 69 78 89 90 83 69 85 88 77 81 90 83 73 5 6 5 7 84 90 76 78 4.4721 2.4495 5.2915 5.2599 = 82
Ejemplo 1 – Suma de cuadrados m. Calculamos las sumatorias de cuadrados: = 5 6 5 7 = 84 90 76 78 = 4.4721 2.4495 5.2915 5.2599 5 6 5 7 84 90 76 78 4.4721 2.4495 5.2915 5.2599 = 82 Origen de las variaciones SC gl CM F Por el Tratamiento 696 Por el Error
Ejemplo 1– Suma de cuadrados Error Calculamos las sumatorias de cuadrados: = 5 6 5 7 = 84 90 76 78 = 4.4721 2.4495 5.2915 5.2599 5 6 5 7 84 90 76 78 4.4721 2.4495 5.2915 5.2599 = 82 Origen de las variaciones SC gl CM F Por el Tratamiento 696 Por el Error 388
Origen de las variaciones SC gl CM F Por el Tratamiento 696 3 Por el Error 388 19 Ejemplo 1 Cuadrados Medios H0: = = = H1: Por lo menos una media es diferente K=4 N = 23
Ejemplo 1 – CM del Tratamiento H0: = = = H1: Por lo menos una media es diferente Origen de las variaciones SC gl CM F Por el Tratamiento 696 3 232 Por el Error 388 19 Total 22 ÷ ÷ = =
Ejemplo 1 – CM del Error H0: = = = H1: Por lo menos una media es diferente Origen de las variaciones SC gl CM F Por el Tratamiento 696 3 232 Por el Error 388 19 20.4211 Total 22 ÷ ÷ = =
Ejemplo 1 – Estadístico de Prueba H0: = = = H1: Por lo menos una media es diferente Origen de las variaciones SC gl CM F Por el Tratamiento 696 3 232 Por el Error 388 19 20.4211 Total 22 ÷ = 11.361
Ejemplo 1 – Valor Crítico H0: = = = H1: Por lo menos una media es diferente Origen de las variaciones SC gl CM F Por el Tratamiento 696 3 232 11.361 Por el Error 388 19 20.4211 Total 22 3.1274
Ejemplo 1 - Conclusión H0: = = = H1: Por lo menos una media es diferente Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Entre grupos Por el Tratamiento 696 3 232 11.361 Dentro de los grupos Por el Error 388 19 20.4211 Total 22 3.127 Rechazamos H0 como verdadera V F Existe evidencia muestral suficiente para afirmar que por lo menos una media es diferente
APLICACIÓN CON R Suponga que un estudio quiere comprobar si existe una diferencia significativa entre el % de bateos exitosos de los jugadores de béisbol dependiendo de la posición en la que juegan. En caso de que exista diferencia se quiere saber qué posiciones difieren del resto. La siguiente tabla contiene una muestra de jugadores seleccionados aleatoriamente. Se muestra en el cuadro parte de los datos, la data completa se encuentra en el archivo compartido.
APLICACIÓN CON R 1. Estudio de los datos: Número de grupos, observaciones por grupo y distribución de las observaciones Se identifica el número de grupos y cantidad de observaciones por grupo para determinar si es un modelo equilibrado. También se calculan la media y desviación típica de caga grupo.
APLICACIÓN CON R Dado que el número de observaciones por grupo no es constante, se trata de un modelo no equilibrado. Es importante tenerlo en cuenta cuando se comprueben las condiciones de normalidad y homocedasticidad. La representación gráfica mas útil antes de realizar un ANOVA es el modelo Box- Plot .
APLICACIÓN CON R Este tipo de representación permite identificar de forma preliminar si existen asimetrías, datos atípicos o diferencia de varianzas. En este caso, los 4 grupos parecen seguir una distribución simétrica. En el nivel IF se detectan algunos valores extremos que habrá que estudiar con detalle por si fuese necesario eliminarlos. El tamaño de las cajas es similar para todos los niveles por lo que no hay indicios de falta de homocedasticidad.
APLICACIÓN CON R 2. Verificar condiciones para un ANOVA Homocedasticidad Test de Bartlett bartlett.test (y ~ x) Independencia Normalidad Test de Kolgomorov Smirnof Lilliefors library( nortest ) lillie.test ( datos )
APLICACIÓN CON R 3. Análisis de varianza ANOVA
APLICACIÓN CON R
APLICACIÓN CON R 4. Comparaciones múltiples
APLICACIÓN CON R Como era de esperar no se encuentra diferencia significativa entre ningún par de medias.
APLICACIÓN CON R 5. Conclusión En el estudio realizado se ha observado un tamaño de efecto pequeño y las técnicas de inferencia ANOVA no han encontrado significancia estadística para rechazar que las medias son iguales entre todos los grupos.
EJEMPLO 2 Pseudomonas fragi Se realizó un estudio para investigar el efecto del CO 2 sobre la tasa de crecimiento de Pseudomonas fragi (un corruptor de alimentos). Se cree que el crecimiento se ve afectado por la cantidad de CO 2 en el aire. Para contrastarlo, en un experimento se administró CO 2 a 5 presiones atmosféricas diferentes a 10 cultivos diferentes por cada nivel, y se anotó el cambio (en %) de la masa celular al cabo de una hora: Realiza el análisis de varianza para determinar si el crecimiento se ve afectado por la cantidad de CO 2 .
El análisis de varianza de dos vías, también conocido como plan factorial con dos factores, sirve para estudiar la relación entre una variable dependiente cuantitativa y dos variables independientes cualitativas (factores) cada uno con varios niveles. El ANOVA de dos vías permite estudiar cómo influyen por si solos cada uno de los factores sobre la variable dependiente (modelo aditivo) así como la influencia de las combinaciones que se pueden dar entre ellas (modelo con interacción).
Supóngase que se quiere estudiar el efecto de un fármaco sobre la presión sanguínea (variable cuantitativa dependiente) dependiendo del sexo del paciente (niveles: hombre, mujer) y de la edad (niveles: niño, adulto, anciano). El efecto simple de los factores consiste en estudiar cómo varía el efecto del fármaco dependiendo del sexo sin diferenciar por edades, así como estudiar cómo varía el efecto del fármaco dependiendo de la edad sin tener en cuenta el sexo. El efecto de la interacción doble consiste en estudiar si la influencia de uno de los factores varía dependiendo de los niveles del otro factor. Es decir, si la influencia del factor sexo sobre la actividad del fármaco es distinta según la edad del paciente o lo que es lo mismo, si la actividad del fármaco para una determinada edad es distinta según si se es hombre o mujer. EJEMPLO
• Para cada celda, los valores muestrales provienen de una población con una distribución que es aproximadamente normal. • Las poblaciones tienen la misma varianza (o desviación estándar σ). • Las muestras son aleatorias simples. • Las muestras son independientes entre sí. • Los valores muestrales se categorizan en dos factores. • Todas las celdas tienen el mismo número de valores muestrales. Dos factores o vías (requisitos)
ANOVA de 2 factores Análisis de la varianza (ANOVA) ANOVA de dos vía o factores (Two-ways) ANOVA de una vía o factor ( one-way ) Modelo aditivo (sin interacción) Modelo con interacción FACTOR 1 A B C FACTOR 2 E 3.2 2.3 3.4 F 4.2 2.7 3.9 G 4.1 4.1 4.0 H 3.9 3.8 2.3 I 3.7 3.6 3.5
Diseño del modelo ANOVA de dos factores sin interacción
Diseño del modelo ANOVA de dos factores sin interacción
Diseño por bloques Interesa saber si la variable Y tiene la misma media para los distintos niveles del factor A. Los valores pueden depender de los niveles de un segundo factor B. El factor A tiene I niveles; el factor B, J niveles. Para cada nivel de A se realizan J mediciones de Y y una medición en cada nivel de B (en total de I × J mediciones). EJEMPLOS Eficiencia de varios modelos de un tipo de máquina. Se controla la influencia del medio ambiente. Factores: modelo de la máquina, condiciones ambientales. Análisis de muestras. Factores: muestra, analista. Eficacia de distintos tratamientos (dosis) con un determinado medicamento. Factores: tratamiento, edad del paciente. Tiempo de permanencia en sangre del principio activo de un medicamento. Factores: preparación, individuo. ANOVA de dos factores sin interacción
Entre Muestras o Tratamientos Entre columnas SCTR = K-1 CMTR= Dentro de los grupos Por el Error SCE =SCT-(SCBL+SCTR) (L-1)(K-1) CME= Total SCT= N-1 Entre Muestras o Tratamientos Entre columnas K-1 Dentro de los grupos Por el Error SCE =SCT-(SCBL+SCTR) (L-1)(K-1) Total N-1 Este caso también se denomina sin repetición o de diseño aleatorio Origen de las variaciones Suma de cuadrados gl Promedio de los cuadrados F Entre Bloques Entre filas SCBL= L-1 CMBL= Entre Bloques Entre filas L-1 ANOVA de dos factores sin interacción
Ejemplo En una empresa se prueban tres sistemas nuevos de contabilidad. Se prueba el sistema, pero se desea aislar el efecto de la experiencia de uso en este tipo de aplicaciones. Sistemas Nivel de experiencia A B C 1 27 21 25 2 31 33 35 3 42 39 39 4 38 41 37 5 45 46 45
Planteamiento de Hipótesis Filas o Bloques Ho: μ 1 = μ 2 = μ 3 = μ 4 = μ 5 (No hay diferencia entre niveles de experiencia) H1: Por lo menos un nivel de experiencia produce efectos diferentes. Columnas o Tratamientos. Ho: μ A = μ B = μ C (No hay diferencia entre tipos de sistemas) H1: Por lo menos un sistema es diferente.
Datos Este caso también se denomina sin repetición o con una sola muestra por fila. Sistemas (tratamientos) Nivel de experiencia (filas) 1 2 3 1 27 21 25 2 31 33 35 3 42 39 39 4 38 41 37 5 45 46 45
Datos Sistemas (tratamientos) Nivel de experiencia (filas) 1 2 3 1 27 21 25 2 31 33 35 3 42 39 39 4 38 41 37 5 45 46 45 36.267 N = 15 Número de Filas L = 5 Número de Columnas o Tratamiento k = 3
Sistemas (tratamientos) Nivel de experiencia (filas) 1 2 3 n i s i 1 27 21 25 3 24.333 3.055 2 31 33 35 3 33 2. 3 42 39 39 3 40 1.732 4 38 41 37 3 38.667 2.082 5 45 46 45 3 45.333 0.577 n j 5 5 5 36.6 36 36.2 s j 7.503 9.592 7.294 Sistemas (tratamientos) Nivel de experiencia (filas) 1 2 3 n i s i 1 27 21 25 3 24.333 3.055 2 31 33 35 3 33 2. 3 42 39 39 3 40 1.732 4 38 41 37 3 38.667 2.082 5 45 46 45 3 45.333 0.577 n j 5 5 5 36.6 36 36.2 s j 7.503 9.592 7.294 Número de Filas L = 5 Número de Columnas o Tratamiento k = 3 36.267 N = 15 Datos
Tabla ANOVA 2 factores Origen de las variaciones SC gl CM F Entre Bloques Entre filas SCB =764.944 L-1 CMBL= Entre Muestras o Tratamientos Entre columnas SCTR =0.933 K-1 CMTR= Por el Error SCE =SCT-(SCBL+SCTR) L*K CME= Total 806.933 N-1 Origen de las variaciones SC gl CM F Entre Bloques Entre filas SCB =764.944 L-1 Entre Muestras o Tratamientos Entre columnas SCTR =0.933 K-1 Por el Error SCE =SCT-(SCBL+SCTR) L*K Total 806.933 N-1
= = = Tabla ANOVA 2 factores
Origen de variaciones SC gl CM F F crit Entre Bloques Entre filas SCB =764.933 4 191.233 37.253 3.8379 Tratamientos Entre columnas SCTR = 0.933 2 0.467 0.0909 4.4590 Dentro de los grupos Por el Error SCE = 41.067 8 5.133 Total SCT=806.933 14 3.8379 4.4590 = 4 = 8 α = 0.05 = 2 = 8 α = 0.05 Reglas de decisión
Conclusiones Origen de variaciones SC gl CM F F crit Entre Bloques Entre filas SCB =764.933 4 191.233 37.253 3.8379 Tratamientos Entre columnas SCTR = 0.933 2 0.467 0.0909 4.4590 Dentro de los grupos Por el Error SCE = 41.067 8 5.133 Total SCT=806.933 14 3.8379 Rechazamos Ho 4.4590 = 4 = 8 α = 0.05 = 2 = 8 α = 0.05 No rechazamos Ho
Pruebas Post Hoc Solo en el caso de las Filas o Bloques se ha probado diferencias y se puede afirmar que el nivel de experiencia si incide en la calificación . Debe realizarse pruebas en pares de Bonferroni para determinar cual o cuales de las medias son diferentes
ANOVA de dos factores Análisis de la varianza (ANOVA) ANOVA de dos vía o factores (Two-ways) ANOVA de una vía o factor ( one-way ) Modelo aditivo (sin interacción) Modelo con interacción FACTOR 1 A B C FACTOR 2 E 3.2 3.4 2.3 2.6 3.4 3.6 F 4.2 3.9 2.7 3.4 3.9 2.9 G 4.1 4.0 4.1 3.8 4.0 4,3 H 3.9 3.6 3.8 4.6 2.3 2.6 I 3.7 3.2 3.6 4.2 3.5 3.7
Diseño del modelo ANOVA de dos factores con interacción
Diseño del modelo ANOVA de dos factores con interacción
Diseño del modelo ANOVA de dos factores con interacción
Diseño del modelo ANOVA de dos factores con interacción
Diseño del modelo ANOVA de dos factores con interacción
Origen de las variaciones SC gl CM F Filas Entre filas SCFil L-1 CMBL= Columnas Entre columnas SCCol K-1 CMTR= Iteracción SCI (L-1)(K-1) CMI= Error Por el Error SCE gl = glt -( Σ gl ) CME= Total SCT N-1 Origen de las variaciones SC gl CM F Filas Entre filas SCFil L-1 Columnas Entre columnas SCCol K-1 Iteracción SCI (L-1)(K-1) Error Por el Error SCE gl = glt -( Σ gl ) Total SCT N-1 Diseño del modelo ANOVA de dos factores con interacción
Ejemplo Se quiere probar dos nuevos fármacos somníferos. Se mide el tiempo de respuesta y se obtiene: Fármaco A Fármaco B Placebo C Mujer 34 27 25 33 30 19 28 29 26 41 29 30 43 32 28 Hombre 32 31 21 35 32 28 36 29 17 34 26 30 38 29 26 ¿Hay diferencia entre los tiempos de respuesta entre los fármacos A, B y un grupo placebo? El sexo de los pacientes influye de alguna manera
Planteamiento de Hipótesis FACTOR A Ho: μ mujer = μ hombre H1: Por lo menos una media es diferente. FACTOR B Ho: μ A = μ B = μ C H1: Por lo menos una media es diferente. INTERACCIÓN AB Ho: No existe interacción entre sexo y fármaco H1: Existe interacción entre sexo y fármaco
El resultado de la tabla ANOVA es: Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F Muestra 3.333 1 3.333 0.206 0.654 4.260 Columnas 545.067 2 272.533 16.875 2.654E-05 3.403 Interacción 1.8667 2 0.933 0.058 0.944 3.403 Dentro del grupo 387.6 24 16.15 Total 937.867 29
El resultado de la tabla ANOVA es: Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F Muestra 3.333 1 3.333 0.206 0.654 4.260 Columnas 545.067 2 272.533 16.875 2.654E-05 3.403 Interacción 1.8667 2 0.933 0.058 0.944 3.403 Dentro del grupo 387.6 24 16.15 Total 937.867 29 En el caso de la comparación de acuerdo al sexo; Valor P = 0.654 > α = 0.05. No se rechaza Ho, por lo que se puede aceptar que no existe influencia alguna del sexo. Ho: μ mujer = μ hombre H1: Por lo menos una media es diferente.
El resultado de la tabla ANOVA es: Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F Muestra 3.333 1 3.333 0.206 0.654 4.260 Columnas 545.067 2 272.533 16.875 2.654E-05 3.403 Interacción 1.8667 2 0.933 0.058 0.944 3.403 Dentro del grupo 387.6 24 16.15 Total 937.867 29 En el caso de Tipo de fármaco; Valor P = 0.00002654 < α = 0.05. Se rechaza Ho, por lo menos una media es diferente, se concluye que el tipo de fármaco genera efecto sobre el tiempo. Ho: μ A = μ B = μ C H1: Por lo menos una media es diferente.
El resultado de la tabla ANOVA es: Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F Muestra 3.333 1 3.333 0.206 0.654 4.260 Columnas 545.067 2 272.533 16.875 2.654E-05 3.403 Interacción 1.8667 2 0.933 0.058 0.944 3.403 Dentro del grupo 387.6 24 16.15 Total 937.867 29 En el caso de la interacción Tipo de fármaco-sexo: Valor P = 0.944 > α = 0.05. No se rechaza Ho, no existe diferencias ocasionadas por la interacción. Ho: No existe interacción entre sexo y fármaco H1: Existe interacción
APLICACIÓN CON R Supóngase un estudio clínico que analiza la eficacia de un medicamento teniendo en cuenta dos factores, el sexo (masculino y femenino) y la juventud (joven, adulto). Se quiere analizar si el efecto es diferente entre alguno de los niveles de cada variable por si sola o en combinación. Este estudio implica comprobar si el efecto medio del fármaco es significativamente distinto entre alguno de los siguientes grupos: hombres, mujeres, jóvenes, adultos, hombres jóvenes, hombres adultos, mujeres jóvenes y mujeres adultas. En R se puede realizar este tipo de ANOVA con las funciones: • Modelo aditivo: aov ( variable_respuesta ~ factor1 + factor2, data) • Modelo con interacción: aov ( variable_respuesta ~ factor1 x factor2, data)
APLICACIÓN CON R Generamos la data en el script dado que no se cuenta con un archivo adicional. Visualizamos las seis primeras filas del dataframe datos.
APLICACIÓN CON R Luego generaremos los diagramas “Box- plot ” para identificar posibles diferencias significativas, asimetrías, valores atípicos y homogeneidad de varianza entre los distintos niveles. Se acompaña a los gráficos de la media y varianza de cada grupo ; previo llamado a la librería ggplot2.
APLICACIÓN CON R Para visualizar p1 y p2 en una sola línea. También visualizaremos p3.
APLICACIÓN CON R También calcularemos la media y desviación estándar para cada nivel de los factores. De la misma manera calcularemos la media y desviación estándar de la interacción. A partir de la representación gráfica y el cálculo de las medias se puede intuir que existe una diferencia en el efecto del fármaco dependiendo de la edad y también del sexo. El efecto parece ser mayor en mujeres que en hombres y en adultos que en jóvenes, si bien la significancia se tendrá que confirmar con el ANOVA. La distribución de las observaciones de cada nivel parece simétrica con la presencia de un único valor atípico. A priori parece que se satisfacen las condiciones necesarias para un ANOVA, aunque habrá que confirmarlas estudiando los residuos.
APLICACIÓN CON R Es posible identificar posibles interacciones de los dos factores de forma gráfica mediante lo que se conocen como “gráficos de interacción”. Si las líneas que describen los datos para cada uno de los niveles son paralelas significa que el comportamiento es similar independientemente del nivel del factor, es decir, no hay interacción. Podemos utilizar el código base de R En la sgte ppt usaremos la librería ggplot2.
APLICACIÓN CON R Se observa una clara interacción entre ambos factores. La respuesta al fármaco es distinta entre adultos y jóvenes, y de tendencia inversa dependiendo del sexo. En mujeres, la respuesta es mayor cuando son jóvenes que cuando son adultas y en hombres mayor cuando son adultos y menor cuando son jóvenes. El ANOVA permitirá saber si las diferencias observadas son significativas.
APLICACIÓN CON R El ANOVA permitirá saber si las diferencias observadas son significativas. Es importante también analizar el tamaño del efecto, para ello utilizaremos la librería effectisize . El análisis de varianza no encuentra diferencias significativas en el efecto del fármaco entre hombres y mujeres (factor sex) pero sí encuentra diferencias significativas entre jóvenes y adultos y entre al menos dos grupos de las combinaciones de sexo y edad, es decir, hay significancia para la interacción. El tamaño del efecto η2 es grande tanto para edad como para la interacción de edad y sexo. Importante: El orden en el que se multiplican los factores no afecta únicamente si el tamaño de los grupos es igual, de lo contrario sí afecta.
APLICACIÓN CON R Para poder dar por válidos los resultados del ANOVA es necesario verificar que se satisfacen las condiciones de un ANOVA. Los residuos muestran la misma varianza para los distintos niveles (homocedasticidad) y se distribuyen de forma normal. La observación número 15 tiene un residuo atípicamente grande. Sería conveniente repetir el ANOVA sin esta observación para comprobar el impacto.