UNIVERSIDAD NACIONAL HERMILIO VALDIZÁN ESCUELA PROFESIONAL DE MATEMÁTICA Y FÍSICA ODONTOLOGÍA BIOESTADÍSTICA Correlación y Regresión lineal simple Melecio Paragua Morales [email protected][email protected][email protected]
Correlación Es una relación mutua. El análisis de correlación mide el grado que los valores de una variable se relacionan con los valores de otra. ¿Tienden a tener mayor escolaridad las personas con altos ingresos , en comparación con las de bajos ingresos? ¿Entre mayor preparación se tenga tus habilidades de liderazgo serán mayores? Si en una población se estudia simultáneamente los valores de dos variables estadísticas, el conjunto de pares de valores correspondientes a cada individuo se denomina distribución bidimensional. Nube de puntos o diagrama de dispersión son puntos en el plano cartesiano de los pares de valores de las variables. Recta de regresión, son los puntos que se agrupan cerca de alguna curva. Si los punto se distribuyen alrededor de una recta, entonces hay correlación lineal y el gráfico se denomina Recta de regresión .
Fórmula del coeficiente de correlación (r)
Interpretación El valor de r pertenece al intervalo [-1; 1] Su signo (+ ó – ), es igual al de la pendiente de una recta que podría “ajustarse” a los datos si éstos se graficaran en el llamado diagrama de dispersión. La magnitud de r indica qué tan cerca están de la “recta” los puntos de la nube en el plano cartesiano. Puede haber: Correlación lineal positiva débil o baja; Correlación nula; Correlación lineal positiva fuerte o alta; Correlación lineal negativa fuerte o alta, etc. Coeficiente de determinación , se obtiene elevando al cuadrado a r, y es la proporción o porcentaje de variación de la variable dependiente que se explica por la variación en la variable independiente.
Correlación Estudiantes Primera experiencia Segunda experiencia Tercera experiencia X Y X Y X Y María 18 82 18 18 18 18 Olga 15 68 15 32 15 82 Susana 12 60 12 60 12 68 Aldo 9 32 9 68 9 60 Juan 3 18 3 82 3 32
Análisis de las 3 experiencias X = Prueba de habilidad mental (Escala de medición: [00 - 20]) Y = Exámen de admisión (Escala de medición: [00 - 100]) Primera experiencia: Estudiantes hábiles obtienen puntajes altos en admisión, entonces hay relación lineal positiva. Segunda experiencia: Estudiantes hábiles obtienen puntajes bajos en admisión, entonces hay relación lineal negativa. Tercera experiencia: no existe una relación lineal entre las variables en estudio.
1ra . Experiencia: Lineal positiva; 2da . Experiencia: Lineal negativa; 3ra . Experiencia: no hay relación
Regresión lineal simple Estudia la asociación entre dos variables, en cada unidad estadística se observan dos características cuantitativas medibles. Ejemplo: salarios y gastos mensuales. Regresión: consiste en determinar la relación funcional lineal entre las variables, con el fin de predecir el valor de una variable en base a la otra. Correlación consiste en determinar la variación conjunta de las dos variables, su grado o nivel (r) [-1, +1], y su sentido (- o +). El cuadrado del coeficiente de correlación es el grado de dependencia, el mismo que se porcentualiza.
Datos y diagrama de dispersión Los n datos en parejas (x 1 ,y 1 ), (x 2 ,y 2 ), …, ( x n ,y n ) son valores de la variable bidimensional (X,Y), donde x i son valores de la variable independiente y los y i son valores de la variable dependiente Y. La gráfica en el plano cartesiano visualiza la tendencia y se denomina gráfica de dispersión (x, y) lineal (+); lineal (-), no lineal, sin tendencia. En la regresión lineal, se calcula la ecuación lineal de regresión simple: Y = a + bx que mejor se ajusta a los n datos en pareja (x i , y i ).
Ejemplo Obtener un modelo de regresión lineal para predecir las ventas semanales de un producto en función de la publicidad por la radio. Se recopila al azar, los tiempos de duración en minutos de la publicidad de 10 semanas y el respectivo número de unidades vendidas del producto. Grafica los datos y describa su tendencia. Obtenga la recta de regresión lineal simple de mínimos cuadrados. Calcula el coeficiente de correlación r. Predecir la venta de una semana con 100 min, y 60 min de publicidad. Semana 1 2 3 4 5 6 7 8 9 10 Pub X 20 30 30 40 50 60 60 60 70 80 Vta Y 50 73 69 87 108 128 135 132 148 140
a) Diagrama de dispersión y tendencia y = 20,2353 + 1,7353x
b) Cálculo de: Y = a + bX n = 10; Σ X = 500; Σ Y = 1070; Σ XY = 59400; Σ X 2 = 28400; Σ Y 2 = 125360 Media (x) = Σ X/n = 500/10 = 50 Media (y) = Σ Y/n = 1070/10 = 107 b = (n Σ XY – Σ X. Σ Y)/(n Σ X 2 – ( Σ X) 2 ) b = (10x59400-500x1070)/(10x28400 – (500) 2 ); entonces b = 1,7353 a = y – bx = 107 – 1,7353x50 = 20,2353 Entonces: Y = a + bX ; Luego Y = 20,2353 + 1,7353X
c) Coeficiente de correlación r xy Pub X Vta Y Pub X 1.0000 -.- Vta Y 0.9705 1.000
d) Predicción de venta con 100 min y 60 min de propaganda Si x i = 100 min; Además: Y = 20,235 + 1,7353X Entonces: Y = 20,235 + 1,7353(100) Luego Y = 193,765 Si x i = 60 min; Además: Y = 20,235 + 1,7353X Entonces: Y = 20,235 + 1,7353(60) Luego Y = 297,883
Ejemplo 2: Ventas y Publicidad VTA Y PUB X ESTADÍSTICAS DE LA REGRESIÓN 200 30 Coeficiente de correlación múltiple (r) 0.8675 400 50 Coeficiente de determinación (r 2 ) 0.7526 800 50 Intercepción (a) -716.6667 1200 60 PUB. X (b) 28.3333 900 60 n 5
Y = a + bx Y = 65,2214 + 28,3333X
Ejemplo 3:Edad e Hipertensión Arterial EDAD Y HTA X ESTADÍSTICAS DE LA REGRESIÓN 38 120 Coeficiente de correlación múltiple (r) 0.9689 42 124 Coeficiente de determinación (r 2 ) 0.9387 43 135 Intercepción 65.2214 46 138 Edad X 1.4869 48 135 n 10 50 140 54 143 60 150 Y = 65,2214 + 1,4869X 65 160 67 170
ESTADÍSTICAS DE LA REGRESIÓN Coeficiente de correlación múltiple (r) 0.8909 Coeficiente de determinación (r 2 ) 0.7937 r 2 ajustado 0,7894 Intercepción -11,1100 CI (x) 0,2122 n 50 y = a + bx y = -11,11 + 0,2122x
Gráfico de la ecuación: y = -11,11 + 0,2122x
Datos: N° de días y N° de trabajadores en una obra privada DIAS Y TRAB X Estadísticas de la regresión 60 2 Coeficiente de correlación múltiple (r) 0,9169 54 3 Coeficiente de determinación (r 2 ) 0,8407 48 4 r 2 ajustado 0,8247 44 5 Intercepción 52,6055 40 6 TRAB X -1,9602 38 7 n 12,00 32 8 28 9 y = a + bx 22 10 y = 52,6055 – 1,9602x 18 15 10 20 4 30
Gráfico de la ecuación: y = 52,6055 - 1,9202x
Estudiar la regresión lineal del índice de mortalidad frente al índice de fumadores, con los siguientes datos CC (X) IMCP (Y) CC (X) IMCP (Y) CC (X) IMCP (Y) 77 84 88 104 107 86 137 116 102 88 112 96 117 123 91 104 113 144 94 128 104 129 110 139 116 155 66 51 125 113 102 101 87 79 133 146 111 118 91 85 115 128 93 113 100 120 105 115 76 60
Consumo de cigarrillos (CC) y el índice de muertes por cáncer de pulmón (IMCP). Estudiar la regresión lineal del índice de mortalidad frente al índice de fumadores Estadísticas de la regresión Coeficiente correlación r 0.7162 Grado dependencia r 2 0.5130 r 2 ajustado 0,4918 Intercepción -2,8853 CC (Xi) 1,0875 n 25 Y = -2,8853 + 1,0875 X
Gráfico de la ecuación: Y = -2,8853 + 1,0875 X
A una muestra de eucaliptos se les mide su densidad (x) y su dureza (y). Estudiar el modelo de regresión lineal de Y respecto de X. Densidad X Dureza Y Densidad X Dureza Y Densidad X Dureza Y 24.7 484 39.9 989 45.8 1180 24.8 427 40.3 1160 46.9 1400 27.3 413 40.6 1010 48.2 1760 28.4 549 40.7 1100 51.5 1710 29 648 40.7 1130 51.5 2010 30.3 587 42.9 1270 53.4 1880 32.7 704 66.0 3260 56.0 1980 35.6 979 67.4 2700 56.5 1820 38.5 914 68.8 2890 57.3 2020 38.8 1070 69.1 2740 57.6 1980 39.3 1020 69.1 3140 59.2 2310 39.4 1210 59.8 1940
Estadísticas de la regresión Coeficiente de correlación r 0.9735 Grado dependencia r 2 0.9733 r 2 ajustado 0.9456 Densidad X 57, 6352 Densidad X 57, 6352 n 35 Y = -1167,7081 + 57,6352X
Gráfico de la ecuación: Y = -1167,7081 + 57,6352X
Problemas Con el tiempo, la cantidad de leche producida por una vaca decrece luego de que ésta da su cría. El granjero desea expresar esta relación por medio de una ecuación, para ello obtiene los siguientes datos: Litros por día: 12; 11; 8; 9; 8; 7 N° de días: 10; 30; 40; 50; 55; 60 Un fabricante de ropa desea determinar la relación entre el grosor de una fibra sintética y su resistencia a la tensión. El investigador toma mediciones de varias fibras de grosor conocido y obtiene los datos: GF (X): 40; 31; 34; 44; 49; 36; 41; 50; 39; 45 RT (Y): 83; 74; 72; 70; 75; 73; 70; 76; 79; 72 ¿Si el grosor de la fibra fuera 45, cuál sería el valor predecido de la resistencia a la tensión?