Correlación y Regresión lineal simple

AlbertoEstebanValdez 2,954 views 31 slides Sep 25, 2018
Slide 1
Slide 1 of 31
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31

About This Presentation

Correlación y Regresión lineal simple


Slide Content

UNIVERSIDAD NACIONAL HERMILIO VALDIZÁN ESCUELA PROFESIONAL DE MATEMÁTICA Y FÍSICA ODONTOLOGÍA BIOESTADÍSTICA Correlación y Regresión lineal simple Melecio Paragua Morales [email protected] [email protected] [email protected]

Correlación Es una relación mutua. El análisis de correlación mide el grado que los valores de una variable se relacionan con los valores de otra. ¿Tienden a tener mayor escolaridad las personas con altos ingresos , en comparación con las de bajos ingresos? ¿Entre mayor preparación se tenga tus habilidades de liderazgo serán mayores? Si en una población se estudia simultáneamente los valores de dos variables estadísticas, el conjunto de pares de valores correspondientes a cada individuo se denomina distribución bidimensional. Nube de puntos o diagrama de dispersión son puntos en el plano cartesiano de los pares de valores de las variables. Recta de regresión, son los puntos que se agrupan cerca de alguna curva. Si los punto se distribuyen alrededor de una recta, entonces hay correlación lineal y el gráfico se denomina Recta de regresión .

Fórmula del coeficiente de correlación (r)  

Interpretación El valor de r pertenece al intervalo [-1; 1] Su signo (+ ó – ), es igual al de la pendiente de una recta que podría “ajustarse” a los datos si éstos se graficaran en el llamado diagrama de dispersión. La magnitud de r indica qué tan cerca están de la “recta” los puntos de la nube en el plano cartesiano. Puede haber: Correlación lineal positiva débil o baja; Correlación nula; Correlación lineal positiva fuerte o alta; Correlación lineal negativa fuerte o alta, etc. Coeficiente de determinación , se obtiene elevando al cuadrado a r, y es la proporción o porcentaje de variación de la variable dependiente que se explica por la variación en la variable independiente.

Correlación Estudiantes Primera experiencia Segunda experiencia Tercera experiencia X Y X Y X Y María 18 82 18 18 18 18 Olga 15 68 15 32 15 82 Susana 12 60 12 60 12 68 Aldo 9 32 9 68 9 60 Juan 3 18 3 82 3 32

Análisis de las 3 experiencias X = Prueba de habilidad mental (Escala de medición: [00 - 20]) Y = Exámen de admisión (Escala de medición: [00 - 100]) Primera experiencia: Estudiantes hábiles obtienen puntajes altos en admisión, entonces hay relación lineal positiva. Segunda experiencia: Estudiantes hábiles obtienen puntajes bajos en admisión, entonces hay relación lineal negativa. Tercera experiencia: no existe una relación lineal entre las variables en estudio.

1ra . Experiencia: Lineal positiva; 2da . Experiencia: Lineal negativa; 3ra . Experiencia: no hay relación

Regresión lineal simple Estudia la asociación entre dos variables, en cada unidad estadística se observan dos características cuantitativas medibles. Ejemplo: salarios y gastos mensuales. Regresión: consiste en determinar la relación funcional lineal entre las variables, con el fin de predecir el valor de una variable en base a la otra. Correlación consiste en determinar la variación conjunta de las dos variables, su grado o nivel (r) [-1, +1], y su sentido (- o +). El cuadrado del coeficiente de correlación es el grado de dependencia, el mismo que se porcentualiza.

Datos y diagrama de dispersión Los n datos en parejas (x 1 ,y 1 ), (x 2 ,y 2 ), …, ( x n ,y n ) son valores de la variable bidimensional (X,Y), donde x i son valores de la variable independiente y los y i son valores de la variable dependiente Y. La gráfica en el plano cartesiano visualiza la tendencia y se denomina gráfica de dispersión (x, y) lineal (+); lineal (-), no lineal, sin tendencia. En la regresión lineal, se calcula la ecuación lineal de regresión simple: Y = a + bx que mejor se ajusta a los n datos en pareja (x i , y i ).

Ejemplo Obtener un modelo de regresión lineal para predecir las ventas semanales de un producto en función de la publicidad por la radio. Se recopila al azar, los tiempos de duración en minutos de la publicidad de 10 semanas y el respectivo número de unidades vendidas del producto. Grafica los datos y describa su tendencia. Obtenga la recta de regresión lineal simple de mínimos cuadrados. Calcula el coeficiente de correlación r. Predecir la venta de una semana con 100 min, y 60 min de publicidad. Semana 1 2 3 4 5 6 7 8 9 10 Pub X 20 30 30 40 50 60 60 60 70 80 Vta Y 50 73 69 87 108 128 135 132 148 140

Distribución de frecuencias Semana Pub X Vta Y X.Y X.X Y.Y 1 20 50 1000 400 2500 2 30 73 2190 900 5329 3 30 69 2070 900 4761 4 40 87 3480 1600 7569 5 50 108 5400 2500 11664 6 60 128 7680 3600 16384 7 60 135 8100 3600 18225 8 60 132 7920 3600 17424 9 70 148 10360 4900 21904 10 80 140 11200 6400 19600 SUMAS 500 1070 59400 28400 125360

a) Diagrama de dispersión y tendencia y = 20,2353 + 1,7353x

b) Cálculo de: Y = a + bX n = 10; Σ X = 500; Σ Y = 1070; Σ XY = 59400; Σ X 2 = 28400; Σ Y 2 = 125360 Media (x) = Σ X/n = 500/10 = 50 Media (y) = Σ Y/n = 1070/10 = 107 b = (n Σ XY – Σ X. Σ Y)/(n Σ X 2 – ( Σ X) 2 ) b = (10x59400-500x1070)/(10x28400 – (500) 2 ); entonces b = 1,7353 a = y – bx = 107 – 1,7353x50 = 20,2353 Entonces: Y = a + bX ; Luego Y = 20,2353 + 1,7353X

c) Coeficiente de correlación r xy Pub X Vta Y Pub X 1.0000 -.- Vta Y 0.9705 1.000

d) Predicción de venta con 100 min y 60 min de propaganda Si x i = 100 min; Además: Y = 20,235 + 1,7353X Entonces: Y = 20,235 + 1,7353(100) Luego Y = 193,765 Si x i = 60 min; Además: Y = 20,235 + 1,7353X Entonces: Y = 20,235 + 1,7353(60) Luego Y = 297,883

Ejemplo 2: Ventas y Publicidad VTA Y PUB X ESTADÍSTICAS DE LA REGRESIÓN 200 30 Coeficiente de correlación múltiple (r) 0.8675 400 50 Coeficiente de determinación (r 2 ) 0.7526 800 50 Intercepción (a) -716.6667 1200 60 PUB. X (b) 28.3333 900 60 n 5

Y = a + bx Y = 65,2214 + 28,3333X

Ejemplo 3:Edad e Hipertensión Arterial EDAD Y HTA X ESTADÍSTICAS DE LA REGRESIÓN 38 120 Coeficiente de correlación múltiple (r) 0.9689 42 124 Coeficiente de determinación (r 2 ) 0.9387 43 135 Intercepción 65.2214 46 138 Edad X 1.4869 48 135 n 10 50 140 54 143 60 150 Y = 65,2214 + 1,4869X 65 160 67 170

Y = a + bx Y = 65,2214 + 1,4869X

Datos: Coeficiente Intelectual y Rendimiento Académico CI RA CI RA CI RA CI RA CI RA 100 11 113 12 132 17 140 20 123 15 102 11 114 12 119 13 126 15 125 15 103 12 116 13 118 13 118 14 127 15 130 18 122 14 124 13 112 13 129 16 110 14 124 14 126 14 115 14 131 17 115 14 126 15 106 10 112 13 114 13 125 16 128 15 108 12 111 12 115 14 135 19 116 12 109 12 105 11 107 12 128 18 118 12 107 12 108 12 110 13 130 18 121 14 106 11 109 12 117 16

ESTADÍSTICAS DE LA REGRESIÓN Coeficiente de correlación múltiple (r) 0.8909 Coeficiente de determinación (r 2 ) 0.7937 r 2 ajustado 0,7894 Intercepción -11,1100 CI (x) 0,2122 n 50 y = a + bx y = -11,11 + 0,2122x

Gráfico de la ecuación: y = -11,11 + 0,2122x

Datos: N° de días y N° de trabajadores en una obra privada DIAS Y TRAB X Estadísticas de la regresión 60 2 Coeficiente de correlación múltiple (r) 0,9169 54 3 Coeficiente de determinación (r 2 ) 0,8407 48 4 r 2 ajustado 0,8247 44 5 Intercepción 52,6055 40 6 TRAB X -1,9602 38 7 n 12,00 32 8 28 9 y = a + bx 22 10 y = 52,6055 – 1,9602x 18 15 10 20 4 30

Gráfico de la ecuación: y = 52,6055 - 1,9202x

Estudiar la regresión lineal del índice de mortalidad frente al índice de fumadores, con los siguientes datos CC (X) IMCP (Y) CC (X) IMCP (Y) CC (X) IMCP (Y) 77 84 88 104 107 86 137 116 102 88 112 96 117 123 91 104 113 144 94 128 104 129 110 139 116 155 66 51 125 113 102 101 87 79 133 146 111 118 91 85 115 128 93 113 100 120 105 115 76 60

Consumo de cigarrillos (CC) y el índice de muertes por cáncer de pulmón (IMCP). Estudiar la regresión lineal del índice de mortalidad frente al índice de fumadores Estadísticas de la regresión Coeficiente correlación r 0.7162 Grado dependencia r 2 0.5130 r 2 ajustado 0,4918 Intercepción -2,8853 CC (Xi) 1,0875  n 25      Y = -2,8853 + 1,0875 X

Gráfico de la ecuación: Y = -2,8853 + 1,0875 X

A una muestra de eucaliptos se les mide su densidad (x) y su dureza (y). Estudiar el modelo de regresión lineal de Y respecto de X. Densidad X Dureza Y Densidad X Dureza Y Densidad X Dureza Y 24.7 484 39.9 989 45.8 1180 24.8 427 40.3 1160 46.9 1400 27.3 413 40.6 1010 48.2 1760 28.4 549 40.7 1100 51.5 1710 29 648 40.7 1130 51.5 2010 30.3 587 42.9 1270 53.4 1880 32.7 704 66.0 3260 56.0 1980 35.6 979  67.4  2700 56.5 1820 38.5 914  68.8  2890 57.3 2020 38.8 1070  69.1  2740 57.6 1980 39.3 1020  69.1  3140 59.2 2310 39.4 1210 59.8 1940

Estadísticas de la regresión Coeficiente de correlación r 0.9735 Grado dependencia r 2 0.9733  r 2 ajustado 0.9456  Densidad X 57, 6352 Densidad X 57, 6352 n 35 Y = -1167,7081 + 57,6352X

Gráfico de la ecuación: Y = -1167,7081 + 57,6352X

Problemas Con el tiempo, la cantidad de leche producida por una vaca decrece luego de que ésta da su cría. El granjero desea expresar esta relación por medio de una ecuación, para ello obtiene los siguientes datos: Litros por día: 12; 11; 8; 9; 8; 7 N° de días: 10; 30; 40; 50; 55; 60 Un fabricante de ropa desea determinar la relación entre el grosor de una fibra sintética y su resistencia a la tensión. El investigador toma mediciones de varias fibras de grosor conocido y obtiene los datos: GF (X): 40; 31; 34; 44; 49; 36; 41; 50; 39; 45 RT (Y): 83; 74; 72; 70; 75; 73; 70; 76; 79; 72 ¿Si el grosor de la fibra fuera 45, cuál sería el valor predecido de la resistencia a la tensión?