analisis de regresion y correlacion de variables

AngelCastillo858247 119 views 16 slides Jan 07, 2024
Slide 1
Slide 1 of 16
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16

About This Presentation

analisis de correlacion y regresion de datos


Slide Content

ESTADÍSTICA Coeficiente de correlación lineal de Pearson (r) Coeficiente de Determinación (r 2 ) Regresión Regresión lineal simple Uso de calculadora Ing. Jhon Aguilar Castillo

CORRELACIÓN LINEAL SIMPLE DE PEARSON r ≈ 0 r ≈ -1 r ≈ 1 Mide la relación lineal entre variables cuantitativas . Su valor varía entre –1 y 1 , donde el signo indica la dirección (+ o -) de la correlación y el valor numérico la magnitud de la correlación.   Donde: Cov (X,Y): Covarianza Sx : Desviación estándar de X Sy : Desviación estándar de Y -1 ≤ r ≤ 1 donde Pearson investigó si existía relación entre la altura del hijo/a y la del padre, investigando más de 1000 casos y estableció una forma de predecir la altura del hijo/a en base a la del padre (regresión)

-1 ≤ r ≤ 1 COEFICIENTE DE DETERMINACIÓN Se denota por R o por r 2 e indica el porcentaje de variabilidad de una variable que es explicada por la otra. Indica el grado de linealidad entre dos variables. r 2 %

REGRESIÓN El objetivo de estudiar en forma conjunta 2 variables X e Y es encontrar alguna manera de predecir valores de una de ellas en base a los valores conocidos de la otra variable. Si en el gráfico se detecta que existe relación entre dos o más variables, el siguiente paso sería intentar modelizar dicha relación, siendo la más sencilla para expresar la variable dependiente a través de sus variables predictoras la ecuación lineal . El primer paso para determinar si puede existir o no dependencia/relación entre variables es representando gráficamente los pares (X,Y) de valores observados mediante una nube de puntos o diagrama de dispersión . X Y Las técnicas de regresión tienen por objeto: Modelar o encontrar una función que aproxime lo máximo posible la relación de dependencia estadística entre variables. Predecir los valores de una de ellas, ejemplo: Y(variable dependiente o explicada) a partir de los valores de otra u otras X que son variable(s) independiente(s) o explicativa(s). Cuantificar la relación de dependencia.

Consiste en determinar la ecuación Y = a + bX que mejor ajuste a los valores de la muestra. Donde: Y : Variable dependiente X : Variable independiente a y b: Parámetros o constantes (a: intercepto con la recta y b. pendiente) REGRESIÓN LINEAL SIMPLE La ecuación puede utilizarse para estimar valores de una variable en base a los valores conocidos de otra variable, intuir la relación causa-efecto entre dos variables y predecir valores futuros de una variable. “b” es el cambio promedio cuando X cambia una unidad. b > 0 la tendencia lineal es creciente b < 0 la tendencia lineal es decreciente b = 0 no hay regresión   La recta estimada será:

EJEMPLO 1: En una empresa de transportes trabajan 6 conductores, los años de antigüedad de sus permisos de conducir y las infracciones cometidas en el último año por cada uno son: Años 3 4 5 5 2 6 Infracciones 4 3 3 2 5 1 a. Graficar, calcular e interpretar el coeficiente de correlación. b. Estime la recta de regresión Solución: El gráfico muestra una relación inversa , es decir que X (años) aumenta y Y (infracciones) disminuye. X (años) Y (infracciones) EJEMPLOS

=18   = 25         Cálculo de sumatorias

Coeficiente de correlación r 2 = (- 0.96) 2 = 0,9216 y esto indica que el 92.16% de la variación en las infracciones cometidas en el último año, se debe a la variación en los años de antigüedad.     Interpretación: Existe una relación inversa muy fuerte entre los años de antigüedad de sus permisos de conducir y las infracciones cometidas en el último año. Coeficiente de determinación Utilizando la fórmula con Cov(X,Y):

Reemplazando se tiene la recta estimada:     Para un conductor que tiene su permiso de 1año de antigüedad se estima el número de infracciones: 5.923 ≈ 6 infracciones   Graficar la recta estimada sobre el diagrama de dispersión o puntos.   Recta de regresión  

SALIDA EN EXCEL Para el coeficiente de correlación de Pearson se tienen los siguientes procedimientos: Ingresar los datos, luego insertar la función = Pearson (sombrear datos de X, sombrear datos de Y), enter Otra forma es ingresar los datos, luego insertar la función =coef.de.correl(sombrear datos para X, sombrear datos para y), enter

Para la recta de regresión se ingresan los datos, luego ir a datos, análisis de datos, regresión, seleccionar datos de Y , seleccionar de X , aceptar El resultado es el siguiente: a b  

USO DE CALCULADORA PARA CORRELACIÓN Y REGRESIÓN LINEAL Presionar el botón para encendido (ON) y luego presionar MODE Seleccionar la opción 3 (REG, LR, RG, …) que corresponde a regresión Elegir: 1 Lin (lineal) Ingresar los datos de la forma: X 1 , Y 1 luego presionar la tecla M+ , Para obtener sumatorias, presionar SHIFT y luego presionar la tecla 1 Para ingresar otros datos se debe BORRAR los almacenados, teniéndose 2 opciones: SHIFT, MODE, 1, = (así se borran los datos pero permaneces en el modo elegido) MODE, luego 1 (así sales del modo y también se borran los datos almacenados) continuar con los demás datos de forma similar hasta (Xn, Yn) M+ Presionar AC para tener la pantalla limpia Para obtener promedios, desviación estándar, a, b y r se presiona SHIFT y luego la tecla 2 . Para ubicarlos desplazarse con la tecla I> Presionar el botón para encendido (ON) y luego presionar MODE Seleccionar la opción 2 o 3 (STAT, LR, RG, …) de la regresión y elegir la opción 2: 2: A + BX (lineal) En la columna para X ingresar el primer dato para X, darle = … para pasar a Y presionar I> al terminar poner AC Para obtener sumatorias y estadígrafos, presionar SHIFT y luego presionar la tecla 1 (STAT) La opción 3: Suma, la opción 4: Var (medias y desviaciones estándar), la opción 5:Reg (para obtener a, b, r, X e Y estimados) Las orden de las opciones puede variar por el modelo de la calculadora Para ingresar otros datos se debe BORRAR los almacenados, presionar MODE luego 1 (así sales del modo y también se borran los datos almacenados)

EJEMPLO 2: El IPC y el precio del barril de petróleo durante el segundo semestre de 2018 ¿Se puede asegurar que la evolución del IPC está directamente relacionada con el precio del petróleo? Estimar el precio del barril de petróleo para un IPC de 5.2 SOLUCIÓN IPC 2,4 2,2 2,2 2,7 3,6 4,1 Precio ($) 71,54 77,01 70,73 76,87 82,50 90,16 Coeficiente de correlación: r = 0.929 => Sí existe una correlación lineal positiva fuerte. Coeficiente de determinación: r 2 = 0,863 y esto indica que el 86.3% de la variación en el precio del petróleo está explicado por la variación en el IPC. Recta de regresión:     El precio estimado del barril de petróleo para un IPC de 5.2 es igual a: = 97.882    

Inversión (X) 9 10 12 14 12 13 14 18 16 23 66 27 24 21 18 15 23 38 37 24 41 Ganancia(Y) 16 24 30 30 63 65 57 74 65 95 52 78 83 72 78 45 74 62 57 56 98 EJEMPLO 3: La inversión (miles de S/.) y la ganancia (miles de S/.) de una empresa en los últimos meses son: Calcular e interpretar r Interpretación: Existe una relación positiva casi media entre la inversión y la ganancia. SOLUCIÓN El valor de r no es alto, por lo que no se recomienda estimar la recta de regresión.

Publicidad(X) 20 30 30 40 50 60 60 60 70 80 Ventas(Y) 50 73 69 87 108 128 135 132 148 170 EJEMPLO 4: La publicidad y las ventas (en miles de S/.) de una empresa en 10 semanas se da a continuación: Calcular e interpretar el coeficiente de correlación y el coeficiente de determinación. Estimar la recta de regresión SOLUCIÓN Se puede evidenciar que existe relación positiva casi perfecta porque los puntos forman una recta. Coeficiente de correlación Existe una relación positiva casi perfecta entre publicidad y ventas. Coeficiente de determinación = 99.6%   El 99.6% de la variación en las ventas está explicado por la publicidad, y el 0.4% por otras variables. Recta de regresión estimada      

GRACIAS POR SU ATENCIÓN