Qué es el análisis
de regresión lineal
?
Es modelar la dependencia de la variable Y
de la variable X a través de una recta
•Caso I
Ungerentedeventasreúnelosdatossiguientes
relacionadosconlasventasanualesenmilesdesoles
80,97,92,102,103,111,119,123,117,136ylosañosde
experienciadediezvendedores1,3,4,4,6,8,10,10,11,13
Estimelasventasanualesparaunvendedorcon7añosde
experiencia.
.
Variable
Independiente
(X)
(determinística, es decir
no aleatoria.)
Tipos de Variables
Variable
Dependiente
(Y)
aleatoria
Para nuestro caso
X: Años de experiencia
Y: Ventas anuales en miles de soles
•1.Obtenciòn de los datos muestrales
Para nuestro caso
losdatossiguientesrelacionadosconlas
ventasanualesenmilesdesoles
80,97,92,102,103,111,119,123,117,136 y
losañosdeexperienciadediezvendedores
1,3,4,4,6,8,10,10,11,13
•Para nuestro caso:
•Se puede observar una relación lineal directa.
Cálculo de la recta de regresión
αy b parámetros ; εerror aleatorio.
αy b son estimados a partir de la muestra
obteniendo la recta
Interpretación de la pendiente:
Cuánto cambia la variable dependiente Y, por cada unidad que varíe la
variable independiente X.
Estimación de los parámetros: Método de los mínimos cuadrados.
La recta de regresión hace mínimos los cuadrados de las distancias verticales
desde cada punto de una observación a la recta.
Yies un valor observado real de la variable Y
es un valor de la recta predicho por la ecuacióni
Y
ˆ min)Y(Y
2
ii
min es el número más pequeño que se puede
obtener si se suman estas desviaciones
verticales elevadas al cuadrado entre los
puntos y la recta.iiYY
•El método de mínimos cuadrados sirve para determinar
la recta que mejor se ajuste a los datos muestrales, y los
supuestos de este método son:
•Elerrorescero.
• Losdatosobtenidosdelasmuestrason
estadísticamenteindependientes.
•Lavarianzadelerroresigualparatodoslosvalores
deX.
•Una línea de regresión calculada a partir de los datos
muestrales, por el método de mínimos cuadrados se
llama línea de regresión estimada o línea de
regresión muestral.
•Dicha línea recta es la que mejor se ajusta
al conjunto de datos (X, Y) y es aquella en
que la distancia que hay entre los datos y
la supuesta recta es la menor posible, y se
calcula mediante la siguiente formula:
Mide la variabilidad o dispersión de los valores observados alrededor
de la línea de regresión.
Si se trabaja con una recta, se puede calcular el error mediante
Mientras más grande sea el error estándar de la estimación, mayor será la
dispersión de los puntos alrededor de la línea de regresión
•8.
Qué es el análisis
de correlación
lineal?
Es una herramienta estadística que podemos
usar para describir el grado de relación
lineal entre las variables.
Pasos en el Análisis de Correlación
1.Determinar cuál es la variable dependiente. Y.
2.SeleccionarunamuestradetamañondeambasvariablesXeY,conlo
queseobtienennparesdeobservaciones
(x1,y1),(x2,y2)…(xn,yn).
3.Mostrar la relación en un diagrama de dispersión: Gráfico de X vs. Y.
Se aprecia de manera descriptiva el sentido y la intensidad de relación
entre las variables.
4.Calcular un coeficiente de correlación lineal ra partir de la muestra,
como aproximación de la verdadera relación lineal ρ(rho)entre las
variables.
2
2
2
2
yyn xxn
yxxyn
r 11r
Interpretación:
1.El valor absoluto de r indica la fuerza de la relación entre Y y X.
2.El signo la dirección de la relación (directa o inversamente proporcional)
(tener cuidado con relaciones espúreas)
r = 1 correlación positiva perfecta.
r = -1 correlación negativa perfecta.
r = 0 no hay relación lineal entre Y y X.
Cálculo del Coeficiente de Determinación
Mide el poder explicativo del modelo de regresión, es
decir, la parte de la variación de Y explicada por la
variación de X
El valor de r
2
ha de estar entre 0 y 1, por ejemplo
si r
2
= 0,70 significa que el 70% de la variación de
Y está explicada por las variaciones de X. Es
evidente que cuanto mayor sea r
2
, mayor poder
explicativo tendrá nuestro modelo.
•Para el caso I
CASO II
En una ciudad de Canadá, las personas al comprar casas se interesan por
el precio del costo de la calefacción. Se ha determinado que un grupo de
factores pueden estar relacionados con el costo ( en dólares):
•Temperatura exterior. (Grados Fahrenheit)
•Aislante térmico en el desván. (en pulgadas)
•Antigüedad del calefactor.
•Área de la sala principal del apartamento. (en metros cuadrados).
Un cliente le ha preguntado a un vendedor:
Si usted me brinda la información de las variables anteriores de un
apartamento, ¿cómo puedo saber yo aproximadamente cuanto pagaré en
calefacción?. ¿Cuan confiable será la información que usted me brinde?
Pasos en el Análisis de Correlación
1.Determinar cuál es la variable dependiente. Y: Costo.
2.SeleccionarunamuestradetamañondeambasvariablesXeY,conlo
queseobtienennparesdeobservaciones
(x1,y1),(x2,y2)…(xn,yn).
En nuestro ejemplo se tomo una muestra de 20 apartamentos. Se
midieron todas las variables independientes para cada uno de ellos.
3.Mostrar la relación en un diagrama de dispersión: Gráfico de X vs. Y.
Se aprecia de manera descriptiva el sentido y la intensidad de relación
entre las variables.
Se realizaran los 4 gráficos que corresponden a cada una de las variables
independientes consideradas.
Temperatura Exterior vs. Costo
0
50
100
150
200
250
300
350
400
450
0 10 20 30 40 50 60 70
Temp
Costo
r = -0.812 Relación
Inversa
fuerte
Aislante térmico vs. Costo.
0
50
100
150
200
250
300
350
400
450
0 2 4 6 8 10 12 14
Aislante
Costo
r = -0.257 Relación Inversa
débil
Antiguedad del calefactor vs. Costo
0
50
100
150
200
250
300
350
400
450
0 5 10 15 20
Antiguedad
Costo
r =0,512 Relación Directa
moderada
Tamaño sala vs. Costo
0
50
100
150
200
250
300
350
400
450
0 5 10 15 20 25
Tamaño
Costo
r = 0.991 Relación directa
fuerte
aunque se
aprecia una
tendencia no
lineal
Costo Temp AislanteAntigüedad
Costo
1.00
Temp
-.812 1.00
Aislante
-.257 -.103
1.00
Antigüedad
.537 -.486
.064
1.00
Tamaño .991 -.831 -.253 .482 1.000
Interpretación de las Correlaciones lineales e Identificación de las
Variables independientes con mayor correlación lineal.
Temperatura.
Una correlación de -0,812 indica alta correlación, inversamente proporcional:
A mayor Temperatura exterior, menor el costo en calefacción y viceversa.
Aislante.
La correlación de 0,257 es baja, así que no existe relación lineal entre las
variables.
Antigüedad.
Una correlación de 0,512; es moderada, directamente proporcional, a mayor
antigüedad del calefactor, mayor costo y viceversa.
Tamaño de la sala principal.
Una correlación de 0,991; es alta y directamente proporcional: A mayor tamaño
de la sala, mayor costo de la calefacción