CLASE 2 - REGRESIÓN LINEAL - FUNDAMENTOS

fabioandrespintov 11 views 51 slides Sep 02, 2025
Slide 1
Slide 1 of 51
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49
Slide 50
50
Slide 51
51

About This Presentation

Clase de regresion lineal


Slide Content

Idea de la Regresión Lineal Simple

Tipos de Variables

Tipos de Variables Variables Categóricas Numéricas Ordinales Nominales Discretas Continuas Hombre, Mujer Rojo, V erde, Az u l Pequeño, Mediano, Grande A, B, C (notas) 1, 2, 3 empleados 568 personas Edad Alt u ra

Regresiones

Regresiones En estadística, se llama análisis de la regresión al proceso estadístico de estimar las relaciones que existen entre variables. … Se centra en estudiar las relaciones entre una variable dependiente de una o más variables independientes. -Wikipedia

Regresiones Lineal Regresión Lineal Simple Regresión Lineal Múltiple Logística Regresión Logística Simple Regresión Logística Múltiple

Regresiones Regresión Lineal Simple Regresión Lineal Múltiple y = b + b 1 *x 1 y = b + b 1 *x 1 + b 2 *x 2 + … + b n *x n Variable Dependiente (VD) Variable Independiente (VI) Coeficiente Constante Constante Coeficientes Variables Independientes (VIs) Variable Dependiente (VD)

Regresiones Regresión Lineal Simple Sueldo ($) Experiencia y = b + b 1 *x Sueldo = b + b 1 *Experiencia +1yr +10k 30k

Mét od o d e lo s M íni m o s Cuadrados

Método de los Mínimos Cuadrados Regresión Lineal Simple Sueldo ($) Experiencia y i y î

R Cuadrado

R Cuadrado Regresión Lineal Simple: Sueldo ($) y i y î Experiencia

R Cuadrado Regresión Lineal Simple: Sueldo ($) y i y î Experiencia

R Cuadrado Regresión Lineal Simple: Sueldo ($) SS re s = SS tot = R 2 = 1 - SS res SS tot Experiencia

R 2 Adjustado

R 2 Adjustado Regresión Lineal Simple: Sueldo ($) R 2 = 1 - SS res SS tot SS re s = SS tot = Experiencia

R 2 Adjustado Regresión Lineal Simple: Sueldo ($) y avg R 2 = 1 - SS res SS tot Experiencia

R 2 Adjustado R 2 = 1 - SS res SS t o t SS res -> Min y = b + b 1 *x 1 + b 2 *x 2 y = b + b 1 *x 1 R 2 – Bondad de Ajuste (cuanto más grande mejor) + b 3 *x 3 R 2 nunca va a decrecer! Problema :

R 2 Adjustado R 2 = 1 - SS res SS t o t Adj R 2 = 1 – (1 – R 2 ) n – 1 n – p – 1 p - número de variables regresoras n – tamaño de la muestra

Una Advertencia

Una Advertencia Restricciones de la Regresión Lineal 1.Linealidad 2.Homocedasticidad 3.Normalidad multivariable 4.Independencia de los errores 5.Ausencia de multicolinealidad

Variables Dummy

Variables Dummy Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California

y = Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California Variables Dummy

y = b Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California Variables Dummy

Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California y = b + b 1 *x 1 Variables Dummy

Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California y = b + b 1 *x 1 + b 2 *x 2 Variables Dummy

Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 Variables Dummy

Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + ??? Variables Dummy

New York California Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California Variables Dummy y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + ???

Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + ??? New York California Variables Dummy

Profit R&D Spend Admin Marketing State New York California 192,261.83 165,349.20 136,897.80 471,784.10 New York 1 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 1 166,187.94 142,107.34 91,391.77 366,168.42 California Variables Dummy y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + ???

Profit R&D Spend Admin Marketing State New York California 192,261.83 165,349.20 136,897.80 471,784.10 New York 1 191,792.06 162,597.70 151,377.59 443,898.53 California 1 191,050.39 153,441.51 101,145.55 407,934.54 California 1 182,901.99 144,372.41 118,671.85 383,199.62 New York 1 166,187.94 142,107.34 91,391.77 366,168.42 California 1 Variables Dummy y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + ???

Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California New York California 1 1 1 1 1 Variables Dummy Variables Dummy y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + ???

Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California New York California 1 1 1 1 1 Variables Dummy Variables Dummy y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + b 4 *D 1

Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California New York California 1 1 1 1 1 Variables Dummy Variables Dummy y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + b 4 *D 1

La trampa de las Variables Dummies

Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California New York California 1 1 1 1 1 La Trampa de las Variables Dummies y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + b 4 *D 1 Variables Dummy

New York California 1 1 1 1 1 151,377.59 443,898.53 Califor 101,145.55 407,934.54 Califor 1 18 , 671 . 85 383,199.62 New Y 91,391.77 366,168.42 Califor Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 nia 191,050.39 153,441.51 D 2 = 1 - D 1 nia 182,901.99 144,372.41 ork 166,187.94 142,107.34 nia La Trampa de las Variables Dummies y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + b 4 *D 1 + b 5 *D 2 Variables Dummy

Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California New York California 1 1 1 1 1 La Trampa de las Variables Dummies y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + b 4 *D 1 + b 5 *D 2 Variables Dummy Siempre debemos omitir una variable

Construir el Modelo (Paso a Paso)

Construir el Modelo X 2 X 3 X 4 X 5 X 6 X 1 X 7 y ¿ P o r qu é?

Construir el Modelo 1) 2)

Construir el Modelo 5 métodos para construir modelos: Exhaustivo (All-in) Eliminación hacia atrás Selección hacia adelante Eliminación Bidireccional Comparición de scores Regresión paso a paso

Construir el Modelo “All-in” – cases: Conocimiento a priori; OR Necesidad; OR Preparación previa para Eliminación hacia atrás

Construir el Modelo Eliminación hacia atrás PASO 1: Seleccionar el nivel de significación para permanecer en el modelo (p.e. SL = 0.05) PASO 2: Se calcula el modelo con todas las posibles variables predictoras PASO 3: Considera la variable predictora con el p-valor más grande . Si P > SL, entonces vamos al PASO 4, si no vamos a FIN PASO 4: Se elimina la variable predictora PASO 5: Ajustar el modelo sin dicha variable* FIN: El modelo está listo

Construir el Modelo Selección hacia adelante FIN: Conservamos el modelo anterior PASO 1: Elegimos un nivel de significación para entrar en el modelo (p.e. SL = 0.05) PASO 2: Ajustamos todos los modelos de regresión lineal simple y ~ x n Elegimos el que tiene menor p-valor. PASO 3: Conservamos esta variable, y ajustamos todos los posibles modelos con una variable extra añadida a la(s) que ya tenga(s) el modelo hasta el momento PASO 4: Consideramos la variable predictora con el menor p.valor. Si P < SL, vamos al PASO 3, si no a FIN

Construir el Modelo Eliminación Bidireccional PASO 1: Seleccionar un nivel de significación para entrar y salir del modelo p.e.: SLENTER = 0.05, SLSTAY = 0.05 PASO 2: Llevar a cabo el siguiente Paso de Selección hacia adelante (con las nuevas variables con: P < SLENTER para entrar) PASO 3: Llevar a cabo TODOS los pasos de la Eliminación hacia atrás (las variables antiguas deben tener P < SLSTAY para quedarse) PASO 4: No hay nuevas variables para entrar ni antiguas para salir FIN: El modelo está listo

Construir el Modelo Todos los modelos posibles PASO 1: Seleccionar un criterio de bondad de ajuste (p.e. criterio de Akaike) PASO 2: Construir todos los posibles modelos de regresión: 2 N -1 combinaciones en total PASO 3: Seleccionar el modelo con el mejor criterio elegido FIN: El modelo está listo Por ejemplo: 10 columnas significan 1,023 modelos

Construir el Modelo 5 métodos para construir modelos: Exhaustivo (All-in) Eliminación hacia atrás Selección hacia adelante Eliminación Bidireccional Comparición de scores

Recapitulación En esta sección hemos visto Como crear variables dummies para las categorías de variables independientes Como evitar la trampa de las variables dummies Hacia atrás, hacia adelante, Bidireccional, Todos… Construir un modelo paso a paso!! Como usar el R2 Ajustado en modelización Como interpretar los coeficientes de una RLM