Tipos de Variables Variables Categóricas Numéricas Ordinales Nominales Discretas Continuas Hombre, Mujer Rojo, V erde, Az u l Pequeño, Mediano, Grande A, B, C (notas) 1, 2, 3 empleados 568 personas Edad Alt u ra
Regresiones
Regresiones En estadística, se llama análisis de la regresión al proceso estadístico de estimar las relaciones que existen entre variables. … Se centra en estudiar las relaciones entre una variable dependiente de una o más variables independientes. -Wikipedia
Regresiones Regresión Lineal Simple Regresión Lineal Múltiple y = b + b 1 *x 1 y = b + b 1 *x 1 + b 2 *x 2 + … + b n *x n Variable Dependiente (VD) Variable Independiente (VI) Coeficiente Constante Constante Coeficientes Variables Independientes (VIs) Variable Dependiente (VD)
Regresiones Regresión Lineal Simple Sueldo ($) Experiencia y = b + b 1 *x Sueldo = b + b 1 *Experiencia +1yr +10k 30k
Mét od o d e lo s M íni m o s Cuadrados
Método de los Mínimos Cuadrados Regresión Lineal Simple Sueldo ($) Experiencia y i y î
R Cuadrado
R Cuadrado Regresión Lineal Simple: Sueldo ($) y i y î Experiencia
R Cuadrado Regresión Lineal Simple: Sueldo ($) y i y î Experiencia
R Cuadrado Regresión Lineal Simple: Sueldo ($) SS re s = SS tot = R 2 = 1 - SS res SS tot Experiencia
R 2 Adjustado
R 2 Adjustado Regresión Lineal Simple: Sueldo ($) R 2 = 1 - SS res SS tot SS re s = SS tot = Experiencia
R 2 Adjustado Regresión Lineal Simple: Sueldo ($) y avg R 2 = 1 - SS res SS tot Experiencia
R 2 Adjustado R 2 = 1 - SS res SS t o t SS res -> Min y = b + b 1 *x 1 + b 2 *x 2 y = b + b 1 *x 1 R 2 – Bondad de Ajuste (cuanto más grande mejor) + b 3 *x 3 R 2 nunca va a decrecer! Problema :
R 2 Adjustado R 2 = 1 - SS res SS t o t Adj R 2 = 1 – (1 – R 2 ) n – 1 n – p – 1 p - número de variables regresoras n – tamaño de la muestra
Una Advertencia
Una Advertencia Restricciones de la Regresión Lineal 1.Linealidad 2.Homocedasticidad 3.Normalidad multivariable 4.Independencia de los errores 5.Ausencia de multicolinealidad
Variables Dummy
Variables Dummy Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California
y = Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California Variables Dummy
y = b Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California Variables Dummy
Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California y = b + b 1 *x 1 Variables Dummy
Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California y = b + b 1 *x 1 + b 2 *x 2 Variables Dummy
Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 Variables Dummy
Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + ??? Variables Dummy
New York California Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California Variables Dummy y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + ???
Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + ??? New York California Variables Dummy
Profit R&D Spend Admin Marketing State New York California 192,261.83 165,349.20 136,897.80 471,784.10 New York 1 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 1 166,187.94 142,107.34 91,391.77 366,168.42 California Variables Dummy y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + ???
Profit R&D Spend Admin Marketing State New York California 192,261.83 165,349.20 136,897.80 471,784.10 New York 1 191,792.06 162,597.70 151,377.59 443,898.53 California 1 191,050.39 153,441.51 101,145.55 407,934.54 California 1 182,901.99 144,372.41 118,671.85 383,199.62 New York 1 166,187.94 142,107.34 91,391.77 366,168.42 California 1 Variables Dummy y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + ???
Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California New York California 1 1 1 1 1 Variables Dummy Variables Dummy y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + ???
Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California New York California 1 1 1 1 1 Variables Dummy Variables Dummy y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + b 4 *D 1
Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California New York California 1 1 1 1 1 Variables Dummy Variables Dummy y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + b 4 *D 1
La trampa de las Variables Dummies
Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California New York California 1 1 1 1 1 La Trampa de las Variables Dummies y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + b 4 *D 1 Variables Dummy
New York California 1 1 1 1 1 151,377.59 443,898.53 Califor 101,145.55 407,934.54 Califor 1 18 , 671 . 85 383,199.62 New Y 91,391.77 366,168.42 Califor Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 nia 191,050.39 153,441.51 D 2 = 1 - D 1 nia 182,901.99 144,372.41 ork 166,187.94 142,107.34 nia La Trampa de las Variables Dummies y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + b 4 *D 1 + b 5 *D 2 Variables Dummy
Profit R&D Spend Admin Marketing State 192,261.83 165,349.20 136,897.80 471,784.10 New York 191,792.06 162,597.70 151,377.59 443,898.53 California 191,050.39 153,441.51 101,145.55 407,934.54 California 182,901.99 144,372.41 118,671.85 383,199.62 New York 166,187.94 142,107.34 91,391.77 366,168.42 California New York California 1 1 1 1 1 La Trampa de las Variables Dummies y = b + b 1 *x 1 + b 2 *x 2 + b 3 *x 3 + b 4 *D 1 + b 5 *D 2 Variables Dummy Siempre debemos omitir una variable
Construir el Modelo (Paso a Paso)
Construir el Modelo X 2 X 3 X 4 X 5 X 6 X 1 X 7 y ¿ P o r qu é?
Construir el Modelo 1) 2)
Construir el Modelo 5 métodos para construir modelos: Exhaustivo (All-in) Eliminación hacia atrás Selección hacia adelante Eliminación Bidireccional Comparición de scores Regresión paso a paso
Construir el Modelo “All-in” – cases: Conocimiento a priori; OR Necesidad; OR Preparación previa para Eliminación hacia atrás
Construir el Modelo Eliminación hacia atrás PASO 1: Seleccionar el nivel de significación para permanecer en el modelo (p.e. SL = 0.05) PASO 2: Se calcula el modelo con todas las posibles variables predictoras PASO 3: Considera la variable predictora con el p-valor más grande . Si P > SL, entonces vamos al PASO 4, si no vamos a FIN PASO 4: Se elimina la variable predictora PASO 5: Ajustar el modelo sin dicha variable* FIN: El modelo está listo
Construir el Modelo Selección hacia adelante FIN: Conservamos el modelo anterior PASO 1: Elegimos un nivel de significación para entrar en el modelo (p.e. SL = 0.05) PASO 2: Ajustamos todos los modelos de regresión lineal simple y ~ x n Elegimos el que tiene menor p-valor. PASO 3: Conservamos esta variable, y ajustamos todos los posibles modelos con una variable extra añadida a la(s) que ya tenga(s) el modelo hasta el momento PASO 4: Consideramos la variable predictora con el menor p.valor. Si P < SL, vamos al PASO 3, si no a FIN
Construir el Modelo Eliminación Bidireccional PASO 1: Seleccionar un nivel de significación para entrar y salir del modelo p.e.: SLENTER = 0.05, SLSTAY = 0.05 PASO 2: Llevar a cabo el siguiente Paso de Selección hacia adelante (con las nuevas variables con: P < SLENTER para entrar) PASO 3: Llevar a cabo TODOS los pasos de la Eliminación hacia atrás (las variables antiguas deben tener P < SLSTAY para quedarse) PASO 4: No hay nuevas variables para entrar ni antiguas para salir FIN: El modelo está listo
Construir el Modelo Todos los modelos posibles PASO 1: Seleccionar un criterio de bondad de ajuste (p.e. criterio de Akaike) PASO 2: Construir todos los posibles modelos de regresión: 2 N -1 combinaciones en total PASO 3: Seleccionar el modelo con el mejor criterio elegido FIN: El modelo está listo Por ejemplo: 10 columnas significan 1,023 modelos
Construir el Modelo 5 métodos para construir modelos: Exhaustivo (All-in) Eliminación hacia atrás Selección hacia adelante Eliminación Bidireccional Comparición de scores
Recapitulación En esta sección hemos visto Como crear variables dummies para las categorías de variables independientes Como evitar la trampa de las variables dummies Hacia atrás, hacia adelante, Bidireccional, Todos… Construir un modelo paso a paso!! Como usar el R2 Ajustado en modelización Como interpretar los coeficientes de una RLM