Métodos de regresión logística Métodos Multivariados de Análisis de datos
Métodos de regresión logística Variables predictorias tienen distribución normal multivariada Regresión logística ≈ regresión múltiple La variable dependiente suele ser binaria Variable dependiente es continua Modelo de regresión logística X vector de datos para una unidad experimental Y=1 indica que viene de la población 1 Y=0 indica que viene de la población 2 P(y=1I x)= exp ( β o+ β 1’x)/ (1+exp( β o+ β 1’x))
Transformación Logit Es el log de las posibilidades de que y=1 contra y=0 g(x)= log { p(y=1Ix)/[ 1-p(y=1Ix)]} g(x)= ( β o+ β 1’x) Logit tiene muchas propiedades de regresión logística La transformación es lineal en los parámetros del modelo Ajuste de modelos Regresión logística se ajusta a través del método de máxima verosimilitud Otra regresión a través de mínimos cuadrados.
Análisis discriminante logístico ( mas de dos poblaciones) Y=0 proviene de la población 1 Y=1 proviene de la población 2 Y=2 proviene de la población 3 La transformación logit para comparar Y=1 con Y=0 sabiendo que g1(x)= β o1+ β 1’x Y=2 con Y=0 g2(x)= β o2+ β 2 ’x La probabilidad de y=0 dado x es : P(y=0Ix)=1/(1+exp ( β o1+ β 1’x)+exp( β o2+ β 2’x)) La probabilidad de y=1 dado x es : P(y=1Ix)=exp( β o1+ β 1’x)/(1+exp ( β o1+ β 1’x)+exp( β o2+ β 2’x)) La probabilidad de y=2 dado x es : P(y=2Ix)=exp( β o2+ β 2 ’x)/(1+exp ( β o1+ β 1’x)+exp( β o2+ β 2’x))
Ejemplo 8.1 Una tienda de departamentos desea desarrollar una regla discriminante para determinar si se les debe dar créditos para compras futuras a los estudiantes locales universitarios. Variables reunidas: Sexo ( SEX) Especialización (MAJOR) Edad (AGE) Promedio de puntos por año de estudio (GPT) Horas trabajadas por semana (HRS) Riesgo (RISK) A su vez tenemos las siguientes clasificaciones : SEX FEMALE o MALE MAJOR SCI (ciencia), HUM( humanidades), SOC ( ciencias sociales), BUS ( comercio)
Variables discretas Variable continua Se crean nuevas variables : SEX NSEX 3 variables para MAJOR DUM1—1 ( ciencias)-------------0 ( caso contrario) DUM2– 1(ciencias sociales)----- 0 ( caso contrario) DUM3– 1 (humanidades)-------- 0 ( caso contrario) Si DUM1, DUM2, DUM3 0, corresponde a comercio
Perfil de respuesta Malos riesgos de créditos Razones de posibilidades Estimaciones de los parámetros para la función logit
De lo anterior tenemos que: Logit se estima por ĝ= 33.22-0.62(NSEX)+0.82(DUM1)+5.49(DUM2)+5.01(DUM3)-3.94(GPT)-0.55(AGE)-1.25(HRS) En las razones de posibilidades tenemos que para DUM3 150.043, de donde se concluye que es 150 veces mas probable que un estudiante de humanidades sea un mal riesgo que uno de comercio. DUM2 y DUM3 presentan riesgos muy similares. DUM2 estadísticamente significativo, valor estimado de 5.49 ( los estudiantes de ciencias sociales son de peor riesgo que los de comercio)
Se obtiene el grupo en que la regla discriminante logística clasificaría a un estudiante Probabilidades estimadas de que caigan en esos grupos
Matriz resumen de clasificaciones para los 170 estudiantes 79 de 87 son del grupo BAD, serán clasificados de manera correcta
Se eliminó NSEX
Probabilidades de significación cuando se eliminaron esas variables
Estimaciones de los parámetros del modelo logit Probabilidades posteriores
Se resumen las clasificaciones obtenidas a partir del modelo final. 95.2% se clasificaron correctamente