Métodos de regresión logística

brenduska03 2,766 views 14 slides Jan 21, 2013
Slide 1
Slide 1 of 14
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14

About This Presentation

Métodos de regresión logística


Slide Content

Métodos de regresión logística Métodos Multivariados de Análisis de datos

Métodos de regresión logística Variables predictorias tienen distribución normal multivariada Regresión logística ≈ regresión múltiple La variable dependiente suele ser binaria Variable dependiente es continua Modelo de regresión logística X vector de datos para una unidad experimental Y=1 indica que viene de la población 1 Y=0 indica que viene de la población 2 P(y=1I x)= exp ( β o+ β 1’x)/ (1+exp( β o+ β 1’x))

Transformación Logit Es el log de las posibilidades de que y=1 contra y=0 g(x)= log { p(y=1Ix)/[ 1-p(y=1Ix)]} g(x)= ( β o+ β 1’x) Logit tiene muchas propiedades de regresión logística La transformación es lineal en los parámetros del modelo Ajuste de modelos Regresión logística se ajusta a través del método de máxima verosimilitud Otra regresión  a través de mínimos cuadrados.

Análisis discriminante logístico ( mas de dos poblaciones) Y=0 proviene de la población 1 Y=1 proviene de la población 2 Y=2 proviene de la población 3 La transformación logit para comparar Y=1 con Y=0 sabiendo que g1(x)= β o1+ β 1’x Y=2 con Y=0 g2(x)= β o2+ β 2 ’x La probabilidad de y=0 dado x es : P(y=0Ix)=1/(1+exp ( β o1+ β 1’x)+exp( β o2+ β 2’x)) La probabilidad de y=1 dado x es : P(y=1Ix)=exp( β o1+ β 1’x)/(1+exp ( β o1+ β 1’x)+exp( β o2+ β 2’x)) La probabilidad de y=2 dado x es : P(y=2Ix)=exp( β o2+ β 2 ’x)/(1+exp ( β o1+ β 1’x)+exp( β o2+ β 2’x))

Ejemplo 8.1 Una tienda de departamentos desea desarrollar una regla discriminante para determinar si se les debe dar créditos para compras futuras a los estudiantes locales universitarios. Variables reunidas: Sexo ( SEX) Especialización (MAJOR) Edad (AGE) Promedio de puntos por año de estudio (GPT) Horas trabajadas por semana (HRS) Riesgo (RISK) A su vez tenemos las siguientes clasificaciones : SEX  FEMALE o MALE MAJOR  SCI (ciencia), HUM( humanidades), SOC ( ciencias sociales), BUS ( comercio)

Variables discretas Variable continua Se crean nuevas variables : SEX  NSEX 3 variables para MAJOR DUM1—1 ( ciencias)-------------0 ( caso contrario) DUM2– 1(ciencias sociales)----- 0 ( caso contrario) DUM3– 1 (humanidades)-------- 0 ( caso contrario) Si DUM1, DUM2, DUM3 0, corresponde a comercio

Perfil de respuesta Malos riesgos de créditos Razones de posibilidades Estimaciones de los parámetros para la función logit

De lo anterior tenemos que: Logit se estima por ĝ= 33.22-0.62(NSEX)+0.82(DUM1)+5.49(DUM2)+5.01(DUM3)-3.94(GPT)-0.55(AGE)-1.25(HRS) En las razones de posibilidades tenemos que para DUM3  150.043, de donde se concluye que es 150 veces mas probable que un estudiante de humanidades sea un mal riesgo que uno de comercio. DUM2 y DUM3 presentan riesgos muy similares. DUM2 estadísticamente significativo, valor estimado de 5.49 ( los estudiantes de ciencias sociales son de peor riesgo que los de comercio)

Se obtiene el grupo en que la regla discriminante logística clasificaría a un estudiante Probabilidades estimadas de que caigan en esos grupos

Matriz resumen de clasificaciones para los 170 estudiantes 79 de 87 son del grupo BAD, serán clasificados de manera correcta

Se eliminó NSEX

Probabilidades de significación cuando se eliminaron esas variables

Estimaciones de los parámetros del modelo logit Probabilidades posteriores

Se resumen las clasificaciones obtenidas a partir del modelo final. 95.2% se clasificaron correctamente
Tags