Perfeccionar el modelo, analizar los modelos
y sus errores.
Contenido
•Medición de errores en modelos de ML
•Optimización de parámetros
•Ensamble
•Hands-on
El aprendizaje como búsqueda de hipótesis
Lossistemasdeaprendizajeautomáticodebenpodergeneralizar:
realizareldescubrimientodehipótesis(modelo)apartirdeun
conjuntodatossobreelproblemaaresolverquepuedenserutilizado
paratomardecisionesohacerprediccionessobrenuevosdatos,nunca
vistos
¿Cómo evaluar si un modelo tiene una buena generalización?
El aprendizaje como búsqueda de hipótesis
Busqueenelespaciodehipótesisla
hipótesis(modelo)capazdedescribirlas
relacionesentrelosobjetosycuálse
ajustamejoralosdatos
Puedehabermúltipleshipótesis
consistentesconlosdatosanalizados
¿Cómo determinar el mejor modelo?
El aprendizaje como búsqueda de hipótesis
Múltiplesalgoritmosdisponiblespararesolver
lamismatarea.
Algunosalgoritmosrequierenoptimizaciónde
parámetros,generandomúltiplosmodelospara
losmismosdatos.
¿Cómo determinar el mejor modelo?
Elección basada en la experimentación
Para las posibilidades de métodos, es necesario evaluar:
●Poder predictivo del modelo
●Interpretabilidaddel modelo
●Tiempo de formación
●Requisitos de almacenamiento
Evaluación del poder predictivo y de
generalización de los modelos
¿Cuántoseequivocaelmodelo
entrenadoalclasificarnuevosejemplos?
Uselosmismosdatosdeentrenamiento
paralaevaluación(reemplazo)noesuna
buenasolución:estimaciónmuy
optimista!(Memorización)
Métricas de retención y error
❖Elconjuntodeformaciónse
utilizaparalainducciónde
modelos.
❖Elconjuntodepruebasse
utilizaparaevaluarel
rendimientodelamodelo
entrenado
❖Cuandosolotenemosunconjuntodedatosconninstancias
disponible,paraserutilizadoenlainducciónyevaluaciónde
lamodelo,elmétodoHoldouttienecomoobjetivoseparar
losdatosalazarconjuntodeentrenamientoypruebajuntos
➢Normalmente, ⅔ para formación, ⅓ para pruebas
•O aproximadamente 70% de formación, 30% de pruebas
➢Otras variaciones utilizadas:
•90% de formación, 10% de pruebas
•80% de formación, 20% de pruebas
•60% de formación, 40% de pruebas
➢¡Totalmente inconexo!
¿Por qué evaluar con datos independientes?
•Lasprediccionescorrectasnosonsuficientes:
delocontrario,elalgoritmopodría
simplementememorizarlosdatos.
•Esimportantequeelmodelotengalacapacidad
depredecircorrectamenteinstanciasnunca
antesvistas:¡poderparageneralizar!
•Eviteelsobreajuste:sobreajustededatosde
entrenamiento,conpocapoderde
generalizaciónparadatosdesconocidos(datos
nuevos)
Regresión
Clasificación
Métricas de retención y error
Estimación de rendimiento para el conjunto de pruebas
Comparación entre la etiqueta verdadera y la
predicción: estimación de desempeño
Elrendimientoseevalúacomparandoelvalor
predichoconelvalorrealdelaatributode
destino
Lasmétricasdeerrorseutilizanpararesumirel
rendimientoydifierenentreclasificacióny
regresión
Métricas de retención y error
Tasa de error:proporción de ejemplos ordenados
incorrectamente
•varía entre 0 y 1, con valores cercanos a 0 que
representan modelos mejores
Métricas de error para clasificación (salidas discretas):
Métricas de retención y error
Métricas de error para clasificación (salidas discretas):
Precisión:proporcióndeejemploscorrectamente
clasificados
•Varíaentre0y1,convalorescercanosa1que
representanmodelosmejores
•"Tasadeaciertos"o"Precisióntotal"
Métricas de retención y error
El rendimiento de un clasificador se puede ver con un matriz de
confusión
•Suponiendo un problema con 2 clases posibles, c1 y c2
(clasificación binario)
Métricas de error para clasificación (salidas discretas):
12 ejemplos de clase c1, de los
cuales 11 fueron predichos
correctamente
12 ejemplos de clase c2, de los
cuales 9 fueron predichos
correctamente
Clase predicha
Clase
cierta
Métricas de retención y error
Métricas de error para clasificación (salidas discretas):
El rendimiento de un clasificador se puede ver con un matriz de
confusión
•Suponiendo un problema con 2 clases posibles, c1 y c2
(clasificación binario)
Clase predicha
Clase
cierta
Enproblemasdeclasificación
binario,generalmenteuna
clase(deinterés)sedenota
comoPositivo(+)yelotro
comoNegativo(-),yson
cuantificólosvaloresde:
Verdaderospositivos(VP)
Verdaderosnegativos(VN)
Falsospositivos(FP)
Falsosnegativos(FN)
Métricas de retención y error
El rendimiento de un clasificador se puede ver con un matriz de
confusión
•Suponiendo un problema con 2 clases posibles, c1 y c2
(clasificación binario)
Métricas de error para clasificación (salidas discretas):
Clase predicha
Clase
cierta
Métricas de retención y error
Métricas de error para clasificación (salidas discretas):
El rendimiento de un clasificador se puede ver con un matriz de
confusión
•Suponiendo un problema con 2 clases posibles, c1 y c2
(clasificación binario)
Apartirdelamatrizdeconfusiónpodemosredefinirla
precisiónylatasadeerror
Clase predicha
Clase
cierta
Métricas de retención y error
El rendimiento de un clasificador se puede ver con un matriz de
confusión
•Suponiendo un problema con 2 clases posibles, c1 y c2
(clasificación binario)
A partir de la matriz de confusión podemos redefinir la recisión
y la tasa de error
Métricas de error para clasificación (salidas discretas):
Clase predicha
Clase
cierta
¿Qué tan preciso es este modelo?
Métricas de retención y error
Métricas de error para regresión (salidas continuas):
Error cuadrático medio (MSE): Distancia absoluta media (MAD):
Limitación de precisión
¿Qué tan precisos son los modelos a continuación?
Clase predicha
Clase
cierta
Clase predicha
Clase
cierta
Limitación de precisión
Laprecisiónnoesunabuenamedidaderendimientopara
problemasconclasificaciónsobredatosdesequilibrados
•Esdecir,cuandohayundesequilibrioenelnúmero
deinstanciasporclase
A través de la matriz de confusión, es posible extraer otras
medidas para evaluar los diferentes tipos de errores y
aciertos del modelo de clasificación.
Motivación:
•Enalgunosdominios,esimportantetenermodelos
queminimicenlasnegativos,golpeandola
clasificacióndetodaslasinstanciasque
pertenecenalaclasepositiva.Porejemplo:
prediccióndeldiagnósticodecáncer
•Enotrosdominios,esimportanteevitarfalsos
positivos,soloclasificandocomopositivassololas
instanciasenlasqueelmodelotieneunalto
confianzadeperteneceraestaclase(inclusosino
obtienetodoslospositivo).Ej:predicciónde
cuándomostrarsugerenciasdeconsultas
relacionadasenlosmotoresdebúsqueda
Medidas de desempeño básicas
para problemas de clasificación binaria
Recall: tasa de aciertos de clase positiva
•Proporción de instancias de la clase positiva que el
clasificador identifica correctamente como positivo
•"Tasa de verdaderos positivos", sensibilidad
Clase predicha
Clase
cierta
Medidas de desempeño básicas
para problemas de clasificación binaria
Precisión: fracción de predicciones positivas que son correctas.
•Porcentaje de respuestas correctas entre todas las
instancias clasificadas como positivo, es decir, cuántos
son realmente de la clase positiva
Clase predicha
Clase
cierta
Medidas de desempeño básicas
para problemas de clasificación binaria
Instancias predicho
como positivo
Instancias en clase positiva
Precisión vs. recall
Medidas de desempeño básicas
para problemas de clasificación binaria
Compensación entre precisión y recuperación
•Precisión: precisión del modelo
•Recordar: modelo completo
Dependiendo del dominio, existe interés en enfatizar la minimización
de un tipo específico de error:
Modelo orientado a la precisión: tiene como objetivo minimizar la FP
Sistemas de búsqueda; clasificación de documentos
Modelo orientado al recuerdo: tiene como objetivo minimizar FN
Dominios médicos (p. Ej., Detección de tumores)
Medidas de desempeño básicas
para problemas de clasificación binaria
Compensación entre precisión y recuperación
•Precisión: precisión del modelo
•Recordar: modelo completo
•Por lo general, se combina en una sola medida a través
de una media armónica ponderada: medida F /
puntuación F
Medidas de desempeño básicas
para problemas de clasificación binaria
Clase predicha
Clase
cierta
Especificidad: tasa de aciertos en la clase negativa
•Proporción de instancias de la clase negativa que el
clasificador identifica correctamente como negativo
•"Tasa de verdaderos negativos"
•Tasa de falsos positivos = 1 -Especificidad
Medidas de desempeño básicas
para problemas de clasificación binaria
Compensación entre sensibilidad y especificidad
A es un clasificador perfecto
B es un clasificador aleatorio
C es un clasificador que no cumple con todas las predicciones.
Medidas de desempeño básicas
para problemas de clasificación binaria
Curva ROC (característica de funcionamiento del receptor)
•Compensación entre TFP (f) y TVP (f)
Puntuación AUC (AreaUnderCurve):
Cuanto más grande mejor es el
rendimiento del clasificador
Limitaciones de holdout
Hasta ahora, estamos discutiendo el método de retención.
❖Holdouttienecomoobjetivosepararlosdatosalazaren
equipodeentrenamientoyequipodeprueba,
preferiblementedeformaestratificada.
❖Limitaciones:
➢Puede que no haya suficientes datos para tener una
buena conjuntos de entrenamiento y prueba:
▪Un conjunto de pruebas más grande proporciona
una estimación rendimiento más confiable
▪Un conjunto de formación más grande permite la
iniciación de mejores modelos
➢No le permite evaluar cómo varía el rendimiento para
diferentes combinaciones de instancias utilizadas para
capacitación
▪Es sensible a un eventual "sesgo" del conjunto de
prueba para instancias más fáciles o difíciles de
predecir
Validación cruzada
(Validación cruzada de k-fold)
Propuesta:
•Dividir el conjunto original en k particiones
separadas (pliegues) de tamaño
aproximadamente igual
Perfeccionar el modelo, analizar los modelos
y sus errores.
Contenido
•Medición de errores en modelos de ML
•Optimización de parámetros
•Ensamble
•Hands-on
Perfeccionar el modelo, analizar los modelos
y sus errores.
Contenido
•Medición de errores en modelos de ML
•Optimización de parámetros
•Ensamble
•Hands-on
Los ensambles combinan varios modelos de Machine Learning para producir una
única predicción y pueden presentar mejor desempeños que los modelos individuales.
Ensambles de Modelos de ML
La clasificación de los modelos de ensamble se puede abordar desde tres
perspectivas:
•Por el tipo de problema que procuran resolver: subajuste o
sobreajuste.
•Por la manera en la que se entrena el ensamble: paralelos o
secuenciales.
•Por la variedad de modelos en el ensamble: homogéneos o
heterogéneos.
Ensambles: Clasificación
Bagging(bootstrapaggregating) es uno de los métodos más simples de
ensamble. La idea es tomar varios clasificadores simples y entrenar cada
uno con un subconjunto de los datos. Finalmente la predicción para un
ejemplo va a ser:
•El promedio de las predicciones de todos los clasificadores simples en
el caso de un problema de regresión.
•La clase con el mayor número de votos entre todos los clasificadores
en el caso de una clasificación.
Bagging
Boostingengloba a una familia de algoritmos cuya idea general es tomar
modelos sencillos (por lo general árboles de decisión) y mejorar sus
predicciones de manera secuencial.
Para mejorar esas predicciones el algoritmo entrena cada modelo
secuencialmente con todos los datos y, para cada nuevo modelo, se le da
más peso a los datos que no fueron bien clasificados o cuyo error en
regresión sea más alto.
Boosting
Finalmente la predicción será un promedio ponderado de todos los
clasificadores base en el caso de regresión o una votación
ponderada en el caso de clasificación.
A diferencia del bagging, el bosstinges secuencial y dependiente. Es
decir, el modelo en la iteración actual depende de las predicciones
en la iteración anterior.
Boosting
Boosting
Boosting
Perfeccionar el modelo, analizar los modelos
y sus errores.
Contenido
•Medición de errores en modelos de ML
•Optimización de parámetros
•Ensamble
•Hands-on
https://colab.research.google.com/drive/1SKNUT9vjzdThn4eRHMUHKzCmY
WIK5oAt?usp=sharing