Metricas evaluacion modelos machine learning

Diplomado de soluciones
digitales avanzadas en la nube
Intermedio 1.
Módulo: Machine Learningcon Python
Profesor Jaime A. Riascos Salas
2021

Contenidodelcurso
1.MachineLearning-Introducción
2.Entendimientodelosdatosparasuusoen
MachineLearning
3.PrepararlosdatosparaalgoritmosdeMachine
Learning
4.Seleccióndelmodeloyentrenamiento
5.Perfeccionarelmodelo,analizarlosmodelosysus
errores

Perfeccionar el modelo, analizar los modelos
y sus errores.
Contenido
•Medición de errores en modelos de ML
•Optimización de parámetros
•Ensamble
•Hands-on

El aprendizaje como búsqueda de hipótesis
Lossistemasdeaprendizajeautomáticodebenpodergeneralizar:
realizareldescubrimientodehipótesis(modelo)apartirdeun
conjuntodatossobreelproblemaaresolverquepuedenserutilizado
paratomardecisionesohacerprediccionessobrenuevosdatos,nunca
vistos
¿Cómo evaluar si un modelo tiene una buena generalización?

El aprendizaje como búsqueda de hipótesis
Busqueenelespaciodehipótesisla
hipótesis(modelo)capazdedescribirlas
relacionesentrelosobjetosycuálse
ajustamejoralosdatos
Puedehabermúltipleshipótesis
consistentesconlosdatosanalizados
¿Cómo determinar el mejor modelo?

El aprendizaje como búsqueda de hipótesis
Múltiplesalgoritmosdisponiblespararesolver
lamismatarea.
Algunosalgoritmosrequierenoptimizaciónde
parámetros,generandomúltiplosmodelospara
losmismosdatos.
¿Cómo determinar el mejor modelo?

Elección basada en la experimentación
Para las posibilidades de métodos, es necesario evaluar:
●Poder predictivo del modelo
●Interpretabilidaddel modelo
●Tiempo de formación
●Requisitos de almacenamiento

Evaluación del poder predictivo y de
generalización de los modelos
¿Cuántoseequivocaelmodelo
entrenadoalclasificarnuevosejemplos?
Uselosmismosdatosdeentrenamiento
paralaevaluación(reemplazo)noesuna
buenasolución:estimaciónmuy
optimista!(Memorización)

Métricas de retención y error
❖Elconjuntodeformaciónse
utilizaparalainducciónde
modelos.
❖Elconjuntodepruebasse
utilizaparaevaluarel
rendimientodelamodelo
entrenado
❖Cuandosolotenemosunconjuntodedatosconninstancias
disponible,paraserutilizadoenlainducciónyevaluaciónde
lamodelo,elmétodoHoldouttienecomoobjetivoseparar
losdatosalazarconjuntodeentrenamientoypruebajuntos
➢Normalmente, ⅔ para formación, ⅓ para pruebas
•O aproximadamente 70% de formación, 30% de pruebas
➢Otras variaciones utilizadas:
•90% de formación, 10% de pruebas
•80% de formación, 20% de pruebas
•60% de formación, 40% de pruebas
➢¡Totalmente inconexo!

¿Por qué evaluar con datos independientes?
•Lasprediccionescorrectasnosonsuficientes:
delocontrario,elalgoritmopodría
simplementememorizarlosdatos.
•Esimportantequeelmodelotengalacapacidad
depredecircorrectamenteinstanciasnunca
antesvistas:¡poderparageneralizar!
•Eviteelsobreajuste:sobreajustededatosde
entrenamiento,conpocapoderde
generalizaciónparadatosdesconocidos(datos
nuevos)
Regresión
Clasificación

Métricas de retención y error
Estimación de rendimiento para el conjunto de pruebas
Comparación entre la etiqueta verdadera y la
predicción: estimación de desempeño
Elrendimientoseevalúacomparandoelvalor
predichoconelvalorrealdelaatributode
destino
Lasmétricasdeerrorseutilizanpararesumirel
rendimientoydifierenentreclasificacióny
regresión

Métricas de retención y error
Tasa de error:proporción de ejemplos ordenados
incorrectamente
•varía entre 0 y 1, con valores cercanos a 0 que
representan modelos mejores
Métricas de error para clasificación (salidas discretas):

Métricas de retención y error
Métricas de error para clasificación (salidas discretas):
Precisión:proporcióndeejemploscorrectamente
clasificados
•Varíaentre0y1,convalorescercanosa1que
representanmodelosmejores
•"Tasadeaciertos"o"Precisióntotal"

Métricas de retención y error
El rendimiento de un clasificador se puede ver con un matriz de
confusión
•Suponiendo un problema con 2 clases posibles, c1 y c2
(clasificación binario)
Métricas de error para clasificación (salidas discretas):
12 ejemplos de clase c1, de los
cuales 11 fueron predichos
correctamente
12 ejemplos de clase c2, de los
cuales 9 fueron predichos
correctamente
Clase predicha
Clase
cierta

Métricas de retención y error
Métricas de error para clasificación (salidas discretas):
El rendimiento de un clasificador se puede ver con un matriz de
confusión
•Suponiendo un problema con 2 clases posibles, c1 y c2
(clasificación binario)
Clase predicha
Clase
cierta
Enproblemasdeclasificación
binario,generalmenteuna
clase(deinterés)sedenota
comoPositivo(+)yelotro
comoNegativo(-),yson
cuantificólosvaloresde:
Verdaderospositivos(VP)
Verdaderosnegativos(VN)
Falsospositivos(FP)
Falsosnegativos(FN)

Métricas de retención y error
El rendimiento de un clasificador se puede ver con un matriz de
confusión
•Suponiendo un problema con 2 clases posibles, c1 y c2
(clasificación binario)
Métricas de error para clasificación (salidas discretas):
Clase predicha
Clase
cierta

Métricas de retención y error
Métricas de error para clasificación (salidas discretas):
El rendimiento de un clasificador se puede ver con un matriz de
confusión
•Suponiendo un problema con 2 clases posibles, c1 y c2
(clasificación binario)
Apartirdelamatrizdeconfusiónpodemosredefinirla
precisiónylatasadeerror
Clase predicha
Clase
cierta

Métricas de retención y error
El rendimiento de un clasificador se puede ver con un matriz de
confusión
•Suponiendo un problema con 2 clases posibles, c1 y c2
(clasificación binario)
A partir de la matriz de confusión podemos redefinir la recisión
y la tasa de error
Métricas de error para clasificación (salidas discretas):
Clase predicha
Clase
cierta
¿Qué tan preciso es este modelo?

Métricas de retención y error
Métricas de error para regresión (salidas continuas):
Error cuadrático medio (MSE): Distancia absoluta media (MAD):

Limitación de precisión
¿Qué tan precisos son los modelos a continuación?
Clase predicha
Clase
cierta
Clase predicha
Clase
cierta

Limitación de precisión
Laprecisiónnoesunabuenamedidaderendimientopara
problemasconclasificaciónsobredatosdesequilibrados
•Esdecir,cuandohayundesequilibrioenelnúmero
deinstanciasporclase
A través de la matriz de confusión, es posible extraer otras
medidas para evaluar los diferentes tipos de errores y
aciertos del modelo de clasificación.
Motivación:
•Enalgunosdominios,esimportantetenermodelos
queminimicenlasnegativos,golpeandola
clasificacióndetodaslasinstanciasque
pertenecenalaclasepositiva.Porejemplo:
prediccióndeldiagnósticodecáncer
•Enotrosdominios,esimportanteevitarfalsos
positivos,soloclasificandocomopositivassololas
instanciasenlasqueelmodelotieneunalto
confianzadeperteneceraestaclase(inclusosino
obtienetodoslospositivo).Ej:predicciónde
cuándomostrarsugerenciasdeconsultas
relacionadasenlosmotoresdebúsqueda

Medidas de desempeño básicas
para problemas de clasificación binaria
Recall: tasa de aciertos de clase positiva
•Proporción de instancias de la clase positiva que el
clasificador identifica correctamente como positivo
•"Tasa de verdaderos positivos", sensibilidad
Clase predicha
Clase
cierta

Medidas de desempeño básicas
para problemas de clasificación binaria
Precisión: fracción de predicciones positivas que son correctas.
•Porcentaje de respuestas correctas entre todas las
instancias clasificadas como positivo, es decir, cuántos
son realmente de la clase positiva
Clase predicha
Clase
cierta

Medidas de desempeño básicas
para problemas de clasificación binaria
Instancias predicho
como positivo
Instancias en clase positiva
Precisión vs. recall

Medidas de desempeño básicas
para problemas de clasificación binaria
Compensación entre precisión y recuperación
•Precisión: precisión del modelo
•Recordar: modelo completo
Dependiendo del dominio, existe interés en enfatizar la minimización
de un tipo específico de error:
Modelo orientado a la precisión: tiene como objetivo minimizar la FP
Sistemas de búsqueda; clasificación de documentos
Modelo orientado al recuerdo: tiene como objetivo minimizar FN
Dominios médicos (p. Ej., Detección de tumores)

Medidas de desempeño básicas
para problemas de clasificación binaria
Compensación entre precisión y recuperación
•Precisión: precisión del modelo
•Recordar: modelo completo
•Por lo general, se combina en una sola medida a través
de una media armónica ponderada: medida F /
puntuación F

Medidas de desempeño básicas
para problemas de clasificación binaria
Clase predicha
Clase
cierta
Especificidad: tasa de aciertos en la clase negativa
•Proporción de instancias de la clase negativa que el
clasificador identifica correctamente como negativo
•"Tasa de verdaderos negativos"
•Tasa de falsos positivos = 1 -Especificidad

Medidas de desempeño básicas
para problemas de clasificación binaria
Compensación entre sensibilidad y especificidad
A es un clasificador perfecto
B es un clasificador aleatorio
C es un clasificador que no cumple con todas las predicciones.

Medidas de desempeño básicas
para problemas de clasificación binaria
Curva ROC (característica de funcionamiento del receptor)
•Compensación entre TFP (f) y TVP (f)
Puntuación AUC (AreaUnderCurve):
Cuanto más grande mejor es el
rendimiento del clasificador

Limitaciones de holdout
Hasta ahora, estamos discutiendo el método de retención.
❖Holdouttienecomoobjetivosepararlosdatosalazaren
equipodeentrenamientoyequipodeprueba,
preferiblementedeformaestratificada.
❖Limitaciones:
➢Puede que no haya suficientes datos para tener una
buena conjuntos de entrenamiento y prueba:
▪Un conjunto de pruebas más grande proporciona
una estimación rendimiento más confiable
▪Un conjunto de formación más grande permite la
iniciación de mejores modelos
➢No le permite evaluar cómo varía el rendimiento para
diferentes combinaciones de instancias utilizadas para
capacitación
▪Es sensible a un eventual "sesgo" del conjunto de
prueba para instancias más fáciles o difíciles de
predecir

Validación cruzada
(Validación cruzada de k-fold)
Propuesta:
•Dividir el conjunto original en k particiones
separadas (pliegues) de tamaño
aproximadamente igual

Validación cruzada
(Validación cruzada de k-fold)
Propuesta:
•Dividirelconjuntooriginalenkparticionesseparadas
(pliegues)detamañoaproximadamenteigual
•Lasinstanciasdeplieguesk-1seutilizanparael
entrenamiento,yelplieguerestante(enazul)para
probar.Esteprocesoserepitekveces:cadalarepetición
deunplieguediferenteseutilizacomoprueba.
•Rendimientofinaldadoporladesviaciónmediay
estándardelosvaloresderendimientoobservado
paraloskequiposdepruebaevaluados

Validación cruzada
(Validación cruzada de k-fold)
Propuesta:
•Dividirelconjuntooriginalenkparticionesseparadas
(pliegues)detamañoaproximadamenteigual
•Lasinstanciasdeplieguesk-1seutilizanparael
entrenamiento,yelplieguerestante(enazul)para
probar.Esteprocesoserepitekveces:cadala
repeticióndeunplieguediferenteseutilizacomo
prueba.
•Rendimientofinaldadoporladesviaciónmediay
estándardelosvaloresderendimientoobservado
paraloskequiposdepruebaevaluados
•k=5ok=10,principalmente,sonvalores
habituales
•Variación:validacióncruzadarepetida
•Repitaelprocesodevalidacióncruzada
dekvecesrveces,calculandoel
finalizarladesviaciónmediayestándar
entrelosvaloresrxkparalamétricade
rendimiento

Validación cruzada
(Validación cruzada de k-fold)
•Enelcasoextremo,conk=n,dondenrepresentael
númerodeinstanciasdisponibleenelconjunto
originaldedatos:validacióncruzadadejaunofuera
•Estrategiahabitualcuandoelnúmerodelas
instanciassonlimitadas

Perfeccionar el modelo, analizar los modelos
y sus errores.
Contenido
•Medición de errores en modelos de ML
•Optimización de parámetros
•Ensamble
•Hands-on

¿Cómo optimizar los parámetros?
Muchosalgoritmosinvolucranlaoptimizacióndehiperparámetros:esnecesarioevaluarcuáleslamejor
combinacióndemúltiplesopciones,anteseligeelmejormodelo.
Estrategiahabitual:¿usodeunsubconjuntodevalidaciónparaoptimizadores?
1-Seinducenvariosmodelosapartirdel
mismoconjuntodeentrenamiento,con
variacionesenlaconfiguraciónde
hiperparámetros

¿Cómo optimizar los parámetros?
Muchosalgoritmosinvolucranlaoptimizacióndehiperparámetros:esnecesarioevaluarcuáleslamejor
combinacióndemúltiplesopciones,anteseligeelmejormodelo.
Estrategiahabitual:¿usodeunsubconjuntodevalidaciónparaoptimizadores?
2-Elconjuntodevalidaciónseutilizapara
evaluarmodelosydeterminarlamejor
configuracióndehiperparámetros(mejor
rendimiento)

¿Cómo optimizar los parámetros?
Muchosalgoritmosinvolucranlaoptimizacióndehiperparámetros:esnecesarioevaluarcuáleslamejor
combinacióndemúltiplesopciones,anteseligeelmejormodelo.
Estrategiahabitual:¿usodeunsubconjuntodevalidaciónparaoptimizadores?
3-Losdatosdecapacitaciónyvalidaciónse
utilizanparainducirlamodelo,utilizandola
mejorconfiguracióndeparámetrosquese
encuentraenelpasoanterior

¿Cómo optimizar los parámetros?
Muchosalgoritmosinvolucranlaoptimizacióndehiperparámetros:esnecesarioevaluarcuáleslamejor
combinacióndemúltiplesopciones,anteseligeelmejormodelo.
Estrategiahabitual:¿usodeunsubconjuntodevalidaciónparaoptimizadores?
4-Elconjuntodedatosdeprueba
(independiente)seutilizaparaestimar
generalizabilidaddelmodeloentrenado

Método de hiperparametrizaciónGRID
Labúsquedadecuadrículaserefiereaunatécnicautilizadapara
identificarloshiperparámetrosóptimosparaunmodelo.Adiferencia
delosparámetros,labúsquedadehiperparámetrosenlosdatosde
entrenamientoesinalcanzable.Comotal,paraencontrarlos
hiperparámetroscorrectos,creamosunmodeloparacadacombinación
dehiperparámetros.Labúsquedaencuadrículaseconsidera,porlo
tanto,unmétododeoptimizacióndehiperparámetrosmuytradicional,
yaquebásicamenteestamos"forzandoalafuerza"atodaslas
combinacionesposibles.Luego,losmodelosseevalúanmediante
validacióncruzada.Elmodeloquecuentaconlamayorprecisiónse
consideranaturalmenteelmejor.

Perfeccionar el modelo, analizar los modelos
y sus errores.
Contenido
•Medición de errores en modelos de ML
•Optimización de parámetros
•Ensamble
•Hands-on

Los ensambles combinan varios modelos de Machine Learning para producir una
única predicción y pueden presentar mejor desempeños que los modelos individuales.
Ensambles de Modelos de ML

La clasificación de los modelos de ensamble se puede abordar desde tres
perspectivas:
•Por el tipo de problema que procuran resolver: subajuste o
sobreajuste.
•Por la manera en la que se entrena el ensamble: paralelos o
secuenciales.
•Por la variedad de modelos en el ensamble: homogéneos o
heterogéneos.
Ensambles: Clasificación

Bagging(bootstrapaggregating) es uno de los métodos más simples de
ensamble. La idea es tomar varios clasificadores simples y entrenar cada
uno con un subconjunto de los datos. Finalmente la predicción para un
ejemplo va a ser:
•El promedio de las predicciones de todos los clasificadores simples en
el caso de un problema de regresión.
•La clase con el mayor número de votos entre todos los clasificadores
en el caso de una clasificación.
Bagging

Bagging

Bagging
Unensamblebasadoenbaggingcrealossubconjuntosdedatosparacadaclasificadorusandoun
métodoconocidocomobootstrapping.Demaneraqueelalgoritmosepuederesumirenlos
siguientespasos:
1.Paracadaunodelosmodelossimples:
a.Creeunsubconjuntodeentrenamientousandounamuestradelconjuntodeentrenamiento
(tomadaaleatoriamenteconreemplazo).Puedeserunporcentajedefinido.
b.Entreneelmodeloconelsubconjuntodedatosmuestreado.
2.Pararealizarinferencia:
Promedieelresultadodetodoslosmodelossiesregression.
Hagavotacióndetodoslosmodelossiesclasificación(escojalamoda).

Bagging
Elbaggingtienelassiguientescaracterísticas:
1.Trataderesolverproblemasdesobreajuste.
2.Enunensambleparalelo,esdecirquecadamodeloesentrenadoindependiente
delotro.
3.Sueleserhomogéneo,esdecirqueseentrenaelmismotipodeclasificadores
simples,aunquenohayunarazónestrictaparanoentrenardiferentes.
4.UnensambledeÁrbolesdeDecisiónusualmentesellamaRandomForest.
5.Enbaggingtambiénsepuedehacersubmuestreodelasvariablesdeentrada;así
lohaceRandomForest.
6.Nofuncionanbienconmodeloslineales.

Boostingengloba a una familia de algoritmos cuya idea general es tomar
modelos sencillos (por lo general árboles de decisión) y mejorar sus
predicciones de manera secuencial.
Para mejorar esas predicciones el algoritmo entrena cada modelo
secuencialmente con todos los datos y, para cada nuevo modelo, se le da
más peso a los datos que no fueron bien clasificados o cuyo error en
regresión sea más alto.
Boosting

Finalmente la predicción será un promedio ponderado de todos los
clasificadores base en el caso de regresión o una votación
ponderada en el caso de clasificación.
A diferencia del bagging, el bosstinges secuencial y dependiente. Es
decir, el modelo en la iteración actual depende de las predicciones
en la iteración anterior.
Boosting

Boosting

Perfeccionar el modelo, analizar los modelos
y sus errores.
Contenido
•Medición de errores en modelos de ML
•Optimización de parámetros
•Ensamble
•Hands-on
https://colab.research.google.com/drive/1SKNUT9vjzdThn4eRHMUHKzCmY
WIK5oAt?usp=sharing

Metricas evaluacion modelos machine learning

About This Presentation

Slide Content

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

Metricas evaluacion modelos machine learning

About This Presentation

Slide Content

Slide 1

Slide 2

Slide 3

Slide 4

Slide 5

Slide 6

Slide 7

Slide 8

Slide 9

Slide 10

Slide 11

Slide 12

Slide 13

Slide 14

Slide 15

Slide 16

Slide 17

Slide 18

Slide 19

Slide 20

Slide 21

Slide 22

Slide 23

Slide 24

Slide 25

Slide 26

Slide 27

Slide 28

Slide 29

Slide 30

Slide 31

Slide 32

Slide 33

Slide 34

Slide 35

Slide 36

Slide 37

Slide 38

Slide 39

Slide 40

Slide 41

Slide 42

Slide 43

Slide 44

Slide 45

Slide 46

Slide 47

Slide 48

Slide 49

Slide 50

Slide 51

Slide 52

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

Pray For The Peace Of Jerusalem and You Will Prosper

Don_t_Waste_Your_Life_God.....powerpoint

VILLASUR_FACTORS_TO_CONSIDER_IN_PLATING_SALAD_10-13.pdf

Fertility awareness methods for women in the society

Chapter 5 Arithmetic Functions Computer Organisation and Architecture

syakira bhasa inggris (1) (1).pptx.......