Metricas evaluacion modelos machine learning

JAndrsSalas 1 views 52 slides Sep 30, 2025
Slide 1
Slide 1 of 52
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49
Slide 50
50
Slide 51
51
Slide 52
52

About This Presentation

Metricas y metodos de evaluacion para modelos IA


Slide Content

Diplomado de soluciones
digitales avanzadas en la nube
Intermedio 1.
Módulo: Machine Learningcon Python
Profesor Jaime A. Riascos Salas
2021

Contenidodelcurso
1.MachineLearning-Introducción
2.Entendimientodelosdatosparasuusoen
MachineLearning
3.PrepararlosdatosparaalgoritmosdeMachine
Learning
4.Seleccióndelmodeloyentrenamiento
5.Perfeccionarelmodelo,analizarlosmodelosysus
errores

Perfeccionar el modelo, analizar los modelos
y sus errores.
Contenido
•Medición de errores en modelos de ML
•Optimización de parámetros
•Ensamble
•Hands-on

El aprendizaje como búsqueda de hipótesis
Lossistemasdeaprendizajeautomáticodebenpodergeneralizar:
realizareldescubrimientodehipótesis(modelo)apartirdeun
conjuntodatossobreelproblemaaresolverquepuedenserutilizado
paratomardecisionesohacerprediccionessobrenuevosdatos,nunca
vistos
¿Cómo evaluar si un modelo tiene una buena generalización?

El aprendizaje como búsqueda de hipótesis
Busqueenelespaciodehipótesisla
hipótesis(modelo)capazdedescribirlas
relacionesentrelosobjetosycuálse
ajustamejoralosdatos
Puedehabermúltipleshipótesis
consistentesconlosdatosanalizados
¿Cómo determinar el mejor modelo?

El aprendizaje como búsqueda de hipótesis
Múltiplesalgoritmosdisponiblespararesolver
lamismatarea.
Algunosalgoritmosrequierenoptimizaciónde
parámetros,generandomúltiplosmodelospara
losmismosdatos.
¿Cómo determinar el mejor modelo?

Elección basada en la experimentación
Para las posibilidades de métodos, es necesario evaluar:
●Poder predictivo del modelo
●Interpretabilidaddel modelo
●Tiempo de formación
●Requisitos de almacenamiento

Evaluación del poder predictivo y de
generalización de los modelos
¿Cuántoseequivocaelmodelo
entrenadoalclasificarnuevosejemplos?
Uselosmismosdatosdeentrenamiento
paralaevaluación(reemplazo)noesuna
buenasolución:estimaciónmuy
optimista!(Memorización)

Métricas de retención y error
❖Elconjuntodeformaciónse
utilizaparalainducciónde
modelos.
❖Elconjuntodepruebasse
utilizaparaevaluarel
rendimientodelamodelo
entrenado
❖Cuandosolotenemosunconjuntodedatosconninstancias
disponible,paraserutilizadoenlainducciónyevaluaciónde
lamodelo,elmétodoHoldouttienecomoobjetivoseparar
losdatosalazarconjuntodeentrenamientoypruebajuntos
➢Normalmente, ⅔ para formación, ⅓ para pruebas
•O aproximadamente 70% de formación, 30% de pruebas
➢Otras variaciones utilizadas:
•90% de formación, 10% de pruebas
•80% de formación, 20% de pruebas
•60% de formación, 40% de pruebas
➢¡Totalmente inconexo!

¿Por qué evaluar con datos independientes?
•Lasprediccionescorrectasnosonsuficientes:
delocontrario,elalgoritmopodría
simplementememorizarlosdatos.
•Esimportantequeelmodelotengalacapacidad
depredecircorrectamenteinstanciasnunca
antesvistas:¡poderparageneralizar!
•Eviteelsobreajuste:sobreajustededatosde
entrenamiento,conpocapoderde
generalizaciónparadatosdesconocidos(datos
nuevos)
Regresión
Clasificación

Métricas de retención y error
Estimación de rendimiento para el conjunto de pruebas
Comparación entre la etiqueta verdadera y la
predicción: estimación de desempeño
Elrendimientoseevalúacomparandoelvalor
predichoconelvalorrealdelaatributode
destino
Lasmétricasdeerrorseutilizanpararesumirel
rendimientoydifierenentreclasificacióny
regresión

Métricas de retención y error
Tasa de error:proporción de ejemplos ordenados
incorrectamente
•varía entre 0 y 1, con valores cercanos a 0 que
representan modelos mejores
Métricas de error para clasificación (salidas discretas):

Métricas de retención y error
Métricas de error para clasificación (salidas discretas):
Precisión:proporcióndeejemploscorrectamente
clasificados
•Varíaentre0y1,convalorescercanosa1que
representanmodelosmejores
•"Tasadeaciertos"o"Precisióntotal"

Métricas de retención y error
El rendimiento de un clasificador se puede ver con un matriz de
confusión
•Suponiendo un problema con 2 clases posibles, c1 y c2
(clasificación binario)
Métricas de error para clasificación (salidas discretas):
12 ejemplos de clase c1, de los
cuales 11 fueron predichos
correctamente
12 ejemplos de clase c2, de los
cuales 9 fueron predichos
correctamente
Clase predicha
Clase
cierta

Métricas de retención y error
Métricas de error para clasificación (salidas discretas):
El rendimiento de un clasificador se puede ver con un matriz de
confusión
•Suponiendo un problema con 2 clases posibles, c1 y c2
(clasificación binario)
Clase predicha
Clase
cierta
Enproblemasdeclasificación
binario,generalmenteuna
clase(deinterés)sedenota
comoPositivo(+)yelotro
comoNegativo(-),yson
cuantificólosvaloresde:
Verdaderospositivos(VP)
Verdaderosnegativos(VN)
Falsospositivos(FP)
Falsosnegativos(FN)

Métricas de retención y error
El rendimiento de un clasificador se puede ver con un matriz de
confusión
•Suponiendo un problema con 2 clases posibles, c1 y c2
(clasificación binario)
Métricas de error para clasificación (salidas discretas):
Clase predicha
Clase
cierta

Métricas de retención y error
Métricas de error para clasificación (salidas discretas):
El rendimiento de un clasificador se puede ver con un matriz de
confusión
•Suponiendo un problema con 2 clases posibles, c1 y c2
(clasificación binario)
Apartirdelamatrizdeconfusiónpodemosredefinirla
precisiónylatasadeerror
Clase predicha
Clase
cierta

Métricas de retención y error
El rendimiento de un clasificador se puede ver con un matriz de
confusión
•Suponiendo un problema con 2 clases posibles, c1 y c2
(clasificación binario)
A partir de la matriz de confusión podemos redefinir la recisión
y la tasa de error
Métricas de error para clasificación (salidas discretas):
Clase predicha
Clase
cierta
¿Qué tan preciso es este modelo?

Métricas de retención y error
Métricas de error para regresión (salidas continuas):
Error cuadrático medio (MSE): Distancia absoluta media (MAD):

Limitación de precisión
¿Qué tan precisos son los modelos a continuación?
Clase predicha
Clase
cierta
Clase predicha
Clase
cierta

Limitación de precisión
Laprecisiónnoesunabuenamedidaderendimientopara
problemasconclasificaciónsobredatosdesequilibrados
•Esdecir,cuandohayundesequilibrioenelnúmero
deinstanciasporclase
A través de la matriz de confusión, es posible extraer otras
medidas para evaluar los diferentes tipos de errores y
aciertos del modelo de clasificación.
Motivación:
•Enalgunosdominios,esimportantetenermodelos
queminimicenlasnegativos,golpeandola
clasificacióndetodaslasinstanciasque
pertenecenalaclasepositiva.Porejemplo:
prediccióndeldiagnósticodecáncer
•Enotrosdominios,esimportanteevitarfalsos
positivos,soloclasificandocomopositivassololas
instanciasenlasqueelmodelotieneunalto
confianzadeperteneceraestaclase(inclusosino
obtienetodoslospositivo).Ej:predicciónde
cuándomostrarsugerenciasdeconsultas
relacionadasenlosmotoresdebúsqueda

Medidas de desempeño básicas
para problemas de clasificación binaria
Recall: tasa de aciertos de clase positiva
•Proporción de instancias de la clase positiva que el
clasificador identifica correctamente como positivo
•"Tasa de verdaderos positivos", sensibilidad
Clase predicha
Clase
cierta

Medidas de desempeño básicas
para problemas de clasificación binaria
Precisión: fracción de predicciones positivas que son correctas.
•Porcentaje de respuestas correctas entre todas las
instancias clasificadas como positivo, es decir, cuántos
son realmente de la clase positiva
Clase predicha
Clase
cierta

Medidas de desempeño básicas
para problemas de clasificación binaria
Instancias predicho
como positivo
Instancias en clase positiva
Precisión vs. recall

Medidas de desempeño básicas
para problemas de clasificación binaria
Compensación entre precisión y recuperación
•Precisión: precisión del modelo
•Recordar: modelo completo
Dependiendo del dominio, existe interés en enfatizar la minimización
de un tipo específico de error:
Modelo orientado a la precisión: tiene como objetivo minimizar la FP
Sistemas de búsqueda; clasificación de documentos
Modelo orientado al recuerdo: tiene como objetivo minimizar FN
Dominios médicos (p. Ej., Detección de tumores)

Medidas de desempeño básicas
para problemas de clasificación binaria
Compensación entre precisión y recuperación
•Precisión: precisión del modelo
•Recordar: modelo completo
•Por lo general, se combina en una sola medida a través
de una media armónica ponderada: medida F /
puntuación F

Medidas de desempeño básicas
para problemas de clasificación binaria
Clase predicha
Clase
cierta
Especificidad: tasa de aciertos en la clase negativa
•Proporción de instancias de la clase negativa que el
clasificador identifica correctamente como negativo
•"Tasa de verdaderos negativos"
•Tasa de falsos positivos = 1 -Especificidad

Medidas de desempeño básicas
para problemas de clasificación binaria
Compensación entre sensibilidad y especificidad
A es un clasificador perfecto
B es un clasificador aleatorio
C es un clasificador que no cumple con todas las predicciones.

Medidas de desempeño básicas
para problemas de clasificación binaria
Curva ROC (característica de funcionamiento del receptor)
•Compensación entre TFP (f) y TVP (f)
Puntuación AUC (AreaUnderCurve):
Cuanto más grande mejor es el
rendimiento del clasificador

Limitaciones de holdout
Hasta ahora, estamos discutiendo el método de retención.
❖Holdouttienecomoobjetivosepararlosdatosalazaren
equipodeentrenamientoyequipodeprueba,
preferiblementedeformaestratificada.
❖Limitaciones:
➢Puede que no haya suficientes datos para tener una
buena conjuntos de entrenamiento y prueba:
▪Un conjunto de pruebas más grande proporciona
una estimación rendimiento más confiable
▪Un conjunto de formación más grande permite la
iniciación de mejores modelos
➢No le permite evaluar cómo varía el rendimiento para
diferentes combinaciones de instancias utilizadas para
capacitación
▪Es sensible a un eventual "sesgo" del conjunto de
prueba para instancias más fáciles o difíciles de
predecir

Validación cruzada
(Validación cruzada de k-fold)
Propuesta:
•Dividir el conjunto original en k particiones
separadas (pliegues) de tamaño
aproximadamente igual

Validación cruzada
(Validación cruzada de k-fold)
Propuesta:
•Dividirelconjuntooriginalenkparticionesseparadas
(pliegues)detamañoaproximadamenteigual
•Lasinstanciasdeplieguesk-1seutilizanparael
entrenamiento,yelplieguerestante(enazul)para
probar.Esteprocesoserepitekveces:cadalarepetición
deunplieguediferenteseutilizacomoprueba.
•Rendimientofinaldadoporladesviaciónmediay
estándardelosvaloresderendimientoobservado
paraloskequiposdepruebaevaluados

Validación cruzada
(Validación cruzada de k-fold)
Propuesta:
•Dividirelconjuntooriginalenkparticionesseparadas
(pliegues)detamañoaproximadamenteigual
•Lasinstanciasdeplieguesk-1seutilizanparael
entrenamiento,yelplieguerestante(enazul)para
probar.Esteprocesoserepitekveces:cadala
repeticióndeunplieguediferenteseutilizacomo
prueba.
•Rendimientofinaldadoporladesviaciónmediay
estándardelosvaloresderendimientoobservado
paraloskequiposdepruebaevaluados
•k=5ok=10,principalmente,sonvalores
habituales
•Variación:validacióncruzadarepetida
•Repitaelprocesodevalidacióncruzada
dekvecesrveces,calculandoel
finalizarladesviaciónmediayestándar
entrelosvaloresrxkparalamétricade
rendimiento

Validación cruzada
(Validación cruzada de k-fold)
•Enelcasoextremo,conk=n,dondenrepresentael
númerodeinstanciasdisponibleenelconjunto
originaldedatos:validacióncruzadadejaunofuera
•Estrategiahabitualcuandoelnúmerodelas
instanciassonlimitadas

Perfeccionar el modelo, analizar los modelos
y sus errores.
Contenido
•Medición de errores en modelos de ML
•Optimización de parámetros
•Ensamble
•Hands-on

¿Cómo optimizar los parámetros?
Muchosalgoritmosinvolucranlaoptimizacióndehiperparámetros:esnecesarioevaluarcuáleslamejor
combinacióndemúltiplesopciones,anteseligeelmejormodelo.
Estrategiahabitual:¿usodeunsubconjuntodevalidaciónparaoptimizadores?
1-Seinducenvariosmodelosapartirdel
mismoconjuntodeentrenamiento,con
variacionesenlaconfiguraciónde
hiperparámetros

¿Cómo optimizar los parámetros?
Muchosalgoritmosinvolucranlaoptimizacióndehiperparámetros:esnecesarioevaluarcuáleslamejor
combinacióndemúltiplesopciones,anteseligeelmejormodelo.
Estrategiahabitual:¿usodeunsubconjuntodevalidaciónparaoptimizadores?
2-Elconjuntodevalidaciónseutilizapara
evaluarmodelosydeterminarlamejor
configuracióndehiperparámetros(mejor
rendimiento)

¿Cómo optimizar los parámetros?
Muchosalgoritmosinvolucranlaoptimizacióndehiperparámetros:esnecesarioevaluarcuáleslamejor
combinacióndemúltiplesopciones,anteseligeelmejormodelo.
Estrategiahabitual:¿usodeunsubconjuntodevalidaciónparaoptimizadores?
3-Losdatosdecapacitaciónyvalidaciónse
utilizanparainducirlamodelo,utilizandola
mejorconfiguracióndeparámetrosquese
encuentraenelpasoanterior

¿Cómo optimizar los parámetros?
Muchosalgoritmosinvolucranlaoptimizacióndehiperparámetros:esnecesarioevaluarcuáleslamejor
combinacióndemúltiplesopciones,anteseligeelmejormodelo.
Estrategiahabitual:¿usodeunsubconjuntodevalidaciónparaoptimizadores?
4-Elconjuntodedatosdeprueba
(independiente)seutilizaparaestimar
generalizabilidaddelmodeloentrenado

Método de hiperparametrizaciónGRID
Labúsquedadecuadrículaserefiereaunatécnicautilizadapara
identificarloshiperparámetrosóptimosparaunmodelo.Adiferencia
delosparámetros,labúsquedadehiperparámetrosenlosdatosde
entrenamientoesinalcanzable.Comotal,paraencontrarlos
hiperparámetroscorrectos,creamosunmodeloparacadacombinación
dehiperparámetros.Labúsquedaencuadrículaseconsidera,porlo
tanto,unmétododeoptimizacióndehiperparámetrosmuytradicional,
yaquebásicamenteestamos"forzandoalafuerza"atodaslas
combinacionesposibles.Luego,losmodelosseevalúanmediante
validacióncruzada.Elmodeloquecuentaconlamayorprecisiónse
consideranaturalmenteelmejor.

Perfeccionar el modelo, analizar los modelos
y sus errores.
Contenido
•Medición de errores en modelos de ML
•Optimización de parámetros
•Ensamble
•Hands-on

Los ensambles combinan varios modelos de Machine Learning para producir una
única predicción y pueden presentar mejor desempeños que los modelos individuales.
Ensambles de Modelos de ML

La clasificación de los modelos de ensamble se puede abordar desde tres
perspectivas:
•Por el tipo de problema que procuran resolver: subajuste o
sobreajuste.
•Por la manera en la que se entrena el ensamble: paralelos o
secuenciales.
•Por la variedad de modelos en el ensamble: homogéneos o
heterogéneos.
Ensambles: Clasificación

Bagging(bootstrapaggregating) es uno de los métodos más simples de
ensamble. La idea es tomar varios clasificadores simples y entrenar cada
uno con un subconjunto de los datos. Finalmente la predicción para un
ejemplo va a ser:
•El promedio de las predicciones de todos los clasificadores simples en
el caso de un problema de regresión.
•La clase con el mayor número de votos entre todos los clasificadores
en el caso de una clasificación.
Bagging

Bagging

Bagging
Unensamblebasadoenbaggingcrealossubconjuntosdedatosparacadaclasificadorusandoun
métodoconocidocomobootstrapping.Demaneraqueelalgoritmosepuederesumirenlos
siguientespasos:
1.Paracadaunodelosmodelossimples:
a.Creeunsubconjuntodeentrenamientousandounamuestradelconjuntodeentrenamiento
(tomadaaleatoriamenteconreemplazo).Puedeserunporcentajedefinido.
b.Entreneelmodeloconelsubconjuntodedatosmuestreado.
2.Pararealizarinferencia:
Promedieelresultadodetodoslosmodelossiesregression.
Hagavotacióndetodoslosmodelossiesclasificación(escojalamoda).

Bagging
Elbaggingtienelassiguientescaracterísticas:
1.Trataderesolverproblemasdesobreajuste.
2.Enunensambleparalelo,esdecirquecadamodeloesentrenadoindependiente
delotro.
3.Sueleserhomogéneo,esdecirqueseentrenaelmismotipodeclasificadores
simples,aunquenohayunarazónestrictaparanoentrenardiferentes.
4.UnensambledeÁrbolesdeDecisiónusualmentesellamaRandomForest.
5.Enbaggingtambiénsepuedehacersubmuestreodelasvariablesdeentrada;así
lohaceRandomForest.
6.Nofuncionanbienconmodeloslineales.

Boostingengloba a una familia de algoritmos cuya idea general es tomar
modelos sencillos (por lo general árboles de decisión) y mejorar sus
predicciones de manera secuencial.
Para mejorar esas predicciones el algoritmo entrena cada modelo
secuencialmente con todos los datos y, para cada nuevo modelo, se le da
más peso a los datos que no fueron bien clasificados o cuyo error en
regresión sea más alto.
Boosting

Finalmente la predicción será un promedio ponderado de todos los
clasificadores base en el caso de regresión o una votación
ponderada en el caso de clasificación.
A diferencia del bagging, el bosstinges secuencial y dependiente. Es
decir, el modelo en la iteración actual depende de las predicciones
en la iteración anterior.
Boosting

Boosting

Boosting

Perfeccionar el modelo, analizar los modelos
y sus errores.
Contenido
•Medición de errores en modelos de ML
•Optimización de parámetros
•Ensamble
•Hands-on
https://colab.research.google.com/drive/1SKNUT9vjzdThn4eRHMUHKzCmY
WIK5oAt?usp=sharing
Tags