coronelatiliomaximil
0 views
10 slides
Oct 16, 2025
Slide 1 of 10
1
2
3
4
5
6
7
8
9
10
About This Presentation
metricas de clasificacion
Size: 212.83 KB
Language: es
Added: Oct 16, 2025
Slides: 10 pages
Slide Content
Minería de Datos Esp. Ing. Daniela Coman Clase 7 – Métricas de calidad para Clasificación
Métricas de calidad para clasificación Minería de Datos Unidad 4 Minería de Datos con Modelos Supervisados Objetivo de aprendizaje . Utilizar los principales algoritmos de minería de datos para el análisis predictivo de datos.
01. Métricas de calidad Minería de Datos Introducción Minería de datos En el campo de la minería de datos es esencial llevar a cabo evaluaciones del rendimiento de nuestros modelos para saber hasta qué punto estos modelos están llevando a cabo la tarea en cuestión. Transformación En este sentido, se estudiarán numerosas métricas de calidad que permiten evaluar el rendimiento del modelo. Limpieza Dominio Selección Evaluación / Interpretación Clasificación Accuracy ( Exactitud ) Precision ( Precisión o Valor Predictivo Positivo ) Sensibilidad (Recall o Tasa de Verdaderos Positivos ) Especificidad ( Tasa de Verdaderos Negativos ) F1 Score ( Media armónica entre Precisión y Recall ) Regresión MSE ( Mean Squared Error - Error Cuadrático Medio ) RMSE ( Root Mean Squared Error - Raíz del Error Cuadrático Medio ) R2 ( Coeficiente de Determinación - R Cuadrado ) Ing. Esp. Daniela Coman
01. Métricas de calidad para clasificación Los FP y FN se conocen como “Error tipo 1” y “Error tipo 2”, respectivamente. Un error tipo I es diagnosticar embarazo en un hombre, mientras que un error tipo II es no detectarlo en una mujer embarazada. Matriz de confusión Minería de Datos Métricas para clasificación Matriz de confusión Una matriz de confusión permite comprender el rendimiento de un determinado modelo de clasificación. Los términos utilizados en la matriz de confusión son: Verdadero positivo ( VP ): Son los casos positivos, y el modelo los predijo correctamente como casos positivos. Falso positivo ( FP ): Son los casos que no son positivos, pero el modelo predijo como positivos. Este error es de tipo 1 . Verdadero negativo ( VN ): Son los casos negativos y el modelo los predijo correctamente como negativos. Falso negativo ( FN ): Son los casos que en realidad son positivos, pero el modelo ha predicho incorrectamente como casos negativos . Este error es de tipo 2. Positiva Negativa Positiva Negativa VP FP FN VN Realidad Predicción Ing. Esp. Daniela Coman
Los FP y FN se conocen como “Error tipo 1” y “Error tipo 2”, respectivamente. Un error tipo I es diagnosticar embarazo en un hombre, mientras que un error tipo II es no detectarlo en una mujer embarazada. Matriz de confusión Minería de Datos Métricas para clasificación Matriz de confusión ¿Cómo se determina los valores de la matriz de confusion? El conjunto de datos se divided en dos partes: Conjunto de entrenamiento : Permite ajustar los diversos parámetros de los algoritmos para que este aprenda a generalizar los patrones hallados en los datos. Conjunto de prueba: Permite evaluar el desempeño de los algoritmos con datos nuevos. Positiva Negativa Positiva Negativa VP FP FN VN Realidad Predicción Los conjuntos de datos deben tener suficientes instancias para resultados estadísticos significativos, ser representativos del conjunto completo, y preferiblemente con clases balanceadas. A partir del conjunto de prueba se construye la matriz de confusión. 01. Métricas de calidad para clasificación Ing. Esp. Daniela Coman
Accuracy (Exactitud) Mide el rendimiento global, pero puede ser engañosa en conjuntos de datos desbalanceados. Por ejemplo, si el 95% de los datos son de una clase, un modelo que siempre predice esa clase tendrá un accuracy del 95%, pero no es útil. VP+VN n Precision (Precisión) Mide la proporción de predicciones positivas correctas respecto al total de predicciones positivas. Importante cuando el costo de los falsos positivos es alto (por ejemplo, en diagnósticos médicos donde un falso positivo puede causar preocupación innecesaria). MÉTRICAS DE CALIDAD PARA CLASIFICACIÓN Minería de Datos Métricas para clasificación 01. Métricas de calidad para clasificación Ing. Esp. Daniela Coman VP VP+FP
Sensibilidad (Recall) Se enfoca en la clase positiva y mide qué tan bien el modelo identifica los casos positivos. Importante cuando el costo de los falsos negativos es alto (por ejemplo, en detección de fraudes, donde no identificar un fraude puede ser muy costoso). VP VP+ FN Especificidad Se enfoca en la clase negativa y mide qué tan bien el modelo identifica los casos negativos. Es importante cuando el costo de los falsos positivos es alto (por ejemplo, en pruebas médicas, donde diagnosticar incorrectamente a una persona sana como enferma puede llevar a tratamientos innecesarios y costos adicionales). VN FP + VN MÉTRICAS DE CALIDAD PARA CLASIFICACIÓN Minería de Datos Métricas para clasificación 01. Métricas de calidad para clasificación Ing. Esp. Daniela Coman
F1- Score Es una métrica que combina precisión y recall (sensibilidad) en un solo valor, proporcionando un balance entre ambas. Es especialmente útil cuando las clases están desbalanceadas o cuando tanto los falsos positivos como los falsos negativos son importantes. 2 x Precision x Recall Precision + Recall MÉTRICAS DE CALIDAD PARA CLASIFICACIÓN Minería de Datos Métricas para clasificación 01. Métricas de calidad para clasificación Ing. Esp. Daniela Coman
Minería de Datos Métricas para clasificación Matriz de confusión ¿Cómo se determina los valores de la matriz de confusion? Se comparan las predicciones del modelo con los valores reales del conjunto de prueba . Clase positiva (Jugar=Si) Cielo (x1) Humedad (x2) Jugar Soleado Baja Si Soleado Alta No Nublado Baja Si Nublado Baja Si Lluvioso Alta No Lluvioso Alta No Nublado Baja Si Jugar Si Si No Si No Si Si Conjunto de prueba Positiva Negativa VP (3) FP (2) Positiva Negativa FN (1) VN (1) Realidad Predicción Realidad positiva (Si) y predicción positiva (Si) Predicción del modelo 01. Métricas de calidad para clasificación Ing. Esp. Daniela Coman
Minería de Datos Métricas para clasificación Ejemplo. A partir de los datos del ejemplo, calcule e interprete las métricas de calidad estudiadas. Clase positiva (Jugar=Si) Positiva Negativa Positiva 3 2 Negativa 1 1 Realidad Predicción Accuracy = VP+VN = 3+1 =0.57 n 7 Precision = VP = 3 =0.60 VP+FP 3+2 Sensibilidad (Recall) = VP = 3 =0.75 VP+ FN 3+1 Especificidad = VN = 1 =0.33 FP + VN 2+1 F1- Score = 2 x Precision x Recall = 2 x 0.60 x 0.75 = 0.66 Precision + Recall 0.60 + 0.75 El modelo acierta en el 57.14% de las predicciones sobre si se jugará o no el campeonato. Esto indica que tiene un rendimiento moderado, pero hay margen de mejora. De todas las veces que el modelo predice que se jugará el campeonato, el 60% de esas predicciones son correctas. El modelo identifica correctamente el 75% de los casos en los que realmente se juega el campeonato. El modelo identifica correctamente solo el 33.33% de los casos en los que realmente no se juega el campeonato. Un valor del 66.67% sugiere que el modelo tiene un rendimiento moderado 01. Métricas de calidad para clasificación Ing. Esp. Daniela Coman