Business Predictive Analytics
UNIDAD 02
Business Understanding
SEMANA 02
Business Predictive Analytics 1
Agenda
•Terminología Básica
•Áreas del Machine Learning
•Tipos de Variable
•Business Understanding
Business Predictive Analytics 2
Terminología Básica
Business Predictive Analytics 3
Terminología Básica
Business Predictive Analytics 4
Terminología Básica
Business Predictive Analytics
https://learning.oreilly.com/library/view/big-data-fundamentals/9780134291185/ch01.xhtml#ch01lev2sec3
5
Terminología Básica
DATASET
Conjunto de datos que se va a analizar y se le aplicará un algoritmo de machine learning para obtener un modelo. Esta
compuesto por varias columnas de datos, denominadas variables, agrupadas en dos tipos:
•Predictoras o independientes
•Target o dependiente
TARGET
La columna que responde a cierta correlación de las variables independientes y que será el valor a predecir en los
siguientes modelos
PREDICTORAS o FEATURES
Son las columnas que el algoritmo usará para aprender y de esta manera predecir lo mejor posible la target
TRAIN (conjunto de entrenamiento)
Conjunto de filas o “Subset” del dataset empleados para entrenar el algoritmo y generar el modelo
TEST (conjunto de prueba)
Conjunto de filas o “Subset” del dataset reservado, no usado en el entrenamiento, para evaluar que tan buena son las
predicciones, esta evaluación se realiza con diversas
Bum
siné
et
ssri
Pc
rea
ds
ictive Analytics 6
Dataset de entrenamiento
Modelo
entrenado
Algoritmo
fit
Dataset de validación
Etiquetas
predict
Lo que un modelo hace
Fit - Predict
Business Predictive Analytics 7
Realidad
•Siempre tendremos errores
•El modelo tratará de minimizarlos, usando una función de costo o “Loss function”, la cual evalúa la desviación entre las
predicciones realizadas por el modelo y los valores reales de las observaciones utilizadas durante el entrenamiento o
aprendizaje
Recta 2
Y
Sueldo Anual
Recta 1
Años Experiencia
XBusiness Predictive Analytics 8
Overfitting &
Underfitting
Sobreajuste Infraajuste o
desajuste
Business Predictive Analytics 9
Overfitting
Business Predictive Analytics 10
Fuente: https://www.aprendemachinelearning.com/que-es-overfitting-y-underfitting-y-como-solucionarlo/
Underfitting
Business Predictive Analytics 11
Fuente: https://www.aprendemachinelearning.com/que-es-overfitting-y-underfitting-y-como-solucionarlo/
Business Predictive Analytics 12
Sesgo (bias) y Varianza
Business Predictive Analytics 13
Fuente: https://aprendeia.com/2018/11/09/bias-y-varianza-en-machine-learning/
ErrorBias(Sesgo)
El sesgo se refiere al error causado por un modelo para resolver
problemas complejos que es demasiado simplificado, hace
suposiciones significativas y omite relaciones importantes en los
datos.
ErrorVarianza
La varianza es un error causado por un algoritmo demasiado
sensible a las fluctuaciones de los datos, lo que crea un modelo
excesivamente complejo que detecta patrones en los datos que,
en realidad, son pura aleatoriedad.
Sesgo (bias) y Varianza
Business Predictive Analytics 14
Fuente: https://aprendeia.com/2018/11/09/bias-y-varianza-en-machine-learning/
Loquebuscamosesunmodeloquehayaaprendidode
losdatosqueselehanproporcionado(sesgoyerrorde
entrenamientobajos)yqueseacapazdegeneralizar
antenuevosdatos(varianzayerrordetestbajos).Es
decir,unmodeloquenoestéenrégimen
deoverfittingnideunderfitting.
Estrategias en el diseño
Business Predictive Analytics 15
Estrategias en el diseño
Business Predictive Analytics 16
Tipos de Variable
Business Predictive Analytics 17
Variables
Es el conjunto de valores que toma una característica de la
población o muestra que se esta estudiando o analizando.
Conocidos como features
Business Predictive Analytics 18
Tipos de Variables para análisis
CategóricasNuméricas
Business Predictive Analytics 19
Áreas de Machine Learning
Business Predictive Analytics 20
Áreas de Machine Learning
Categórica Contínua
Predecir Segmentar/Reducir
Business Predictive Analytics
18
Business Understanding
Business Predictive Analytics 19
Entendimiento del Negocio
1.Definir el Problema
•Entender el objetivo de negocio del problema a ser resuelto y construir una
definición formal
•Apoyarse en los expertos y defina el objetivo de negocio en base a los entregables
•Identifique los puntos débiles o las áreas objetivos relacionadas al objetivo de
negocio
•Conocer el proceso y las soluciones actuales. Identificar sus fallas y carencias.
1.Evaluar y analizar escenarios
•Evaluar los recursos disponibles inventarios (datos, personal, tiempo, riesgos)
•Discutir los objetivos de negocio, sus supuestos y restricciones
•Documentar e informar riesgos con los recursos, tiempo y presupuesto (planes de
contingencia)
•Comparativa de referencia entre Valoración (proyecto) vs Inversión
2.Definir los objetivos de ML
•Reuniones técnicas detalladas con los analistas, stakeholders, científico de datos,
para mantener la coordinación con el equipo
•Discutir y documentar posibles métodos, algoritmos, técnicas y herramientas
adecuadas para la solución
•Diseñar en alto nivel la arquitectura
•Discuta las integraciones de la solución final con componentes externos
•Discuta los criterios de evaluación o umbrales para las predicciones
3.Plan de Proyecto
•Contemplar todas las fases
•Riesgos, contingencias, recursos, tiempos
•Definir los criterios de éxito para cada fase
Business Predictive Analytics 20
10 preguntas a resolver
1.¿Quién es el cliente y usuario?
2.¿Cuál es el problema de negocio?
3.¿Cuáles son las fuentes de datos?
4.¿Tenemos el dataset correcto y confiable?
5.¿Existen complicaciones éticas y/o legales a considerar?
6.¿Puedes describir tu producto o solución?
7.¿El cliente entiende el modelo de precios?
8.¿Quién y como se venderá la solución?
9.¿Como y quien mantendrá tu solución?
10.¿La solución ahorrará costos o generará ingresos?
Business Predictive Analytics 21
https://www.youtube.com/watch?v=ghw7NbuZU2I&t=2473s