Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining
4,312 views
41 slides
Jun 18, 2013
Slide 1 of 41
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
About This Presentation
This webinar is in Spanish -
El uso de análisis predictivo o minería de datos está en auge. A nivel mundial, cada vez más, las empresas contratan servicios especializados de análisis de información que ayuden a marcar una diferencia con la competencia. Por otro lado, el volumen creciente de ...
This webinar is in Spanish -
El uso de análisis predictivo o minería de datos está en auge. A nivel mundial, cada vez más, las empresas contratan servicios especializados de análisis de información que ayuden a marcar una diferencia con la competencia. Por otro lado, el volumen creciente de data así como su naturaleza cambiante y compleja, hacen inmanejable el proceso de análisis de forma tradicional y está siendo necesario incorporar tecnología y consultoría de punta, basada en el uso de modelos matemáticos avanzados. Pentaho Corporation y Matrix CPM Solutions los invita a participar en el seminario en línea “Análisis Predictivo con Pentaho Data Mining”, en donde se revisarán las grandes oportunidades que existen para su uso y aplicación.
Presentación
+ Analítica Predictiva (PA):
+ ¿Qué?, ¿Dónde?, ¿Cuándo?
+ Realidades Cambiantes: PA y Big
Data
+ El“Data Science Team”
+ Tendencias, mitos y realidades
« PA, Big Data y Pentaho
+ Weka-R
+ Integración (PDI)
+ Un caso en desarrollo: predicción de
Churn
+ Dos casos de estudio = |
+ Arquitectura de un proyecto
« Pentaho + Matrix DataLabs
Matrix
DATA LABS
Presentador
Jose L. Camara
Channel Manager LATAM / Pentaho
Jose has more than 15 years of experience in sales, distribution, consulting
and support of Business Intelligence and Data Integration Solutions. Jose
has been involved in different types of projects like Data Warehouse, Data
Cleansing, Data Governance, Data Consolidation, Master Data
Management, OLAP Analysis, Predictive Analysis and Business
Intelligence with customers such as General Electric, Merrill Lynch, Nike,
BBVA Bancomer, Santander, Marti, Elektra, Banco de Costa Rica, Cemex,
Telmex, Lime Communications and some others providing hundreds of
thousand of dollars in savings during the implementation of these projects.
Currently José works for Pentaho as a Channel Manager for Latin America
Carenne es Científica de Datos e investigadora en matemática estadística.
Luego de su doctorado en la Universidad de Orsay (Francia), trabajó
durante 15 afios en el Instituto Venezolano de Investigaciones Científicas y
es Coordinadora de la maestría de Modelos Aleatorios de la Universidad
Central de Venezuela. Combina sus intereses académicos con desarrollo
de aplicaciones en petróleo, salud, finanzas y telecomunicaciones. Es
experta en minería de datos y el uso de R y Weka. En 2011 fue
galardonada con el premio de la Fundación Empresas Polar,
una de las distinciones científicas más importantes de Venezuela
Carlos tiene más de 20 años de experiencia en consultaria de desarrollo
de sistemas de información especializados en el área de Inteligencia de
Negocios. Se ha desempeñado como consultor, líder técnico, gerente de
proyectos y ventas. Posee más de 50 proyectos implantados en 7 paises
y en áreas que incluyen ventas, finanzas, consolidación y planificación
financiera, logística e inventarios. Con muchas horas de cursos dictados
en su haber, en los 90 hizo la labor de evangelización de BI en Latinoamérica
y ha sido una gran promotor de Pentaho en la región. Es un emprendedor
de proyectos relacionados con BI. Carenne Ludeña Carlos Urgelles
DATA SCIENTIST DATA SCIENTIST
Estas realidades cambiantes ponen a prueba las herramientas clasicas de BI
DATA IS DOUBLING
“| EVERY TWO YEARS 80%
35 OF ENTERPRISE DATAIS
30 UNSTRUCTURED
2B 25
20
15
à ENTERPRISES TO MANAGE
50X MORE DATA
2005 2010 2015 2020 IN NEXT DECADE
0
“The proliferation of data has caused enterprises to need new tools and processes to collect data (both structured and
unstructured) and to store, manage, manipulate, analyze, aggregate, combine, and integrate data. "
Veracidad
Se requiere poder extraer, procesar
y almacenar grandes volúmenes de datos
en tiempo real
Aplicaciones de algoritmos de alta demanda
de tiempo y memoria
Imperativo: mecanismos eficientes
para pre-procesamiento y análisis de datos
Nuevas tecnologías de extracción, capacidad
de almacenamiento y análisis implican nuevas
tendencias en el manejo de información
BIG DATA / NUEVAS TENDENCIAS
Variedad y volumen:
Bases de datos no estructuradas
Web mining x N\
Crawling de redes sociales =
ee Aut m
Text mining
Spatial data mining
SEIT —
ee )
DE MINERIA DE DATOS AL DATA SCIENCE TEAM
Matrix
DATA LABS
(O) pentaho
Ahora es un trabajo de equipo
Manejo, extracción y análisis de la información, tarea
compleja
Se requiere de especialistas capaces de trabajar en
conjunto
Tendencia de grandes empresas y empresas de Bl
alrededor del mundo
Data Science Team (DST)
Ingenieros de datos (manejo y extracción
de información)
Analistas de datos
Estadísticos
Expertos en fraude y calidad de datos
No es siempre posible crear un DST. Opciones:
«Tercerización
«Consultoría
ANALITICA PREDICTIVA EN
CIFRAS
Empresas líderes y su relación con Big Data
Fuente: Estudio Aberdeen 2013
Keeping Up with Customers — Dynamic
Beh r Profiles
Bestin Class industry Average Laggard
to optimize dgtal experience
\berdeen Group. December 2012
Los líderes aumentan su tendencia a seguirlo siendo por su incremento
en el uso de habilidades asociadas al uso inteligente de la inform ación.
Hug a Geek- State of IT/Marketing Predictive Value — Best-in-Class
Alignment Adoption of Data Analytics Technologies
ont Clas Inn Average Low for Marketing
‘State of Marketing/ IT Alignment
Los lideres invierten mas en tecnologia y los que invierten mas son lideres.
La mayor inversion de las empresas lideres es en Analitica Predictiva.
Median Spending per company
on Big Data in 2012- by country
Tota!
United States
Inversion baja,
pero alto impact
Percentage of Companies whose Big
Data initiatives have
i
Es interesante pero demasiado
costoso para mi empresa
Para poder hacer analitica predictiva
o minería de datos es necesario invertir
en la compra de software
especializado
Es necesario contar con personal
calificado y entrenado y mi empresa
no puede costear este gasto
El tipo de información que se obtiene
de la aplicación de este tipo de técnicas
la sabe de todos modos el que
“sabe del negocio”
En conclusión: no vale la pena
MITOS
REALIDADES
Existen “soluciones a la medida”.
+ Una intervención puntual puede
resolver un problema importante
La inversión en software depende de
las necesidades de la empresa
+ Pueden implementarse
soluciones “llave en mano”
La instalación de DST es un proceso
gradual y no es necesario en todos los
casos
“El que sabe del negocio” tiene una
visión intuitiva importante. Sin embargo,
esta información es:
+ Intransferible y no automatizable
+ Ineficiente al aumentar el volumen
del negocio
+ Incompleta
Uso inteligente de la información= más
y mejores negocios
Apoyo en todo el proceso de exploración y construcción de modelos
Pre-procesamiento de datos
Evaluación y comparación estadística de modelos
Exploración gráfica de datos e interfaces gráficas para visualización y comparación de modelos
Herramientas y Algoritmos
69 (y aumentando) herramientas (filtros) para pre-procesamiento
118 (y aumentando) algoritmos de dlasificación/regresión
11 (y aumentando) algoritmos de agrupamiento
18 evaluadores para atributos más informativos+ 12 algoritmos de búsqueda
6 algoritmos de reglas de asociación
Interfaces
Explorer - exploración, visualización y procesamiento de data. Construcción, evalución
preliminar y exportación de modelos.
Experimenter - Comparación en gran escala de algoritmos usando pruebas estadísticas
para determinación de diferencias significativas en modelos.
KnowledgeFlow - minería de datos como procesos. Exportación de modelos/procesos.
Integración a la suite Pentaho
Matrix 5 pertcho
DATA
MINING
Ze BIG DATA Y PENTAHO
Incorporación de información en formato no tradicional y manejo eficiente de grandes
volúmenes de datos: bases de datos no estructuradas integradas a Pentaho
Algunos ejemplos
Extracción grandes volúmenes (Teras) Haddop/ Hive/ Pentaho
cloudera &
HD [HADAPT] VER rhea E @pentaho
Web mining y crawling de redes sociales: extracción y almacenamiento en NoSQL
4 c Hortonworks
. OmongoDB
gen 4 2) pentaho
ehDataStax Cassandra
HBASE
Matrix @pattaho =>
J 2 BIG DATA, PDM, R, PENTAHO BA
cloudera MAPR om Fr - à
(WEKA) Æ ea
Lt e
Procesamiento
Big Data /
| Integración
de procesos
en PDI
EXTRACCION+PROCESAMIENTO+REPORTING
Gerencia para la toma
de decisiones
Visualización
y exploración
Tableros/indices
Seguimiento
interactivo del negocio
Uso versatil de la informacion
Facilidad
Velocidad
LE Flexibilidad
Extracción
Análisis/predicción/integración
Exploración
Descubrimiento
Modelaje y predicción
UN EJEMPLO EN DESARROLLO
CALCULO DE PROBABILIDADES DE
CANCELACION o CHURN
QUE ES? ¿COSTO
¡BENEFICIO?
El Churn o cancelación La cancelación de un
de clientes, se refiere a cliente siempre genera
la proporción pérdidas.
o tasa de clientes que Es mas difícil y costoso
se van o dejan al conseguir un nuevo
proveedor cliente que retenerlo.
de un servicio durante
un horizonte de tiempo
Modelos de cancelación de clientes (Churn)
Cálculo de probabilidades de cancelación: identificación de clientes dificiles/mejoria en tasas de retenciön/atenciön
individualizada.
Modelos adaptados por categorías o segmentos de clientes para mejorar capacidad predictiva
UN EJEMPLO EN DESARROLLO
CALCULO DE PROBABILIDADES DE
CANCELACION o CHURN
Recuperables/ Conocer cuáles son A veces es relevante
No recuperables las variables que más conocer las redes
influyen de interacción de clientes
Probabilidad
de recuperación Si probabilidad de
cancelación alta: cuál == =
es la probabilidad de -
cancelación en 3
PA | a Segmentación de clientes: información valiosa sub-utilizada
+ Datos históricos de fidelidad y consumo (RFM).
+ ¿Quién compra qué y cómo paga?
' + Campañas dirigidas/Nuevos productos
Detección de fraude: problema importante
con significativas implicaciones económicas y sociales
+ Detección de valores o patrones anómalos
« Estrategias sofisticadas y variadas: dificil con Big Data
MATTIX pencho
SEGMENTACION DE CLIENTES
¡DESAFÍO ¡METODOLOGÍA
Preparando la Data
Muestreo inicial de la data:
Pentaho + hadoop
Exploración-determinación de
variables informativas: WEKA
Construcción de un modelo de
segmentación inicial: WEKA
Construye lo el modelo.
Segmentación: k-medias (algoritmo
paralelizble usando hadoop map/
reducer)
Ajuste y selección del mejor modelo:
WEKA
Determinar la vigencia de planes
pre-existentes.
Mejorar el rendimiento del proceso
de mercadeolventas: mercadeo
dirigido.
Detectar nuevas necesidades
y targets
Proponer nuevos productos
u oportunidades de negocio
Exportando el modelo: Knowledge
Flow plugins
Aplicando el modelo a toda la data:
PDI
MATTIX pencho
SEGMENTACION DE CLIENTES
Segmentación automatizada
Datos futuros Exploración: datos pasados y
Aplicación de los modelos presentes
sobre toda la base de
datos Descubrir relaciones entre
variables o entre individuos.
nn BR Creaciön del - Determinar segmentos que
Modelo base respondan a las expectativas
(knowledge flow) del negocio.
Descubrir cuáles son las
variables que determinan
ciertos comportamientos
Patrones de consumo
de 76% de clientes deben
canalizarse mejor. No hay
planes adecuados para
este grupo de clientes
mayoritario
Pentaho/Weka
Integración del segmentador al sistema de manejo de clientes permite
utilizar las herramientas de Bl con esta nueva variable
Soluciones
* Anälisis de probabilidades de clasificación
permite detectar casos confusos
+ Anélisis de planes existentes Diseñar nuevas políticas de mercadeo y ventas
con segmentos identificados Mejora en eficiencia: mayor adaptabilidad a las necesidades reales de
clientes
Matrix Arsch en ==
DATA LABS
DETECCION DE FRAUDE
¡A CLIENTE DESAC
Empresa de distribución masiva
Luego de un cambio de
plataforma tecnológica ocurrida
a final de abril 2007, la
empresa matriz sospecha que
una de las revendedoras está
“maquillando" los números.
Data: relaciones de ventas de
empresas revendedoras (varios
millones de clientes) a su
empresa matriz,
| Datos diarios de ventas
| Comportamiento estacional
marcado:
Sin embargo dado el gran
volumen de datos se hace
difícil observar anomalías que
sólo se intuyen por una pérdida
enla masa global de las
ganancias reportadas.
Pentaho Data Mining (WEKA) Dashboards, reporting ete 7
Exploraciön & preparaciön de data
Construir, probar y comparar modelos
Pentaho Data Integration | |
Combinar/preparar data
Construir & guardar modelos de DM Repositorio ETL
de transformación
Incluir modelos para Scoring & actualización
del DW con predicciones Data warehouse
Matrix pencho
DAT
ARQUITECTURA DE UN PROYECTO
Creación del repositorio: Semana 0
. . Kick off à “wi Data Quality
Pre-procesamiento/calidad de data
Y
Análisis descriptivo y predictivo: =
Semana 1
Pre-procesamiento para análisis (grandes Pre-procesamiento Análisis Descriptivo y Predictivo
volúmenes)
4
Análisis descriptivo/reducción de dimensiones r
| Semana 2
Creación y evaluación de modelos Creación Modelo — Evaluación Modelo Exportación/Entregables
Agregación y/o selección de modelos y
Creación de modelos exportables Pentaho y/o Semana 3
elaboración entregables Reportes y Dahboards Ajustes
Creación reportes y dashboards en Pentaho y
Ajustes Semana 4 — Semana N
Equipo multifacético
+ Analitica + Bl
Big Data +PA
* Científicos de datos
Web and text mining
Herramienta flexible
Pentaho Business Analytics
Pentaho Data Mining
SOLUCIONES A LA MEDIDA
SOPORTE
CONSULTORÍA SOLUCIONES INTEGRADAS
CAPACITACIÓN PENTAHO + BD + DM ENS OUTSOURCING SAAS
Matrix
DATA LABS
Matrix Data Labs , unidad de negocios de Matrix
CPM Solutions, nace en 2012 como una iniciativa
de Carenne, Carlos y sus equipos
de trabajo, convencidos del gran potencial
del desarrollo de esta área en la región.
Matrix Data Labs desarrolla proyectos con
tecnología de estado del arte en el área
de analítica predictiva, Big Data e integración
de información.
e Empresa fundada en Diciembre de 2005
* Con oficinas en Venezuela y Colombia
.
Amplia experiencia en el desarrollo de modelos
de Inteligencia de Negocios.
° “Pentaho Certified Partner” desde Enero 2007.
“Pentaho Gold Reseller” Febrero 2009. “Latin
American Partner of the Year 2008”. “Pentaho
Global Partner Award 2011; Reseller of the
Year”
* — “Infobright System Integrator & Reseller
Partner” desde Abril 2009
e
Cuenta con experiencia en soporte, consultoria
y capacitación en USA, México, República
Dominicana, Colombia, Venezuela, Bolivia,
Perú, Ecuador, El Salvador y Chile.