Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

4,312 views 41 slides Jun 18, 2013
Slide 1
Slide 1 of 41
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41

About This Presentation

This webinar is in Spanish -
El uso de análisis predictivo o minería de datos está en auge. A nivel mundial, cada vez más, las empresas contratan servicios especializados de análisis de información que ayuden a marcar una diferencia con la competencia. Por otro lado, el volumen creciente de ...


Slide Content

Matrix

Análisis Predictivo con Pentaho Data Mining

Buscando modelos mas alla de la analitica

© pentaho

AGENDA

Presentación
+ Analítica Predictiva (PA):
+ ¿Qué?, ¿Dónde?, ¿Cuándo?
+ Realidades Cambiantes: PA y Big
Data
+ El“Data Science Team”
+ Tendencias, mitos y realidades
« PA, Big Data y Pentaho
+ Weka-R
+ Integración (PDI)
+ Un caso en desarrollo: predicción de
Churn
+ Dos casos de estudio = |
+ Arquitectura de un proyecto
« Pentaho + Matrix DataLabs

Matrix

DATA LABS

Presentador

Jose L. Camara
Channel Manager LATAM / Pentaho

Jose has more than 15 years of experience in sales, distribution, consulting
and support of Business Intelligence and Data Integration Solutions. Jose
has been involved in different types of projects like Data Warehouse, Data
Cleansing, Data Governance, Data Consolidation, Master Data
Management, OLAP Analysis, Predictive Analysis and Business
Intelligence with customers such as General Electric, Merrill Lynch, Nike,
BBVA Bancomer, Santander, Marti, Elektra, Banco de Costa Rica, Cemex,
Telmex, Lime Communications and some others providing hundreds of
thousand of dollars in savings during the implementation of these projects.
Currently José works for Pentaho as a Channel Manager for Latin America

Carenne es Científica de Datos e investigadora en matemática estadística.
Luego de su doctorado en la Universidad de Orsay (Francia), trabajó
durante 15 afios en el Instituto Venezolano de Investigaciones Científicas y
es Coordinadora de la maestría de Modelos Aleatorios de la Universidad
Central de Venezuela. Combina sus intereses académicos con desarrollo
de aplicaciones en petróleo, salud, finanzas y telecomunicaciones. Es
experta en minería de datos y el uso de R y Weka. En 2011 fue
galardonada con el premio de la Fundación Empresas Polar,

una de las distinciones científicas más importantes de Venezuela

Carlos tiene más de 20 años de experiencia en consultaria de desarrollo
de sistemas de información especializados en el área de Inteligencia de
Negocios. Se ha desempeñado como consultor, líder técnico, gerente de
proyectos y ventas. Posee más de 50 proyectos implantados en 7 paises

y en áreas que incluyen ventas, finanzas, consolidación y planificación
financiera, logística e inventarios. Con muchas horas de cursos dictados

en su haber, en los 90 hizo la labor de evangelización de BI en Latinoamérica
y ha sido una gran promotor de Pentaho en la región. Es un emprendedor

de proyectos relacionados con BI. Carenne Ludeña Carlos Urgelles
DATA SCIENTIST DATA SCIENTIST

Matrix © pentaho

DATA US

ANALITICA PREDICTIVA
¿QUÉ, CUANDO Y DONDE?

Predicting Quality
Outcomes Through
Data ng

Caterpillar Inc. reduced rotating
machinery ani y nearly 45,

Es un término que engloba percent, thanks to improvents delivered

una serie de técnicas, algoritmos bydata-mining methods.

y procedimientos para la extracción

de patrones subyacentes en la data.

Estos patrones permiten descubrir,

predecir, entender y explicar.

Matrix pencho

APLICACIONES

Campañas dirigidas

Mercadeo Bector E-gobierno

püblico

Banca
Y

Modelos de riesgo
aseguradoras

Detección de fraude

Energía Producción/Distribución

APLICACIO

A

Historias automatizadas chien

Petróleo

Control automatizado Atención individualizada

Matrix ©) pentaho

DATA LABS

REALIDADES CAMBIANTES

Cada dia hay mas datos
Se requieren respuestas en tiempo real

Muchos negocios: atención
individualizada del clientes

* Control de Calidad de datos

Mercados competidos: atracción de
nuevos clientes y diseño de nuevos
productos

Tecnología que evoluciona rápidamente
En conclusión: ¡más y más rápido!

Matrix © pentaho

DATA LABS

BA en un punto de inflexión

Estas realidades cambiantes ponen a prueba las herramientas clasicas de BI

DATA IS DOUBLING

“| EVERY TWO YEARS 80%

35 OF ENTERPRISE DATAIS

30 UNSTRUCTURED
2B 25

20

15

à ENTERPRISES TO MANAGE

50X MORE DATA
2005 2010 2015 2020 IN NEXT DECADE
0

“The proliferation of data has caused enterprises to need new tools and processes to collect data (both structured and
unstructured) and to store, manage, manipulate, analyze, aggregate, combine, and integrate data. "

Matrix © niche +

DAT,

Fenómeno Big Data:

Volumen

Variedad

Velocidad

Veracidad
Se requiere poder extraer, procesar
y almacenar grandes volúmenes de datos
en tiempo real
Aplicaciones de algoritmos de alta demanda
de tiempo y memoria
Imperativo: mecanismos eficientes
para pre-procesamiento y análisis de datos
Nuevas tecnologías de extracción, capacidad
de almacenamiento y análisis implican nuevas
tendencias en el manejo de información

BIG DATA / NUEVAS TENDENCIAS

Variedad y volumen:

Bases de datos no estructuradas

Web mining x N\
Crawling de redes sociales =
ee Aut m

Text mining

Spatial data mining

SEIT —

ee )

DE MINERIA DE DATOS AL DATA SCIENCE TEAM

Matrix

DATA LABS

(O) pentaho

Ahora es un trabajo de equipo

Manejo, extracción y análisis de la información, tarea
compleja

Se requiere de especialistas capaces de trabajar en
conjunto

Tendencia de grandes empresas y empresas de Bl
alrededor del mundo

Data Science Team (DST)

Ingenieros de datos (manejo y extracción
de información)

Analistas de datos
Estadísticos
Expertos en fraude y calidad de datos

No es siempre posible crear un DST. Opciones:

«Tercerización
«Consultoría

ANALITICA PREDICTIVA EN

CIFRAS

Empresas líderes y su relación con Big Data

Fuente: Estudio Aberdeen 2013

Keeping Up with Customers — Dynamic
Beh r Profiles

Bestin Class industry Average Laggard

to optimize dgtal experience

\berdeen Group. December 2012

Los líderes aumentan su tendencia a seguirlo siendo por su incremento
en el uso de habilidades asociadas al uso inteligente de la inform ación.

Matrix © pentaho

DA

ANALITICA PREDICTIVA EN

CIFRA

Pedictive Analytics

Fuente: Estudio Aberdeen 2013

Dynamic Offers Drive Perfomance

Best in Class Industry Average Laggard

50%

3
Ë
&

LAS EMPRESAS LÍDERES Y ADOPCIÓN DE

ESTRATEGIAS DE AP

Hug a Geek- State of IT/Marketing Predictive Value — Best-in-Class
Alignment Adoption of Data Analytics Technologies
ont Clas Inn Average Low for Marketing

‘State of Marketing/ IT Alignment

Los lideres invierten mas en tecnologia y los que invierten mas son lideres.
La mayor inversion de las empresas lideres es en Analitica Predictiva.

. =U
Matrix © pentaho =

CIFRAS EN AMERICA LATINA

Inversión en BD/PA a nivel

mundial

Regional interest @

Region | City

Median Spending per company
on Big Data in 2012- by country

Tota!
United States

Inversion baja,
pero alto impact

Percentage of Companies whose Big
Data initiatives have

i

Es interesante pero demasiado
costoso para mi empresa

Para poder hacer analitica predictiva

o minería de datos es necesario invertir
en la compra de software
especializado

Es necesario contar con personal
calificado y entrenado y mi empresa
no puede costear este gasto

El tipo de información que se obtiene
de la aplicación de este tipo de técnicas
la sabe de todos modos el que
“sabe del negocio”

En conclusión: no vale la pena

MITOS

REALIDADES

Existen “soluciones a la medida”.
+ Una intervención puntual puede
resolver un problema importante
La inversión en software depende de
las necesidades de la empresa
+ Pueden implementarse
soluciones “llave en mano”
La instalación de DST es un proceso
gradual y no es necesario en todos los
casos
“El que sabe del negocio” tiene una
visión intuitiva importante. Sin embargo,
esta información es:
+ Intransferible y no automatizable
+ Ineficiente al aumentar el volumen
del negocio
+ Incompleta
Uso inteligente de la información= más
y mejores negocios

Data Mining, Big Data y Pentaho

© pentaho

Apoyo en todo el proceso de exploración y construcción de modelos

Pre-procesamiento de datos

Evaluación y comparación estadística de modelos

Exploración gráfica de datos e interfaces gráficas para visualización y comparación de modelos
Herramientas y Algoritmos

69 (y aumentando) herramientas (filtros) para pre-procesamiento

118 (y aumentando) algoritmos de dlasificación/regresión

11 (y aumentando) algoritmos de agrupamiento

18 evaluadores para atributos más informativos+ 12 algoritmos de búsqueda
6 algoritmos de reglas de asociación

Interfaces
Explorer - exploración, visualización y procesamiento de data. Construcción, evalución
preliminar y exportación de modelos.

Experimenter - Comparación en gran escala de algoritmos usando pruebas estadísticas
para determinación de diferencias significativas en modelos.

KnowledgeFlow - minería de datos como procesos. Exportación de modelos/procesos.
Integración a la suite Pentaho

Matrix 5 pertcho

DATA
MINING

Ze BIG DATA Y PENTAHO

Incorporación de información en formato no tradicional y manejo eficiente de grandes

volúmenes de datos: bases de datos no estructuradas integradas a Pentaho
Algunos ejemplos

Extracción grandes volúmenes (Teras) Haddop/ Hive/ Pentaho
cloudera &

HD [HADAPT] VER rhea E @pentaho

Web mining y crawling de redes sociales: extracción y almacenamiento en NoSQL

4 c Hortonworks

. OmongoDB

gen 4 2) pentaho

ehDataStax Cassandra

HBASE

Matrix @pattaho =>

J 2 BIG DATA, PDM, R, PENTAHO BA

cloudera MAPR om Fr - à
(WEKA) Æ ea
Lt e

Procesamiento

Big Data /

| Integración

de procesos
en PDI

EXTRACCION+PROCESAMIENTO+REPORTING

Gerencia para la toma

de decisiones
Visualización
y exploración
Tableros/indices
Seguimiento
interactivo del negocio

Uso versatil de la informacion
Facilidad
Velocidad

LE Flexibilidad

Extracción

Análisis/predicción/integración
Exploración
Descubrimiento
Modelaje y predicción

UN EJEMPLO EN DESARROLLO

CALCULO DE PROBABILIDADES DE
CANCELACION o CHURN

QUE ES? ¿COSTO

¡BENEFICIO?
El Churn o cancelación La cancelación de un
de clientes, se refiere a cliente siempre genera
la proporción pérdidas.
o tasa de clientes que Es mas difícil y costoso
se van o dejan al conseguir un nuevo

proveedor cliente que retenerlo.
de un servicio durante
un horizonte de tiempo

© determinado.

Modelos de cancelación de clientes (Churn)
Cálculo de probabilidades de cancelación: identificación de clientes dificiles/mejoria en tasas de retenciön/atenciön
individualizada.

Modelos adaptados por categorías o segmentos de clientes para mejorar capacidad predictiva

UN EJEMPLO EN DESARROLLO
CALCULO DE PROBABILIDADES DE
CANCELACION o CHURN

Recuperables/ Conocer cuáles son A veces es relevante
No recuperables las variables que más conocer las redes
influyen de interacción de clientes

Probabilidad

de recuperación Si probabilidad de

cancelación alta: cuál == =
es la probabilidad de -
cancelación en 3

meses o 6 meses À =
i

| ni

Matrix © pentaho

DATA LABS

UN EJEMPLO EN DESARROLLO
CALCULO DE PROBABILIDADES DE

CANCELACION o CHURN

Exploración: integración

Pentaho/Weka/R = —
Esquema modular J
Mejor modelo Análisis
A : Exploratio a
Segmentación previa < Si
a-

Analisis supervivencia

Análisis redes

=. 5

Modelaje

Matrix pencho

Analitica Predictiva
Casos de estudio

© pentaho

CASOS DE ESTUDIO

PA | a Segmentación de clientes: información valiosa sub-utilizada
+ Datos históricos de fidelidad y consumo (RFM).
+ ¿Quién compra qué y cómo paga?
' + Campañas dirigidas/Nuevos productos

Detección de fraude: problema importante
con significativas implicaciones económicas y sociales
+ Detección de valores o patrones anómalos
« Estrategias sofisticadas y variadas: dificil con Big Data

MATTIX pencho

SEGMENTACION DE CLIENTES

¡DESAFÍO ¡METODOLOGÍA
Preparando la Data

Muestreo inicial de la data:

Pentaho + hadoop
Exploración-determinación de
variables informativas: WEKA
Construcción de un modelo de
segmentación inicial: WEKA
Construye lo el modelo.
Segmentación: k-medias (algoritmo
paralelizble usando hadoop map/
reducer)

Ajuste y selección del mejor modelo:
WEKA

Determinar la vigencia de planes
pre-existentes.

Mejorar el rendimiento del proceso
de mercadeolventas: mercadeo
dirigido.

Detectar nuevas necesidades
y targets

Proponer nuevos productos
u oportunidades de negocio

Exportando el modelo: Knowledge
Flow plugins

Aplicando el modelo a toda la data:
PDI

MATTIX pencho

SEGMENTACION DE CLIENTES

Segmentación automatizada
Datos futuros Exploración: datos pasados y

Aplicación de los modelos presentes
sobre toda la base de

datos Descubrir relaciones entre

variables o entre individuos.

nn BR Creaciön del - Determinar segmentos que

Modelo base respondan a las expectativas
(knowledge flow) del negocio.

Descubrir cuáles son las
variables que determinan
ciertos comportamientos

Construcción de modelos de

E Integración segmentación apropiados
modelos

Matrix © pentaho

SEGMENTACION DE CLIENTES

Analisis y conclusiones

Patrones de consumo
de 76% de clientes deben
canalizarse mejor. No hay

planes adecuados para
este grupo de clientes
mayoritario

Pentaho/Weka

Integración del segmentador al sistema de manejo de clientes permite
utilizar las herramientas de Bl con esta nueva variable

Soluciones

* Anälisis de probabilidades de clasificación

permite detectar casos confusos

+ Anélisis de planes existentes Diseñar nuevas políticas de mercadeo y ventas

con segmentos identificados Mejora en eficiencia: mayor adaptabilidad a las necesidades reales de
clientes

Matrix Arsch en ==

DATA LABS

DETECCION DE FRAUDE

¡A CLIENTE DESAC

Empresa de distribución masiva

Luego de un cambio de
plataforma tecnológica ocurrida
a final de abril 2007, la
empresa matriz sospecha que
una de las revendedoras está
“maquillando" los números.

Data: relaciones de ventas de
empresas revendedoras (varios
millones de clientes) a su
empresa matriz,

| Datos diarios de ventas
| Comportamiento estacional
marcado:

Sin embargo dado el gran
volumen de datos se hace
difícil observar anomalías que
sólo se intuyen por una pérdida
enla masa global de las
ganancias reportadas.

| Variaciones interdiarias
Variaciones trimestrales
Tendencia creciente anual

Matrix pencho

Esquema PENTAHO-R == 3

reer 4 il
Evaluación del Î ju ule Ih

problema:

comprensiön del

mecanismo 7 u

de fraude y estimación (TEMES aes Exploración y creación de
de pérdidas una transformación

apropiada de los datos
para determinación
cuantitativa de fraude

Diseño de y th
. modelos

DETECCION DE FRAUDE

Analisis y conclusiones

E anta ld qd 4

Soluciones Pentaho/R
Fraude ocasionado por eliminación de

valores que sobrepasan un cierto umbral,

Solución a la medida

El ajuste monetario debido al

Las pérdidas estimadas se basan en la reconocimiento del fraude fue significativo.

relación entre las ganancias diarias y la
mediana.

MATTIX pencho e =>

DA

Arquitectura de un proyecto

Matrix © pentaho

ARQUITECTURA PENTAHO DATA MINING

Servidor Pentaho BA

Pentaho Data Mining (WEKA) Dashboards, reporting ete 7

Exploraciön & preparaciön de data
Construir, probar y comparar modelos

Pentaho Data Integration | |
Combinar/preparar data
Construir & guardar modelos de DM Repositorio ETL
de transformación

Incluir modelos para Scoring & actualización
del DW con predicciones Data warehouse

Matrix pencho

DAT

ARQUITECTURA DE UN PROYECTO

Creación del repositorio: Semana 0
. . Kick off à “wi Data Quality
Pre-procesamiento/calidad de data
Y
Análisis descriptivo y predictivo: =
Semana 1
Pre-procesamiento para análisis (grandes Pre-procesamiento Análisis Descriptivo y Predictivo
volúmenes)
4
Análisis descriptivo/reducción de dimensiones r
| Semana 2
Creación y evaluación de modelos Creación Modelo — Evaluación Modelo Exportación/Entregables
Agregación y/o selección de modelos y
Creación de modelos exportables Pentaho y/o Semana 3
elaboración entregables Reportes y Dahboards Ajustes
Creación reportes y dashboards en Pentaho y
Ajustes Semana 4 — Semana N

Análisis de efectividad Análisis de Efectividad

Matrix © pentaho . EG

Pentaho
+

Matrix Data Labs

© pentaho

Matrix ®

DATA LABS

Equipo multifacético
+ Analitica + Bl
Big Data +PA
* Científicos de datos
Web and text mining

Herramienta flexible
Pentaho Business Analytics

Pentaho Data Mining

SOLUCIONES A LA MEDIDA
SOPORTE
CONSULTORÍA SOLUCIONES INTEGRADAS
CAPACITACIÓN PENTAHO + BD + DM ENS OUTSOURCING SAAS

Matrix

DATA LABS

Matrix Data Labs , unidad de negocios de Matrix
CPM Solutions, nace en 2012 como una iniciativa
de Carenne, Carlos y sus equipos
de trabajo, convencidos del gran potencial
del desarrollo de esta área en la región.
Matrix Data Labs desarrolla proyectos con
tecnología de estado del arte en el área
de analítica predictiva, Big Data e integración
de información.

Matrix © pentaho

DATA LABS

MATRIX CPM SOLUTION

e Empresa fundada en Diciembre de 2005
* Con oficinas en Venezuela y Colombia
.

Amplia experiencia en el desarrollo de modelos
de Inteligencia de Negocios.

° “Pentaho Certified Partner” desde Enero 2007.
“Pentaho Gold Reseller” Febrero 2009. “Latin
American Partner of the Year 2008”. “Pentaho
Global Partner Award 2011; Reseller of the

Year”

* — “Infobright System Integrator & Reseller
Partner” desde Abril 2009

e

Cuenta con experiencia en soporte, consultoria
y capacitación en USA, México, República
Dominicana, Colombia, Venezuela, Bolivia,
Perú, Ecuador, El Salvador y Chile.

Matrix 5 pertcho

DATA LABS

© GRACIAS

www.matrixcpmsolutions.com Carenne Ludeña [email protected]
[email protected] Carlos Urgelles [email protected]