Aplicaciones Difusas Map Reduce

570 views 22 slides Oct 24, 2016
Slide 1
Slide 1 of 22
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22

About This Presentation

Aplicaciones Difusas Map Reduce


Slide Content

Aplicaciones Difusas: Map Reduce Autor(es): Mtr. Luis Fernando Aguas

Minería de Datos El descubrimiento de conocimiento es la extracción no trivial de información implícita, desconocida previamente y potencialmente útil a partir de los datos. La minería de datos es el proceso de escudriñar a través de enormes cantidades de datos, y mediante incansables e implacables búsquedas poder encontrar pequeñas pepitas de oro en una montaña de escoria . La minería de datos ayuda a examinar vastas cantidades de información buscando patrones valiosos en los datos. La minería de datos es el proceso de descubrir patrones insospechados.

Descubrimiento de conocimiento Problema/ Datos Brutos Datos para Análisis Datos Preprocesados Patrones/ Modelos Conocimiento Selección Preprocesamiento Minería de Datos Interpretación Evaluación Procesamiento de datos: Disponer de datos de calidad previos al uso de algoritmos de extracción de conocimiento.

Preprocesamiento de Datos preprocesamiento Preprocesamiento de Datos Granulación de la información Nuevo! 

Descubrimiento de conocimiento Problema/ Datos Brutos Datos para Análisis Datos Preprocesados Patrones/ Modelos Conocimiento Selección Preprocesamiento Minería de Datos Interpretación Evaluación Procesamiento de datos: Disponer de datos de calidad previos al uso de algoritmos de extracción de conocimiento.

6 ¿Qué es Big Data? Aproximaciones y tecnologías innovativas

7 Big Data . Aplicaciones Astronomía Telefonía Procesamiento de información WEB Tráfico en Internet Transacciones de tarjetas de crédito Genómica

Aplicaciones: BBVA Bank

9 Tratamiento computacional MapReduce : Paradigma de Programación para Big Data (Google) Plataforma Hadoop (Open access ) Librería Mahout para Big Data. Otras librerías

10 Escalabilidad de grandes cantidades de datos Exploración 100 TB en 1 nodo @ 50 MB/sec = 23 días Exploración en un clúster de 1000 nodos = 33 minutos Solución  Divide-Y- Vencerás MapReduce Modelo de programación de datos paralela Concepto simple, elegante, extensible para múltiples aplicaciones Creado por Google (2004) Procesa 20 PB de datos por día (2004) Popularizado por el proyecto de codigo abierto Hadoop Usado por Yahoo!, Facebook , Amazon , … MapReduce

11 Características Paralelización automática: Dependiendo del tamaño de ENTRADA DE DATOS  se crean mutiples tareas MAP Dependiendo del número de intermedio <clave, valor> particiones  se crean tareas REDUCE Escalabilidad: Funciona sobre cualquier cluster de nodos/procesadores Puede trabajar desde 2 a 10,000 máquinas Transparencia programación Manejo de los fallos de la máquina Gestión de comunicación entre máquina MapReduce

MapReduce MapReduce es el entorno más popular para Big Data Basado en la estructura Valor-llave. Dos operaciones: Función Map : Procesa bloques de información Función Reduce function : Fusiona los resultados previos de acuerdo a su llave. + Una etapa intermedia de agrupamiento por llave J. Dean, S. Ghemawat , MapReduce: Simplified data processing on large clusters, Communications of the ACM 51 (1) (2008) 107-113. input input input input map map map map Shuffling: group values by keys reduce reduce reduce output output output map (k, v) → list (k’, v’) reduce (k’, list(v’)) → v’’ (k , v) (k , v) (k , v) (k , v) (k’, v’) (k’, v’) (k’, v’) (k’, v’) k’, list(v’) k’, list(v’) k’, list(v’) v’’ v’’ v’’

13 Hadoop Hadoop es una implementación de código abierto del paradigma computacional MapReduce http://hadoop.apache.org/

14 Map Reduce Layer HDFS Layer Task tracker Job tracker Task tracker Name node Data node Data node http://hadoop.apache.org/ Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido, escalable y portátil escrito en Java para el framework Hadoop Creado por Doug Cutting (chairman of board of directors of the Apache Software Foundation, 2010) Hadoop

15 Mahout Cuatro grandes áreas de aplicación Agrupamiento Sistemas de Recomendaciones Clasificación Asociación

16 Mahout ¿Qué algoritmos puedo encontrar para Hadoop ? Analizamos 10 algoritmos muy conocidos Hadoop Palit, I., Reddy, C.K., 2012. Scalable and parallel boosting with mapReduce. IEEE TKDE 24 (10), pp. 1904-1916. ( Amazon EC2 cloud, CGL - MapReduce : ( modelos iterativos de MapReduce ) Decision trees (C4.5, Cart) (MReC4.5) K-Means SVM Apriori kNN Naïve Bayes EM (Expectation Maximization) PageRank Adaboost No disponibles MapReduce

Generation 1st Generation 2nd Generation 3nd Generation Examples SAS, R, Weka , SPSS, KEEL Mahout , Pentaho , Cascading Spark , Haloop , GraphLab , Pregel , Giraph , ML over Storm Scalability Vertical Horizontal ( over Hadoop ) Horizontal ( Beyond Hadoop ) Algorithms Available Huge collection of algorithms Small subset : sequential logistic regression , linear SVMs , Stochastic Gradient Descendent , k- means clustering , Random forest , etc. Much wider : CGD, ALS, collaborative filtering , kernel SVM, matrix factorization , Gibbs sampling , etc. Algorithms Not Available Practically nothing Vast no.: Kernel SVMs , Multivariate Logistic Regression , Conjugate Gradient Descendent , ALS, etc. Multivariate logistic regression in general form , k- means clustering , etc. – Work in progress to expand the set of available algorithms Fault-Tolerance Single point of failure Most tools are FT, as they are built on top of Hadoop FT: HaLoop , Spark Not FT: Pregel , GraphLab , Giraph

Ciencia de Datos Data Science o la Ciencia de Datos incorpora diferentes elementos y se basa en las técnicas y teorías de muchos campos, incluyendo las matemáticas, estadística, ingeniería de datos, reconocimiento de patrones y aprendizaje, computación avanzada, visualización, modelado de la incertidumbre, almacenamiento de datos y la informática de alto rendimiento con el objetivo de extraer el significado de datos y la creación de productos de datos.

Ciencia de Datos ¿Qué es un Científico de Datos? Un científico de datos es un profesional que debe dominar las ciencias matemáticas y  la estadística, acabados conocimientos de programación (y sus múltiples lenguajes), ciencias de la computación y analítica.

Oportunidad profesional: En 2015, Gartner predice que 4,4 millones de empleos serán creados en torno a big data. (Gartner, 2013) 20 Científico de Datos CIENTIFICO DE DATOS Fuente: http://www.gartner.com/technology/topics/big-data.jsp Surge como profesión el “Científico de Datos”

21 Big Data 3.0: Intelligent Una combinación de datos, con enormes bases de conocimiento y algoritmos de recopilación de información muy grandes, capaces de alcanzar el nivel de una verdadera inteligencia. Se pueden ver ejemplos pioneros de esto ya: Google Now, Watson, … Big Data 3.0: Intelligent Big data 3.0

22 Comentarios Finales Big Data es un área emergente y en expansión. Las posibilidades de desarrollo de algoritmos para nuevos datos, aplicaciones reales … es un nicho de investigación y desarrollo en los próximos años. Oportunidades en Big Data
Tags