Presentación objetiva del tema Big Data.

Big
Data Por: Mario Fernando Polania
Quiroga
Codigo: 20222207746

Qué es el big
data?
Big Data se refiere a conjuntos de datos extremadamente grandes y complejos,
tanto en volumen, velocidad y variedad, que superan la capacidad del software
tradicional de procesamiento de datos para ser capturados, gestionados y
procesados en un tiempo razonable. Tradicionalmente, se define por las "V's" del
Big Data, siendo las tres principales: Volumen (la escala masiva de datos, desde
terabytes hasta zettabytes), Velocidad (la rapidez con la que se generan y deben
procesarse los datos, muchas veces en tiempo real) y Variedad (los diferentes
formatos de los datos: estructurados, semi-estructurados como JSON o XML, y
no estructurados como texto, video, audio, logs de redes sociales). Con el tiempo,
se han añadido otras V's como Veracidad (la confiabilidad y calidad de los datos) y
Valor (la capacidad de extraer información útil y accionable).

Importancia del big
dataLa importancia del Big Data radica en su potencial para transformar los datos sin procesar en información
valiosa y conocimientos accionables. En el ámbito empresarial, esto se traduce en una ventaja competitiva
crucial. Permite a las organizaciones moverse de la intuición a la toma de decisiones basada en evidencia
concreta. Facilita la identificación de nuevas oportunidades de mercado, la optimización de operaciones y
cadena de suministro, la personalización de productos y servicios para clientes individuales, y la mejora de la
eficiencia operativa. Más allá de los negocios, su impacto es revolucionario en áreas como la medicina
(medicina personalizada, investigación genómica), la ciencia (modelado climático, física de partículas) y la
gestión de ciudades inteligentes.

Experto en Big
DataUn experto en Big Data es un profesional multidisciplinario, a menudo con formación en ingeniería de
sistemas, estadística o matemáticas. Este perfil se divide comúnmente en dos roles clave:
Data Engineer (Ingeniero de Datos): Se enfoca en la infraestructura. Es el responsable de diseñar,
construir, mantener y escalar las arquitecturas de pipelines de datos. Su trabajo implica asegurar que
los datos sean ingeridos, almacenados, transformados y estén disponibles para su análisis de manera
fiable y eficiente. Dominan tecnologías como Hadoop, Spark, Kafka y diversas bases de datos NoSQL.
Data Scientist (Científico de Datos): Se enfoca en el análisis. Utiliza técnicas estadísticas, de machine
learning y minería de datos sobre los datos preparados por el Data Engineer para construir modelos
predictivos, descubrir patrones ocultos y generar insights. Dominan lenguajes como Python y R, y
frameworks de machine learning.

Origen de los
datosLos datos en Big Data provienen de fuentes extremadamente
diversas, que se pueden clasificar en:
1.Datos Generados por Personas: Comentarios en redes
sociales, correos electrónicos, búsquedas en la web,
contenido subido a plataformas (fotos, videos),
transacciones en línea.
2.Datos Generados por Máquinas (IoT - Internet de las
Cosas): Sensores en vehículos, maquinaria industrial,
wearables (pulseras de actividad), medidores inteligentes
de servicios públicos. Generan flujos constantes de datos
de telemetría.
3.Datos Transaccionales: Registros de compras, sistemas de
punto de venta (POS), transacciones bancarias.
4.Datos de Procesos de Negocio: Logs de servidores y
aplicaciones, métricas de rendimiento de software, datos
de CRM y ERP.
5.Datos Públicos y Abiertos: Datos gubernamentales,
información meteorológica, datos satelitales.

Tecnologías
usadas en el big
data
Borcelle
El ecosistema de Big Data es vasto, pero se puede resumir en varias categorías de tecnologías:
Almacenamiento: Hadoop Distributed File System (HDFS) es el pilar histórico para almacenar grandes volúmenes de datos de manera distribuida. También se usan bases
de datos NoSQL como MongoDB (documentos), Cassandra (columnar) o Neo4j (grafos), y almacenes de datos en la nube como Amazon S3 o Google Cloud Storage.
Procesamiento y Gestión: Apache Hadoop (MapReduce) para procesamiento por lotes (batch). Apache Spark es hoy el estándar por su velocidad y capacidad de procesar
datos en memoria, soportando batch, streaming y machine learning. Apache Kafka se usa para la ingesta y procesamiento de flujos de datos en tiempo real.
Análisis y Consulta: Motores de consulta SQL sobre Hadoop como Hive o Impala, y herramientas de análisis y machine learning como Python (con librerías como Pandas,
Scikit-learn, TensorFlow) y R.
Gestión de Recursos y Orquestación: Kubernetes y YARN (de Hadoop) para gestionar los recursos de clústeres computacionales.

Casos de uso de
big dataHistórico/Fundacional: El motor de búsqueda de Google fue
uno de los casos de Big Data más emblemáticos, teniendo
que indexar y clasificar la web completa, un dataset masivo y
no estructurado.
Comercio Minorista (Retail): Target es el caso clásico de usar
datos de compras para predecir (con notable precisión) si
una clienta estaba embarazada y enviarle cupones
personalizados.
Entretenimiento: Netflix y Spotify utilizan Big Data para sus
sistemas de recomendación, analizando los hábitos de
visualización y escucha de millones de usuarios para sugerir
contenido relevante.
Actual - Salud: Durante la pandemia de COVID-19, el Big Data
fue crucial para rastrear la propagación del virus, modelar su
comportamiento, gestionar recursos hospitalarios y acelerar
la investigación de vacunas.
Actual - Ciudades Inteligentes: Gestión del tráfico en tiempo
real, optimización de rutas de transporte público y
distribución eficiente de energía basada en el consumo.

Como funciona el
big data
El funcionamiento de un sistema de Big Data sigue un flujo de trabajo o pipeline:
1.Ingesta: Los datos se recogen de las diversas fuentes y se introducen en el sistema. Herramientas como Apache Kafka o Flume son clave aquí para manejar flujos de alta velocidad.
2.Almacenamiento: Los datos ingeridos se almacenan en sistemas distribuidos y escalables como HDFS o en la nube. Esta capa debe ser tolerante a fallos.
3.Procesamiento y Transformación: Aquí es donde frameworks como Spark procesan los datos en bruto. Se limpian, se enriquecen, se transforman y se estructuran para que sean aptos para el análisis. Este es
el trabajo central del Data Engineer.
4.Análisis y Modelado: Los datos procesados son consumidos por los Data Scientists y analistas. Se aplican modelos estadísticos, algoritmos de machine learning y herramientas de visualización para explorar
los datos, encontrar patrones, hacer predicciones y extraer el valor.
5.Visualización y Consumo: Los insights resultantes se presentan de manera comprensible mediante dashboards (con herramientas como Tableau, Power BI), reportes automatizados o se integran
directamente en otras aplicaciones para alimentar procesos automatizados o apoyar la toma de decisiones.

Gracias

Presentación objetiva del tema Big Data.

About This Presentation

Slide Content

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

Presentación objetiva del tema Big Data.

About This Presentation

Slide Content

Slide 1

Slide 2

Slide 3

Slide 4

Slide 5

Slide 6

Slide 7

Slide 8

Slide 9

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

8-top-ai-courses-for-customer-support-representatives-in-2025.pptx

7-essential-ai-courses-for-call-center-supervisors-in-2025.pptx

25-essential-ai-courses-for-user-support-specialists-in-2025.pptx

8-essential-ai-courses-for-insurance-customer-service-representatives-in-2025.pptx

Know for Certain

PPT OPD LES 3ertt4t4tqqqe23e3e3rq2qq232.pptx