Presentación objetiva del tema Big Data.

u20222207746 8 views 9 slides Sep 19, 2025
Slide 1
Slide 1 of 9
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9

About This Presentation

trabajo hipi


Slide Content

Big
Data Por: Mario Fernando Polania
Quiroga
Codigo: 20222207746

Qué es el big
data?
Big Data se refiere a conjuntos de datos extremadamente grandes y complejos,
tanto en volumen, velocidad y variedad, que superan la capacidad del software
tradicional de procesamiento de datos para ser capturados, gestionados y
procesados en un tiempo razonable. Tradicionalmente, se define por las "V's" del
Big Data, siendo las tres principales: Volumen (la escala masiva de datos, desde
terabytes hasta zettabytes), Velocidad (la rapidez con la que se generan y deben
procesarse los datos, muchas veces en tiempo real) y Variedad (los diferentes
formatos de los datos: estructurados, semi-estructurados como JSON o XML, y
no estructurados como texto, video, audio, logs de redes sociales). Con el tiempo,
se han añadido otras V's como Veracidad (la confiabilidad y calidad de los datos) y
Valor (la capacidad de extraer información útil y accionable).

Importancia del big
dataLa importancia del Big Data radica en su potencial para transformar los datos sin procesar en información
valiosa y conocimientos accionables. En el ámbito empresarial, esto se traduce en una ventaja competitiva
crucial. Permite a las organizaciones moverse de la intuición a la toma de decisiones basada en evidencia
concreta. Facilita la identificación de nuevas oportunidades de mercado, la optimización de operaciones y
cadena de suministro, la personalización de productos y servicios para clientes individuales, y la mejora de la
eficiencia operativa. Más allá de los negocios, su impacto es revolucionario en áreas como la medicina
(medicina personalizada, investigación genómica), la ciencia (modelado climático, física de partículas) y la
gestión de ciudades inteligentes.

Experto en Big
DataUn experto en Big Data es un profesional multidisciplinario, a menudo con formación en ingeniería de
sistemas, estadística o matemáticas. Este perfil se divide comúnmente en dos roles clave:
Data Engineer (Ingeniero de Datos): Se enfoca en la infraestructura. Es el responsable de diseñar,
construir, mantener y escalar las arquitecturas de pipelines de datos. Su trabajo implica asegurar que
los datos sean ingeridos, almacenados, transformados y estén disponibles para su análisis de manera
fiable y eficiente. Dominan tecnologías como Hadoop, Spark, Kafka y diversas bases de datos NoSQL.
Data Scientist (Científico de Datos): Se enfoca en el análisis. Utiliza técnicas estadísticas, de machine
learning y minería de datos sobre los datos preparados por el Data Engineer para construir modelos
predictivos, descubrir patrones ocultos y generar insights. Dominan lenguajes como Python y R, y
frameworks de machine learning.

Origen de los
datosLos datos en Big Data provienen de fuentes extremadamente
diversas, que se pueden clasificar en:
1.Datos Generados por Personas: Comentarios en redes
sociales, correos electrónicos, búsquedas en la web,
contenido subido a plataformas (fotos, videos),
transacciones en línea.
2.Datos Generados por Máquinas (IoT - Internet de las
Cosas): Sensores en vehículos, maquinaria industrial,
wearables (pulseras de actividad), medidores inteligentes
de servicios públicos. Generan flujos constantes de datos
de telemetría.
3.Datos Transaccionales: Registros de compras, sistemas de
punto de venta (POS), transacciones bancarias.
4.Datos de Procesos de Negocio: Logs de servidores y
aplicaciones, métricas de rendimiento de software, datos
de CRM y ERP.
5.Datos Públicos y Abiertos: Datos gubernamentales,
información meteorológica, datos satelitales.

Tecnologías
usadas en el big
data
Borcelle
El ecosistema de Big Data es vasto, pero se puede resumir en varias categorías de tecnologías:
Almacenamiento: Hadoop Distributed File System (HDFS) es el pilar histórico para almacenar grandes volúmenes de datos de manera distribuida. También se usan bases
de datos NoSQL como MongoDB (documentos), Cassandra (columnar) o Neo4j (grafos), y almacenes de datos en la nube como Amazon S3 o Google Cloud Storage.
Procesamiento y Gestión: Apache Hadoop (MapReduce) para procesamiento por lotes (batch). Apache Spark es hoy el estándar por su velocidad y capacidad de procesar
datos en memoria, soportando batch, streaming y machine learning. Apache Kafka se usa para la ingesta y procesamiento de flujos de datos en tiempo real.
Análisis y Consulta: Motores de consulta SQL sobre Hadoop como Hive o Impala, y herramientas de análisis y machine learning como Python (con librerías como Pandas,
Scikit-learn, TensorFlow) y R.
Gestión de Recursos y Orquestación: Kubernetes y YARN (de Hadoop) para gestionar los recursos de clústeres computacionales.

Casos de uso de
big dataHistórico/Fundacional: El motor de búsqueda de Google fue
uno de los casos de Big Data más emblemáticos, teniendo
que indexar y clasificar la web completa, un dataset masivo y
no estructurado.
Comercio Minorista (Retail): Target es el caso clásico de usar
datos de compras para predecir (con notable precisión) si
una clienta estaba embarazada y enviarle cupones
personalizados.
Entretenimiento: Netflix y Spotify utilizan Big Data para sus
sistemas de recomendación, analizando los hábitos de
visualización y escucha de millones de usuarios para sugerir
contenido relevante.
Actual - Salud: Durante la pandemia de COVID-19, el Big Data
fue crucial para rastrear la propagación del virus, modelar su
comportamiento, gestionar recursos hospitalarios y acelerar
la investigación de vacunas.
Actual - Ciudades Inteligentes: Gestión del tráfico en tiempo
real, optimización de rutas de transporte público y
distribución eficiente de energía basada en el consumo.

Como funciona el
big data
El funcionamiento de un sistema de Big Data sigue un flujo de trabajo o pipeline:
1.Ingesta: Los datos se recogen de las diversas fuentes y se introducen en el sistema. Herramientas como Apache Kafka o Flume son clave aquí para manejar flujos de alta velocidad.
2.Almacenamiento: Los datos ingeridos se almacenan en sistemas distribuidos y escalables como HDFS o en la nube. Esta capa debe ser tolerante a fallos.
3.Procesamiento y Transformación: Aquí es donde frameworks como Spark procesan los datos en bruto. Se limpian, se enriquecen, se transforman y se estructuran para que sean aptos para el análisis. Este es
el trabajo central del Data Engineer.
4.Análisis y Modelado: Los datos procesados son consumidos por los Data Scientists y analistas. Se aplican modelos estadísticos, algoritmos de machine learning y herramientas de visualización para explorar
los datos, encontrar patrones, hacer predicciones y extraer el valor.
5.Visualización y Consumo: Los insights resultantes se presentan de manera comprensible mediante dashboards (con herramientas como Tableau, Power BI), reportes automatizados o se integran
directamente en otras aplicaciones para alimentar procesos automatizados o apoyar la toma de decisiones.

Gracias
Tags