Presentación
del equipo
✔Profesor responsable: Emilio Di Palma
/emiliodipalma
DATA ANALYTICS
Presentación
de estudiantes
Deja tu mensaje de presentación en nuestro
chat conjunto.
➔País.
➔Rubro y/o puesto.
➔Hobbies.
➔Conocimientos previos.
➔Motivaciones para el curso.
Interacciones
en clase
INTERACCIONES EN CLASE
Nombre de zoom
Escribir el nombre de zoom igual al que te figura en tu plataforma
desde : Participantes> Más/More > Rename/ Renombrar:
INTERACCIONES EN CLASE
1.
Mientras el
profesor explica
Para mantener una comunicación clara y fluida a lo largo
de la clase, te proponemos mantener 2 reglas:
Si tienes dudas durante la explicación, debes
consultarle directamente por privado a tu tutor por
el chat de Zoom.
2.
INTERACCIONES EN CLASE
Entre contenido y contenido, se abrirán breves
espacios de consulta. Allí puedes escribir en el chat
tu pregunta.
¡Tu duda puede ayudar a otras personas!
No olvides seleccionar “todos” para que todos
puedan leerte (y no solo tu tutor).
Espacios para
consultas
INTERACCIONES EN CLASE
Funcionalidades
Para evitar saturar el chat de mensajes, utiliza
los signos que figuran en el apartado
Participantes, dentro de Zoom.**
Por ejemplo: si se pregunta si se escucha
correctamente, debes seleccionar la opción
“Sí” o “No”.
**Para quitar el signo, presiona el mismo botón nuevamente o la opción “clear all”.
Algunos ajustes a la
currícula
SYLLABUS
Organización
Módulo Clases
I. Bases de datos 2
II. SQL 7
III. Data Storytelling 2
IV. Power BI 7
V. Estadística básica 1
VI. Entrevistas y casos técnicos 1
TOTAL 20
SYLLABUS
Para más detalle…
https://drive.google.com/file/d/1Hodo4NfUP0FCmCTvMeBdwKhLNiliEUR4/view?usp=drive_link
REVIEWS
Confíen en su profe ?????? ?????? ??????
1164 comentarios positivos
16 comentarios neutrales
1 comentario negativo
Puntaje 4.94/5 ⭐ ⭐ ⭐ ⭐ ⭐
Entregas
ENTREGAS
Entregas
! Las clases corresponden al día en que se habilita la entrega.
Preentrega 1
Clase 4
Preentrega 2
Clase 8
Preentrega 3
Clase 16
Proyecto
Final
Clase 20
Preentrega > 7 días
Proyecto Final > 10 días
Canal de difusión de
WhatsApp
WHATSAPP
Canal*
Es un medio a través del cual comparto noticias sobre Data,
sobre eventos, y envío búsquedas laborales en el rubro.
Data Analytics y
Bases de Datos
Clase 01. Data Analytics
Objetivos de la clase
Conocer qué es el análisis de datos y sus generalidades.
Diferenciar el análisis de datos del business intelligence.
Identificar los tipos de análisis de datos.
Reconocer el ciclo de vida de los datos.
Manejar glosario técnico referente al análisis de datos.
Identificar tecnologías que tienen relación con el análisis
de datos.
Objetivos de la clase
Conocer qué es una base de datos y sus
generalidades.
Identificar los componentes de una base de
datos.
Identificar los tipos de bases de datos.
Integrar conocimientos generales de Data
Warehouse.
Conceptos
Fundamentales
Pirámide del conocimiento
Debemos comprender la diferencia e
interacción entre los datos, la información, el
conocimiento y la sabiduría.
Conceptos Fundamentales
✓ Datos: observaciones o mediciones
objetivas de la realidad.
✓ Información: Se construye a partir de
datos, proporciona contexto,
significado y propósito.
✓ Conocimiento: Se logra integrando la
información en el contexto de la
comprensión más amplia que tiene
una persona sobre un tema.
✓ Sabiduría: Nivel más alto que integra
conocimiento con discernimiento
ético, posee el juicio experto para
aplicar conocimiento.
Pirámide del conocimiento
Veamos un ejemplo.
Conceptos Fundamentales
✓ Datos: Las ventas diarias de una empresa del rubro de cosméticos.
○1000, 1500, 400, 0, 200.
✓ Información: El promedio de ventas diario es 620.
✓ Conocimiento: Si continuamos con este promedio diario, nuestra operación
deberá frenar.
✓ Sabiduría: Hay que realizar alguna acción pronto para evitar que nuestra operación
frene. Podría ser una campaña publicitaria, un cambio en la calidad de los
productos, entre otros.
Pirámide del conocimiento
Conceptos Fundamentales
Data Analytics
Introducción
Data Analytics
Conjunto de métodos y técnicas de
medición, que permiten gestionar la
información en tres grandes etapas:
recolección, transformación y
visualización.
●Los datos nos ayudan a
tomar decisiones más
inteligentes, ya que
representan
oportunidades para
hacernos más
preguntas.
●Nos ayudan a
anticiparnos ante
posibles
contingencias y a ser
ágiles adaptandonos
sobre la marcha.
●Nos permiten
aprender de los
errores para
reformular preguntas
para cumplir un
objetivo
¿POR QUÉ ANÁLISIS DE DATOS?
Herramientas
Herramientas a utilizar
¿Qué hace un analista
de datos?
Los analistas de datos buscan determinar cómo se
pueden utilizar los datos para responder preguntas y
resolver problemas.
Estudian lo que está sucediendo ahora para identificar
tendencias y hacer predicciones sobre el futuro.
¿Qué hace un analista
de datos?
Algunas tareas involucradas
Trabajar con equipos de tecnología, administración
y/o data scientists para establecer metas.
Minería de datos de fuentes primarias y
secundarias
Limpieza y disección de datos
Analizar e interpretar resultados utilizando
herramientas y técnicas estadísticas
Identificar tendencias y patrones en conjuntos de
datos
Algunas tareas involucradas
Identificar nuevas oportunidades para la
mejora de procesos.
Proporcionar informes de datos para la
gestión.
Diseñar, crear y mantener bases de datos y
sistemas de datos.
Solucionar problemas de código y
problemas relacionados con los datos
Business Intelligence
¿Qué significa BI?
Business Intelligence, o Inteligencia de negocios, son todas
aquellas aplicaciones, infraestructuras y herramientas, así
como mejores prácticas, que permiten el acceso y el análisis
de la información para mejorar y optimizar las decisiones y
el rendimiento de una empresa.
Particularmente, BI se sitúa en las etapas de información y
conocimiento en la pirámide del conocimiento.
Vamos a utilizar los datos para transformarlos en
información útil y, finalmente, en conocimiento para apoyar
la toma de decisiones de la empresa.
BUSINESS INTELLIGENCE
¿BI o Data Analytics?
Business intelligence o inteligencia
de negocios. Es un conjunto de
metodologías, procesos,
arquitecturas y tecnologías que
aprovechan el resultado de los
procesos de gestión de la
información para el análisis, la
presentación de informes, gestión
del rendimiento y entrega de
información.
BI
Análisis de datos. Es el proceso de
examinar conjuntos de datos para
su transformación y visualización.
De esta manera se sacan
conclusiones sobre la información
que contienen para gestionar
indicadores.
Data Analytics
Ambas disciplinas no son excluyentes. Por el
contrario, se complementan para
proporcionar tanto análisis descriptivos
como predictivos.
Importante
PARA RECORDAR
Niveles de aplicación
¿Por qué es importante?
Conocer a la audiencia es importante para
maximizar las posibilidades que el usuario
entienda y utilice nuestro trabajo.
CONOCER A LA AUDIENCIA
TIPOS DE ANÁLISIS
Predictivo Prescriptivo
Descriptivo Diagnóstico
Descriptivo
Reportes
¿Qué
pasó?
Consiste en describir las tendencias
claves en los datos existentes y
observar las situaciones que conduzcan
a nuevos hechos. Este método se basa en
una o varias preguntas de investigación
y no tiene una hipótesis previa.
Un análisis básico descriptivo implica
calcular las medidas simples de
composición y distribución de variables.
Dependiendo del tipo de datos, pueden ser
proporciones, tasas, razones o promedios.
Analítica
descriptiva
La analítica descriptiva responde a la pregunta de
qué sucedió.
Utiliza datos sin procesar de múltiples fuentes de
datos para proporcionar información valiosa sobre el
pasado. Sin embargo, estos hallazgos simplemente
indican que algo está mal o bien, sin explicar por
qué.
Por esta razón, las empresas controladas por datos
no se contentan con analíticas descriptivas
solamente y prefieren combinarlas con otros tipos
de analíticas de datos.
¿Por qué
pasó?
Diagnóstico
Dashboards
Interactivos
Los datos históricos pueden medirse con otros
datos para responder a la pregunta de por qué
sucedió algo.
Gracias al análisis de diagnóstico, existe la
posibilidad de profundizar, averiguar las
dependencias e identificar patrones.
Al mismo tiempo, una empresa debe tener
información detallada a su disposición, de lo
contrario, la recopilación de datos puede
resultar individual para cada problema y
requiere mucho tiempo.
Predictivo
Modelos
¿Qué
pasará?
Se identifican comportamientos futuros, en
base a información histórica.
El análisis predictivo dice lo que es probable que
suceda.
Utiliza los hallazgos del análisis descriptivo y de
diagnóstico para detectar tendencias ,
agrupaciones y excepciones, y para predecir
tendencias futuras, lo que lo convierte en una
herramienta valiosa para la previsión.
A pesar de las numerosas ventajas que aporta el
análisis predictivo, es esencial comprender que la
previsión es solo una estimación, cuya precisión
depende en gran medida de la calidad de los datos .
Analítica
predictiva
Análisis predictivo
¿Qué pasará?
¿Qué pasó?¿Por qué pasó?
A partir del análisis diagnóstico podríamos predecir que por
ejemplo el GMV de las categorías Tecnología y Suplementos para
oficina continuarán con su tendencia de crecimiento.
Muebles Tecnología Suplementos para oficina
¿Qué
debería
hacer?
Con simulaciones y optimizaciones se compara
la información resultante del análisis predictivo,
para implementar una acción.
Prescriptivo
Recomendaciones
de automatización
Análisis prescriptivo
Con simulaciones y optimizaciones, se compara la
información resultante del análisis predictivo para
implementar una acción.
El propósito de los análisis prescriptivos es, literalmente,
prescribir qué acciones tomar para eliminar un
problema futuro o aprovechar al máximo una
tendencia prometedora.
Un ejemplo de análisis prescriptivo de nuestra cartera
de proyectos: una empresa multinacional pudo
identificar oportunidades para compras repetidas
basadas en el análisis de clientes y el historial de
ventas.
Analítica
prescriptiva
Análisis prescriptivo
¿Qué debería
hacer?
¿Qué pasará?
¿Qué pasó?¿Por qué pasó?
A partir de los futuros escenarios que nos
planteamos en el análisis predictivo podríamos
recomendar los siguiente planes de acción:
?????? Preparar el sistema de mi bodega para los
envíos de dimensiones de las categorías de
productos de Tecnología y Suplementos para
oficina, para los próximos 6 meses.
??????Lanzar Publicidad en la plataforma de estas
2 categorías de productos.
Ciclo de vida de los
datos
Ciclo de vida de los
datos
Recolección: Identificación del origen de los datos.
Almacenamiento de forma digital.
Mantenimiento: Revisión de la información. Se procesa
para garantizar su calidad.
Síntesis: Se modela la información de acuerdo a los
indicadores requeridos.
Ciclo de vida de los
datos
Uso: se disponibiliza para su explotación, en la generación
de reportes, informes, modelos, etc.
Publicación: el análisis realizado es expuesto, para la toma
de decisiones.
Depuración: gracias a la exposición, se detecta si la
información requiere agregaciones, eliminaciones o
cambios.
☕
Break
¡8 minutos y volvemos
xx:00!
¿Cuál de los siguientes
es un dato?
A)Emilio mide 182cm.
B)182cm.
C)La altura de Emilio.
D)Ninguna es un dato.
Psss… respondé por el chat de Zoom.
¿Qué es una base de datos?
Es una herramienta para recopilar y organizar
datos. Pueden almacenar datos sobre personas,
productos, pedidos o cualquier otra cosa y
puede contener más de una tabla.
Más específicamente, es un sistema organizado
de almacenamiento de datos que permite su
gestión, acceso y manipulación de manera
eficiente.
Sistema de Gestión de
Base de Datos
SGBD/DBMS: sistema de
gestión de base de datos
Sistema de gestión de base de datos (DBMS por sus siglas en inglés). Ej: Oracle, MySQL,
SQLServer, Access, entre otros.
Aplicaciones que han sido diseñadas para gestionar grandes cantidades de datos.
Colección de datos interrelacionados y un conjunto de programas para acceder a los
mismos.
Objetivo: Almacenar y recuperar los datos.
¡Nosotros
usaremos este!
La gestión de los datos implica tanto la definición de
estructuras para almacenar la información como la
provisión de mecanismos para la manipulación de la
información.
Microsoft SQL Server +
SQL Server Management Studio
+
Características de un SGBD
Capacidad de
proteger los
datos ante fallos
en el sistema o
en las
aplicaciones.
Recuperación
Permiten que
muchas
transacciones
puedan acceder
a una misma
base de datos a
la vez.
Concurrencia
Esta característica del
sistema de gestión de
base de datos
monitoriza que la base
de datos mantenga una
congruencia con cada
campo agregado, ya
sea en una forma
individual y en una
colectiva.
Integridad
Garantiza la
seguridad a toda la
información
almacenada
mediante un sistema
autónomo encargado
de administrar la
privacidad y
garantizar el buen uso
de los datos.
Seguridad
Usuarios del SGBD/DBMS
Las bases de datos poseen distintos usuarios que interactúan
con la misma. Entre ellos:
➔Usuarios normales
➔Usuarios desarrolladores
➔Usuarios especialistas
➔Administradores (DBA)
Modelo de base de datos
Concepto
Un modelo de base de datos permite generar la estructura
lógica de la base, incluidas las relaciones y limitaciones
que determinan cómo se almacenan los datos y cómo se
accede a ellos.
Tipos de modelos de
base de datos
Tipos de bases de datos
Bases Relacionales (SQL)
Organización de datos en partes pequeñas que se integran mediante identificadores (id) u otros campos.
Se suele armar un esquema de tablas.
✓Estructura Tabular: Datos organizados en
tablas.
✓Relaciones: Establece relaciones entre
tablas mediante claves.
✓Integridad de Datos: Mantiene la integridad
referencial.
✓Normalización: Minimiza la redundancia de
datos.
✓Consultas SQL: Utiliza SQL para definir,
manipular y consultar datos.
Base Relacional
Base Relacional: Diagrama/Esquema
●En las bases de datos relacionales
tendremos múltiples tablas que se
pueden vincular a través de
identificadores.
●Por ejemplo, mediante el customerID
puedo vincular la tabla “Customers”
con la tabla “Orders”.
Bases No Relacionales (NoSQL)
Sistema de almacenamiento de datos que no sigue el modelo tabular, sino que utiliza modelos de
almacenamientos alternativos. No tienen identificadores para vincular sus datos. NoSQL = “Not Only SQL”.
✓Flexibilidad de Esquema: No requiere un
esquema fijo, permite agregar nuevos
campos fácilmente.
✓Escalabilidad Horizontal: Facilita la
distribución de datos en múltiples
servidores.
✓Alto Rendimiento: Optimizada para
operaciones rápidas de lectura y escritura.
✓Diversidad de Modelos: Ofrece diferentes
modelos de almacenamiento para distintas
necesidades.
Base No Relacional: Graph Database
Base No Relacional: Key Value Database
Servicios más conocidos
Relacionales (SQL) No Relacionales (NoSQL)
Servicios más populares (encuesta 2023)
2023: https://survey.stackoverflow.co/2023/#most-popular-technologies-database
2024: https://survey.stackoverflow.co/2024/technology
Los servicios de bases relacionales más utilizados son PostgreSQL y MySQL, los de bases
no relacionales más utilizadas son MongoDB y Redis.
Lenguajes de consultas
estructuradas
Lenguajes de
consultas
estructuradas
Los sistemas de gestión proporcionan un lenguaje de
definición para especificar el esquema de la base de
datos y un lenguaje de manipulación para expresar las
consultas y las modificaciones de la base.
Structured Query Language
Sublenguajes de SQL
Data Definition Language:
Permite crear, modificar y
eliminar estructuras.
Data Manipulation Language:
Permite modificar el contenido.
Data Control Language: Permite
asignar y modificar permisos.
Transaction Control Language:
Permite gestionar transacciones.
DDLDML
TCLDCL
DATAWAREHOUSE
Y DATALAKE
Concepto
DATA WAREHOUSE: Es un sistema utilizado para almacenar y gestionar
grandes volúmenes de datos históricos provenientes de diversas fuentes de
la organización. Está diseñado para facilitar el análisis y la generación de
informes. Solamente admite datos estructurados.
DATA LAKE: Es un sistema de almacenamiento que permite guardar grandes
volúmenes de datos en su formato original o crudo. Está diseñado para
almacenar datos estructurados, semi-estructurados y no
estructurados.
Tipos de datos en
SQL Server
Tipos de datos en SQL Server
✓Int: Es un número entero que puede tomar valores de -2.147.483.648 a 2.147.483.647.
○Ejemplo: 8963000
✓Decimal: Es un número que permite definir una precisión y escala. La precisión (p) es la
cantidad de dígitos máximos (antes y luego de la coma) y la escala (s) es la cantidad de
dígitos decimales (luego de la coma). El formato es “decimal(p,s)”.
○Ejemplo: decimal(5,2) seria un numero entre 0,00 y 999,99.
✓Date: Es una fecha que contiene cuatro dígitos para el año, dos para el dia y dos para el
mes. Con el formato “yyyy-MM-dd”.
○Ejemplo: 2022-05-08
✓Datetime: Es como Date pero agrega hora, minuto, segundos y milisegundos. Con el
formato “yyyy-MM-dd HH:mm:ss[.nnnnnnn]”. Los milisegundos son opcionales, por eso los
corchetes.
○Ejemplo: 2022-05-08 12:46:10
✓Varchar: Es un texto con caracteres Unicode, alfanumérico. El formato es “varchar(n)”.
○Ejemplo: varchar(255) sería un texto alfanumérico Unicode de máximo de tamaño de 255
bytes (si usamos codificación de un solo byte, serían 255 caracteres).
“Avenida Libertador 1000”
✓Money: Es un número con dos decimales que puede tomar valores de -922.337.203.685.477,58 a
922.337.203.685.477,58. Permiten usar símbolos de moneda.
○Ejemplo: £ 2,15
✓Float: Es un número con decimales que puede tomar valores de notación científica incluso entre -
1,79E+308 a -2,23E-308, 0 y entre 2,23E-308 a 1,79E+308. El formato es “float(n)”.
○Ejemplo: 123.4e5
Sistemas que permiten el procesamiento de
los datos, y convertirlos en información.
1.Extracción
2.Transformación
3.Carga
Visualización
Sistemas que permiten la visualización de
información con gráficos y técnicas de
medición.
El 90% de la información que se transmite al
cerebro es visual.
La información visual se procesa 60000
veces más rápido que la textual.
Selección de nuestra
Fuente de Datos
Recomendaciones
✓Debe ser pública/abierta y no debe contener datos confidenciales.
✓Debe tener un tamaño menor a 1GB.
✓Debe ser formato Excel o Archivo de texto (.xls, .xlsx, .txt, .csv).
✓Debe tener 15 o más columnas.
✓Debe tener al menos 2 columnas numéricas, al menos 1 de tipo fecha, al
menos 5 de texto, al menos 1 de tipo geográfico y al menos 1 boolean/flag.
✓Los datos deben acumularse en filas, no en columnas.
✓Los datos deben tener una buena estructura (sin filas vacías, sin celdas
combinadas, etc).
✓No debe estar almacenada en una base de datos.
Ejemplo de un mal dataset
Ejemplo de un buen dataset
Recomendaciones
✓Idealmente, el dataset debe
contener varias tablas que se
puedan vincular a través de
distintos identificadores.
○Si nuestro dataset no tiene
varias tablas, podemos
buscar la forma de dividir
las tablas en distintas
tablas más chicas.
○Si nuestro dataset no tiene
identificadores, podemos
crearlos de forma manual.
Identificadores
Varias tablas
✓ En este caso, podemos vincular la tabla “Ventas” con las tablas “Clientes” y “Medio_Pago” a
traves de los identificadores correspondientes (Id_clientes, Id_pagos).
Para ir buscando un dataset…
Aquí hay algunas bases de datos públicas:
✓https://www.ncdc.noaa.gov/cdo-web/datatools/lcd
✓https://data.buenosaires.gob.ar/dataset/estaciones-bicicletas-publicas
✓https://data.worldbank.org/
✓https://www.imf.org/en/Data
✓http://data.europa.eu/euodp/en/data/
✓https://trends.google.com/trends/?q=google&ctab=0&geo=all&date=all&sort=0
✓https://www.aeaweb.org/resources/data/us-macro-regional
✓https://www.kaggle.com/datasets
✓https://datos.gob.ar/dataset
✓https://statistics.cepal.org/portal/cepalstat/index.html
✓https://www.mockaroo.com/ > Inteligencia Artificial
Para la próxima clase…
El alumnado deberá:
COMPROMISOS PARA LA PRÓXIMA CLASE
✓Seleccionar el dataset a utilizar, que cumpla con las
características de un buen data, y que sea de una temática de
interés genuino.
✓Comprender los distintos tipos de datos presentes en SQL
Server.
✓Describir la temática del proyecto.
✓Describir el alcance y los objetivos del proyecto.
Ejemplo
COMPROMISOS PARA PRÓXIMO CLASE
✓Ejemplo de dataset:
https://docs.google.com/spreadsheets/d/1zvjD20rgCcWO8rzisqJi3x-jeVQA8usH/
edit?usp=sharing&ouid=111118066937337322707&rtpof=true&sd=true
✓Ejemplo de descripción de la temática, alcance y objetivos:
https://docs.google.com/document/d/1GqHKlOdS8UweVcbFkjQxbrTpvzkJtQDIRu
UKP0lUyRM/edit?tab=t.0#heading=h.a9nl74fy46sb
Recursos multimedia
MATERIAL AMPLIADO
✓Charla Ted: Why you should get paid for your data | Jennifer Zhu.
✓Artículo: History of data and analytics platforms | Tom Pringle