11 Transformación de datos.pdf11 Transformación de datos.pdf

correovicenterodrigu 7 views 16 slides Sep 18, 2025
Slide 1
Slide 1 of 16
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16

About This Presentation

11 Transformación de datos.pdf11 Transformación de datos.pdf


Slide Content

IMT2200 Introducción a la
Ciencia de Datos
Rodrigo A. Carrasco
Instituto de Ingeniería Matemática y Computacional
Escuela de Ingeniería

Avisos Importantes
•I1
•Les recuerdo que la I1 es el 25de septiembre a las 17:30,avisaremosde la salaapenasnosloindiquen.
•Entrará todo el material revisado hasta la clase dehoy, sobre transformación de datos.
•También habrá un set de preguntas de Armas de Destrucción Matemática (capítulos 1 a 3).
•Actividad 05
•El martes 23 tendremos la Actividad 05 que nos ayudará como preparación para la I1.
•Traigansuscomputadorescargados para hacer la actividad.
•Charla
•El jueves 25 tendremos la charla de Sebastián Imperatore, director de Enseña Chile, sobre el uso de datos en educación.
•Lacharlaserápresencialy pasaremos asistencia los primeros 20 minutos, que será la nota de la Actividad 06. Lleguen a
tiempo.

Repaso
01

Temas vistos hasta ahora
•Comenzamos entendiendo la “ transformación” de datos.
•Aprendimos los efectos que pueden tener los errores en los datos sobre el
proceso de ciencia de datos.
•Como primer ejercicio revisamos algunos tipos de problemas típicos y cómo
trabajar cuando necesitamos eliminarlos.
•Ahora formalizaremos el proceso de transformación y agregaremos
herramientas a nuestra caja.

Limpieza de datos
Transformación
02

Limpieza de datos
Eselprocesodeidentificaraquellapartede
ladataincorrecta,incompleta,imprecisa,
irrelevanteofaltante,yluegomodificar,
reemplazaroeliminarsegúncorresponda.
Esunadelastareasesencialesparaelbuen
análisisymodelamientodelosdatos.

Los errores se extienden si no se arreglan
extracción exploración conocimiento reporte
Error
técnico o
humano

Limpieza de datos: ejemplo

Limpieza de datos: ejemplo

Limpieza de datos: ejemplo

Limpieza de datos: ejemplo

¿Dónde tenemos que limpiar?
Recolectar datos Datasetcrudo
Limpiar y procesar
datos
Construir productos de
datos
Análisis exploratorio
Datasetlimpio
Modelamiento
estadístico
Algoritmos de ML
Visualización
Comunicación /
Reporte
Toma decisiones
Datos
Preguntas

Problemas comunes
Datos faltantes
Datos duplicados Transformación de valores
Nulos

Más problemas comunes
Datos innecesarios
Datos
inconsistentes

Eliminar y renombrar columnas
•El datasetcrudo puede contener columnas innecesarias, o con etiquetas
que hacen su manipulación poco eficiente.
•Funciones relevantes:
•df.columns(): permite chequear listado de columnas
•df.drop(): eliminar columnas
•df=df[[‘col1’,’col2’,..]]: selección de un listado de columnas del
dataframe
•df.rename(colums={‘old1’:’new1’,’old2’:’new2’…}) :renombrar
columnas

Está disponible en el GitHub del curso
Notebook de Ejemplos
03
Tags