Crear un data lake con ssis - analisis de datos

felipebermudez30 7 views 42 slides Oct 22, 2025
Slide 1
Slide 1 of 42
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42

About This Presentation

Crear un data lake


Slide Content

A1 Crear un DataLake -DL Presentado por: FELIPE Antonio Bermúdez Giraldo Ingeniero de sistemas y telecomunicaciones Fecha de entrega: 22/12/2024

Prerrequisitos MÍNIMOS NECESARIOS SU EQUIPO DE CÓMPUTO

Objetivos específicos

Objetivo 1: Accedemos al enlace de descarga: https://dbeaver.io/download/#requirements . Seleccionamos el sistema operativo correspondiente. procedemos a descargar el programa. Pasos: Descargar la versión adecuada de DBeaver Community en su PC. 1 2 3

Ejecutamos el archivo del programa que hemos descargado. Seleccionamos el idioma de nuestra preferencia. Hacemos clic en 'Continuar' para proceder con la instalación. Pasos: Objetivo 2: Instalar DBeaver Community  de acuerdo a su Sistema Operativo. 1 2 3

Se nos solicita revisar los términos y condiciones; si estamos de acuerdo, seleccionamos la opción 'Acepto'. Pasos: Objetivo 2: Instalar DBeaver Community  de acuerdo a su Sistema Operativo. 1

Se nos pregunta si deseamos permitir el acceso a la aplicación para todos los usuarios o solo para el administrador. Seleccionamos la opción 'Todos los usuarios' y hacemos clic en 'Siguiente'. Pasos: Objetivo 2: Instalar DBeaver Community  de acuerdo a su Sistema Operativo. 1

Se nos pregunta si deseamos permitir el acceso a la aplicación para todos los usuarios o solo para el administrador. Seleccionamos la opción 'Todos los usuarios’. hacemos clic en 'Siguiente'. Pasos: Objetivo 2: Instalar DBeaver Community  de acuerdo a su Sistema Operativo. 1 2

Se nos solicita marcar los componentes que deseamos instalar y desmarcar los que no. Dejamos seleccionada la opción ' Include Java' y hacemos clic en 'Siguiente'. Pasos: Objetivo 2: Instalar DBeaver Community  de acuerdo a su Sistema Operativo. 1

Se nos solicita seleccionar la carpeta donde se instalará el programa. Dejamos la ubicación predeterminada y hacemos clic en 'Siguiente'. Pasos: Objetivo 2: Instalar DBeaver Community  de acuerdo a su Sistema Operativo. 1

Se nos pregunta si deseamos crear un acceso directo. Seleccionamos la opción correspondiente y hacemos clic en 'Instalar’. Seleccionamos la opción para que se cree el ícono en el escritorio. Hacemos clic en 'Terminar' para finalizar la instalación. Pasos: Objetivo 2: Instalar DBeaver Community  de acuerdo a su Sistema Operativo. 1 2 3

Abrimos la aplicación recién instalada. Seleccionamos la opción 'Excluir' para evitar que el antivirus analice la aplicación cada vez que se abra, lo que podría ralentizar el PC. Hacemos clic en ' Proceed ' para continuar. Pasos: Objetivo 2: Instalar DBeaver Community  de acuerdo a su Sistema Operativo. 2 3 1

Hacemos clic en el ícono azul señalado para abrir las opciones de conexión a las bases de datos. Seleccionamos la opción 'SQLSERVER’. Hacemos clic en ' Finish ' para continuar. Pasos: Objetivo 3: Crear conexión entre DBeaver   Community y el servidor SQL Server 2022. 1 2 3

Al abrirse la configuración de la conexión, procedemos a ingresar las credenciales proporcionadas por nuestro contenedor. En el campo 'Host', dejamos 'localhost' o '0.0.0.0’. En el campo ' Database Schema ', dejamos 'master' por defecto. En el campo 'Port', dejamos el puerto configurado en el contenedor, en este caso el 1434. En el campo 'Nombre de usuario', ingresamos el usuario con el que se configuró el contenedor, en nuestro caso 'SA’. En el campo 'Contraseña', ingresamos la contraseña que se asignó durante la configuración del contenedor. Pasos: Objetivo 3: Crear conexión entre DBeaver   Community y el servidor SQL Server 2022. 4 2 3 5 6 1

En la opción ' Inspect ' del contenedor, se pueden ver los datos de configuración, como el usuario, la contraseña, entre otros. Hacemos clic en 'Probar conexión'. Pasos: Objetivo 3: Crear conexión entre DBeaver   Community y el servidor SQL Server 2022. 1 2

Cuando se ejecuta por primera vez, el programa nos pedirá descargar los controladores necesarios. Hacemos clic en ' Download ’. Nos muestra el mensaje 'Conectado' si todo sale bien, y hacemos clic en 'OK'. Pasos: Objetivo 3: Crear conexión entre DBeaver   Community y el servidor SQL Server 2022. 1 2

La conexión será correcta si podemos visualizar la conexión y las bases de datos con sus esquemas del sistema. Pasos: Objetivo 3: Crear conexión entre DBeaver   Community y el servidor SQL Server 2022. 1

Hacemos clic derecho sobre ' Databases ' y seleccionamos la opción 'Crear nueva base de datos’. Le asignamos un nombre a nuestra base de datos; en este caso, será ' DataLake '. Pasos: Objetivo 4: Crear base de datos DataLake en el servidor de SQL Server 2022. 1 2

Accedemos al enlace de Datos Abiertos de Colombia ( https://datos.gov.co/browse?q=homicidios&sortBy=relevance&pageSize=20&limitTo=datasets ). En el buscador, ingresamos la palabra 'DIVIPOLA'. Pasos: Objetivo 5: Buscar y descargar datasets (CSV) en Datos Abiertos. 1

Seleccionamos el conjunto de datos titulado 'Códigos de departamentos geolocalizados'. Pasos: Objetivo 5: Buscar y descargar datasets (CSV) en Datos Abiertos. 1

Para validar el contenido de la información, podemos visualizarlo desde la pestaña 'Acciones’. Consultar datos. Pasos: Objetivo 5: Buscar y descargar datasets (CSV) en Datos Abiertos. 1 2

En esta sección podremos visualizar cómo están estructurados los datos. A continuación, descargamos los datos en formato CSV. Pasos: Objetivo 5: Buscar y descargar datasets (CSV) en Datos Abiertos. 1 1

El archivo se podrá visualizar en la carpeta de descargas. Procedemos a cambiar el nombre del archivo a ' DL_Departamentos '. Pasos: Objetivo 5: Buscar y descargar datasets (CSV) en Datos Abiertos. 1 2

Realizamos el mismo procedimiento de descarga para los conjuntos de datos de 'Códigos de municipios geolocalizados' y 'Homicidios'. Pasos: Objetivo 5: Buscar y descargar datasets (CSV) en Datos Abiertos. 1

Realizamos el mismo procedimiento de descarga para los conjuntos de datos de 'Códigos de municipios geolocalizados' y 'Homicidios'. Pasos: Objetivo 5: Buscar y descargar datasets (CSV) en Datos Abiertos. 1 1

Es importante aclarar que la cantidad de datos puede variar, ya que la base se actualiza constantemente. Por lo tanto, los resultados pueden cambiar dependiendo del día en que se descargue la base de datos. Pasos: Objetivo 5: Buscar y descargar datasets (CSV) en Datos Abiertos. 1

Al descargar la información de municipios y homicidios, se cambia de igual manera el nombre del archivo descargado a ' DL_Municipios ' y ' DL_Homicidios '. Pasos: Objetivo 5: Buscar y descargar datasets (CSV) en Datos Abiertos. 1

Nos dirigimos a la base de datos creada previamente, nos posicionamos sobre 'Tables', hacemos clic derecho y seleccionamos la opción ' Import Data'. Luego, hacemos clic en ella. Nos indica en qué formato se tomará la información y en qué parte de la base de datos será almacenada. Hacemos clic en 'Next' para continuar con el siguiente paso. Pasos: Objetivo 6: Importar datos de los datasets (CSV) al DataLake . 1 2 3

Seleccionamos el archivo que descargamos anteriormente, en este caso ' DL_Departamentos ', que será la fuente de la información para la tabla que se creará a continuación. Hacemos clic en 'Open' para continuar con el siguiente paso. Pasos: Objetivo 6: Importar datos de los datasets (CSV) al DataLake . 1 2

Se muestra la configuración por defecto del archivo a leer, y se indicará qué campos se tomarán para la tabla. Hacemos clic en 'Next' para continuar con el siguiente paso. Pasos: Objetivo 6: Importar datos de los datasets (CSV) al DataLake . 1 2

Podremos ver qué campos se incluirán en la creación de la tabla y cómo se corresponden con los encabezados del archivo de origen. Eliminamos los caracteres especiales y los espacios en los nombres de los campos para la creación de la tabla. Hacemos clic en 'Next' para continuar con el siguiente paso. Pasos: Objetivo 6: Importar datos de los datasets (CSV) al DataLake . 1 2 3

En esta parte, se nos indica si queremos truncar la tabla al crearla, o cada cuántos registros se irá guardando en la tabla, entre otras opciones. Hacemos clic en ' Proceed ' para crear e insertar la información. Pasos: Objetivo 6: Importar datos de los datasets (CSV) al DataLake . 1 2

Podemos ver la creación de la tabla. En esta parte, podemos observar cuáles son los campos y el formato que han quedado en la tabla. En esta parte, podemos observar los registros que se han cargado. Pasos: Objetivo 6: Importar datos de los datasets (CSV) al DataLake . 1 2 3

Podemos ver la creación de la tabla. En esta parte, podemos observar cuáles son los campos y el formato que han quedado en la tabla. En esta parte, podemos observar los registros que se han cargado. Pasos: Objetivo 6: Importar datos de los datasets (CSV) al DataLake . 1 2 3

Procedemos a realizar el mismo paso con los archivos ' DL_Municipios ' y ' DL_Homicidios ’. Se registra el siguiente error: los caracteres que acepta el campo 'NOM_DPTO' son menores a los datos que trae la información. Por lo tanto, se debe modificar el tamaño de caracteres que acepta el campo. Pasos: Objetivo 6: Importar datos de los datasets (CSV) al DataLake . 1 1

Se inicia todo el proceso nuevamente, y en el paso de 'Table Mapping ', vamos a 'Configuraciones’. Hacemos clic en 'Configuraciones' para cambiar la cantidad de caracteres que acepta el campo. Pasos: Objetivo 6: Importar datos de los datasets (CSV) al DataLake . 1 2

Cambiamos la cantidad de caracteres que puede almacenar el campo 'NOM_DPTO' y 'NOM_MPIO’. Damos clic en OK para guardar la nueva configuración Pasos: Objetivo 6: Importar datos de los datasets (CSV) al DataLake . 1 2

Al cambiar la cantidad de caracteres, se soluciona el error y se pueden cargar los datos de municipios. Los datos de homicidios se cargan de la misma manera. Pasos: Objetivo 6: Importar datos de los datasets (CSV) al DataLake . 1 2

Dificultades y Soluciones

Recursos utilizados

Conclusiones

Conclusiones