Estudiante: Laura Andrea Orozco Cerón
Director(es): Robinson Arley duque PhD.
Raúl Ernesto Gutiérrez PhD.
Implementación de algoritmo de
clasificación de documentos en
formato PDF basado en técnicas
de Machine Learning
COMPAÑÍA ENERGÉTICA
Con un alto volumen de documentos de sus
transformadores respecto a mantenimiento de
gases, aceites y furanos.
PREVENCIÓN DE FALLAS
La detección temprana de algún fallo en alguna de
estas tres mediciones podría ahorrar gastos en
nuevos dispositivos de transmisión de energía.
SOLUCIÓN INTELIGENTE
La compañía quiere invertir en un proyecto que
solucione la obtención de estos datos los cuales se
encuentran registrados en documentos en PDF e
imágenes.
Contexto
del
problema
Planteamiento
del problema
DESCRIPCIÓN DEL PROBLEMA
Actualmente la mayor cantidad de datos
no son tratados ni procesados para
generar información en la toma de
decisiones.
Optimizar procesos que demandan altas
tasas del tiempo de producción a los
colaboradores de la empresa.
Transformar la data almacenada en
archivos como audio, imágenes, video,
texto entre otros, en información
manipulable y explotable.
¿Como desplegar un
algoritmo de
clasificación de
documentos de formato
PDF basado en técnicas
de Machine Learning
que permita reducir los
tiempos de operación de
esta tarea?
Objetivos
GENERAL
GENERAR UN MODELO PARA
CLASIFICACIÓN DE INFORMES
DE MANTENIMIENTO DE LOS
TRANSFORMADORES
ELÉCTRICOS UTILIZANDO
TÉCNICAS DE APRENDIZAJE DE
MÁQUINA.
Objetivos
ESPECÍFICOS
EVALUAR MÁXIMO 3 ALGORITMOS
DE APRENDIZAJE DE MÁQUINA
PARA CLASIFICACIÓN DE
DOCUMENTOS.
PREPROCESAR LOS DOCUMENTOS
ENTREGADOS POR LA COMPAÑÍA
PARA LA GENERACIÓN DE LOS
DATOS DE ENTRENAMIENTO.
ENTRENAR MODELOS DE
CLASIFICACIÓN DE DOCUMENTOS
DEL ESTUDIO CON DATOS DE
PRUEBA.
Objetivos
ESPECÍFICOS
EVALUAR EL RENDIMIENTO DEL
MODELO DE CLASIFICACIÓN DE
DOCUMENTOS.
DESPLEGAR UNA SOLUCIÓN DE
CLASIFICACIÓN DE DOCUMENTOS
BASADO EN TÉCNICA/ALGORITMO
DE MACHINE LEARNING Y
GUARDAR SUS REPORTES DE
FORMA ESTRUCTURADA
Justificación
DATOS
Actualmente la mayor cantidad
de datos no son tratados ni
procesados para generar
información en la toma de
decisiones de una empresa, estos
pueden llegar a ser el 80% de
información no explorada.. Apalancar la
innovación y la
transformación
digital
ENRIQUECER
Como enriquecer la información
almacenada en la compañía a
través del procesamiento de
documentos físicos, pdfs,
imágenes, entre otros.
INNOVACIÓN
Aporta a la innovación
tecnológica promoviendo
optimización de recursos en
operaciones manuales.
SCHERZ, 2018
Esta problemática puede ser abordada a partir de
técnicas de aprendizaje supervisado, tales como:
Naive Bayes, SVM, Redes Neuronales y Máxima
Entropía.
FIGUEROLA,2017
Señala tambien las bondades del aprendizaje
supervisado, donde resalta que el algoritmo mas
apropiado en el reto de clasificación de
documentos es el algoritmo de clasificación
bayesiana.
RUIZ, 2019
comenta dentro de su investigación los siguientes
algoritmos de abordaje que generaron buenos
resultados: Regresión logística, máquinas de vector
soporte (SVM), árboles de decisión , Random Forest
y el clasificador Naive Bayes.
Antecedentes
Crisp DM
Metodología
Etapa 1: Entendimiento del negocio
Fase: Conocimiento del negocio, entendimiento
de la necesidad y situación actual
Etapa 2: Entendimiento de los datos
Fase: Entendimiento de las fuentes de datos, el
almacenamiento de las mismas y priorizar las
necesidades del cliente
Etapa 3: Preparación de los datos
Fase: Procesamiento de etiquetado de imágenes
para entrenamiento.
Metodología
Etapa 4: Modelación
Fase: Realizar el entrenamiento y estimación de
parámetros de cada modelo y realizar
predicciones con los datos de prueba.
Etapa 5: Evaluación
Fase: Calcular indicadores de rendimiento y
documentar los resultados obtenidos en cada
algoritmo.
Etapa 6: Despliegue (Trabajo futuro*)
Fase: Automatizar el código a manera de
herramienta de uso y entregar manual de uso
Crisp DM