La minería de datos en el proceso de KDD donde se desarrollara los temas: Etapas de proceso de KDD,
Integración y recopilación, Selección, limpieza y transformación,
Minería de Datos, Evaluación e Interpretación, Difusión y uso; las cuales impartirán en cuatro horas semanales.los contenido...
La minería de datos en el proceso de KDD donde se desarrollara los temas: Etapas de proceso de KDD,
Integración y recopilación, Selección, limpieza y transformación,
Minería de Datos, Evaluación e Interpretación, Difusión y uso; las cuales impartirán en cuatro horas semanales.los contenidos de la unidad 2.
Size: 1.53 MB
Language: es
Added: Sep 10, 2021
Slides: 33 pages
Slide Content
Minería de Datos I
Dr. Ricardo Rico Molina [email protected]
Centro Universitario UAEM Nezahualcóyotl
Directorio
Titulo de la presentación
Directorio
Nezahualcóyotl
Titulo de la presentación
Dra. en C. MagallyMartínez Reyes
Encargada del Despacho de la Dirección del Centro Universitario UAEM Nezahualcóyotl
M. en GyA. P. Ma.
Teresa Cruz Patiño Subdirector Académico
CP.
Martha Osorio González Subdirector Administrativo
D. en C.A.
Oliverio Cruz Mejía Coordinadora de Investigación y Estudios Avanzados
M. en A.
VictorManuel Durán López Coordinador de Planeación y Desarrollo Institucional
M. en C. E.
Cesar Lucio Gutiérrez Ruiz Coordinador de la Licenciatura en Comercio Internacional
M S.S.
Carlos Anaya Hernández. Coordinadora de la Licenciatura en Educación para la Salud
Dra. en Ing. de Sist.
Doricela Gutiérrez Cruz Coordinador de la Licenciatura en Ingeniería en Sistemas
Inteligentes
M. en I.
Javier Romero Torres Coordinador de la Licenciatura en Ingeniería en Transporte
Dr. en E.J.
Rodolfo Téllez Cuevas Coordinador de la Licenciatura en Seguridad Ciudadana
Mapa curricular
Titulo de la presentación
Contenido
Titulo de la presentación
Minería de Datos
Unidad 2. La minería de datos en el proceso de KDD
Contenidos:
2.1 Etapas de proceso de KDD
2.1.1 Integración y recopilación
2.1.2 Selección, limpieza y transformación
2.1.3 Minería de Datos
2.1.4 Evaluación e Interpretación
2.1.5 Difusión y uso
Secuencia
Didáctica
Unidad 2. La minería de datos en el proceso de KDD
2.1EtapasdeprocesodeKDD
2.1.1 Integración y recopilación
2.1.2 Selección, limpieza y transformación
2.1.3 Minería de Datos
2.1.4 Evaluación e Interpretación
2.1.5 Difusión y uso
Presentación
Titulo de la presentación
ElpresenteMaterialVisualdelaUnidaddeAprendizajeMineriade
datosdelalicenciaturaenIngenieríaenSistemasInteligentesreúne
loscontenidosdelaunidad2.Lamineríadedatosenelprocesode
KDDdondesedesarrollaralostemas:EtapasdeprocesodeKDD,
Integraciónyrecopilación,Selección,limpiezaytransformación,
MineríadeDatos,EvaluacióneInterpretación,Difusiónyuso;las
cualesimpartiránencuatrohorassemanales.
2.1 Etapas de proceso de KDD
¿Que es KDD?
De acuerdo a Fallad et al., 1996 el KDD es el Proceso no trivial de
identificar patrones válidos, novedosos, potencialmente útiles y, en
última instancia, comprensibles a partir de los datos .
El cual se encarga de la preparación de los datos y la interpretación de
los resultados obtenidos, los cuales dan un significado a estos patrones
encontrados.
2.1 Etapas de proceso de KDD
¿Que es KDD?
Los conceptos con los que podemos definir el KDD son Lenguaje de
alto nivel, precisión, Interés y Eficiencia. Los cuales se definen:
Lenguaje de alto nivel: El conocimiento descubierto se representa en
un lenguaje de alto nivel, inteligible desde el punto de vista humano.
2.1 Etapas de proceso de KDD
¿Que es KDD?
Precisión: Los descubrimientos representan el contenido de la base de
datos que, como reflejo de la realidad, puede contener imperfecciones
y ruido. Por tanto, será raro que algún conocimiento se cumpla con
todos los datos. El grado de certidumbre medirá el crédito o confianza
que el sistema o usuario puede asignar a cierto descubrimiento; si la
certeza no es lo suficientemente alta, los patrones descubiertos no
llegarán a ser conocimiento.
2.1 Etapas de proceso de KDD
¿Que es KDD?
Interés:Aunque es posible extraer numerosos patrones de cualquier
base de datos, sólo se consideran como conocimiento aquéllos que
resulten interesantes según ciertos criterios del usuario. En particular,
un patrón interesante debe ser nuevo, potencialmente útil y no trivial.
2.1 Etapas de proceso de KDD
¿Que es KDD?
Eficiencia:Son deseables procesos de descubrimiento que puedan ser
eficientemente implementados en una computadora. Se considera que
un algoritmo es eficiente cuando su tiempo de ejecución y el espacio
de memoria requerido crecen de forma polinomial con el tamaño de
los datos de entrada
2.1 Etapas de proceso de KDD
¿Que es KDD?
Es la convergencia del Aprendizaje Automático, la Estadística, el
“reconocimiento de patrones”, “la inteligencia artificial”, “las bases de
datos”, “la visualización de datos”, “los sistemas para el apoyo a la
toma de decisiones”, “la recuperación de información”, entre otros
campos
Las metas del KDD son:
• Procesar automáticamente grandes cantidades de datos crudos.
• Identificar los patrones más significativos y relevantes.
• Presentarlos como conocimiento apropiado para satisfacer las metas
del usuario (Vallejo, 2006).
2.1 Etapas de proceso de KDD
Metodología KDD
2.1 Etapas de proceso de KDD
Selección
Determinar los objetivos que se deseen lograr, estos, deben ser precisos o
medibles
Preprocesamiento
Recolectar datos útiles para alcanzar los objetivos, así como verificar que la
base de datos sea coherente, confiable, relevante y actualizada
2.1 Etapas de proceso de KDD
Transformación
Grafica los datos para tener una perspectiva de la información, en caso de
observar comportamientos atípicos o out-layer, proceder a limpiarlos. Si
existen múltiples dimensiones que no permita procesar la información
correctamente, se puede reducir para manipularlo
Minería de Datos
Elegir el algoritmo que mas se adecue a la problemática que se requiere
resolver (Cluster, Arboles , regresión, red neuronal, valles)
2.1 Etapas de proceso de KDD
Interpretación del conocimiento
En la evaluación, verificar que los supuestos de evaluación se cumplan
(Bootstrappingo crossvalidation). Se puede replantear el problema para
probar otro algoritmo
2.1 Etapas de proceso de KDD
Cabe decir que existen otras metodologías como CRISP-DM, SEMMA
2.1.1 Integración y recopilación
Se deben identificar los datos necesarios, sus fuentes e
integrarlos.
La integración con lleva solucionar conflictos de tipos de datos,
niveles de agregación, llaves primarias y foráneas, codificación,
etc.
Esta integración da lugar a data warehouse(almacenes de datos)
Se sugiere:
Hacer una copia de las BD integrantes eliminando
inconsistencias.
Aplicar Data warehouse(Implica agregar y cruzar información,
generando una DB multidimensional)
2.1.2 Selección, limpieza y transformación
“La calidad de los datos obtenidos influye en el resultado
final.”
Esbiensabidoqueenlamineríadedatosnobastaen
aplicardiferentealgoritmos,paraobtenerinformación,es
poresolanecesidadeimportanciadeunaselección
adecuada.
Después de integrarlos esta fase da pie a mejorar los datos
por medio de la limpieza y trasformación.
2.1.2 Selección, limpieza y transformación
En este sentido se hace necesario identificar los datos
necesarios y lo que no va a aportar nada.
Porlocualseprocedeaidentificaryeliminar.El
procesodeeliminacióndedatosfueraderangoo
atípicos,enalgunoscasomodificanfuertementeel
resultado(caberesaltaqueestadecisióndependedel
tipodeproblemaqueestemosenfrentando,debidoa
queenelcasodemovimientosatípicosencuentas
bancarias,daríainformaciónquepodríaayudarala
deteccióndefraudes)
2.1.2 Selección, limpieza y transformación
Recordar que se pueden tener datos atípicos
(outliers), pero también se tiene que encontrar datos
faltantes (missingvalues), si es posible saber el motivo
de la omisión.
“No todos los atributos son relevantes”
En este sentido debido a que ya se ha hecho trabajo
en conocer el objeto de estudio, permitirá de forma
fácil discernir que atributo me va a servir.
2.1.2 Selección, limpieza y transformación
Algunos atributos pueden construirse
Algunos atributos pueden generarse de la interacción
de varios, a través de operaciones y que apoyarían a la
simplificación de la base de datos
El tipo de atributos puede cambiarse
Desde el punto del proceso de algunos algoritmos , se
facilita el proceso de estos, si, los datos son
discretizados
2.1.3 Minería de Datos
En esta fase, lo que se busca es extraer conocimiento
o información útil, para el usuario. Esto puede ser
por medio de modelos basados en los datos, lo que
permite obtener respuestas.
“La selección del algoritmo adecuado para el tipo de
problema”
La experiencia determinara como se procesa los datos,
existen diversos tipos de tareas, que ayudara a
procesar los datos de mejor manera (no se saca un
tornillo con un martillo)
2.1.3 Minería de Datos
Ahondando en el punto anterior, se tienen que tener
en cuenta, los tipos de datos que maneja cada tarea.
“Determinar que tipo de tarea aplica a nuestra
problemática (clasificación, regresión, clusterizacion,
correlación, asociación, asociación secuencial)”
Clasificación: valores discretos (se obtienen
predicciones de nuevas instancias de acuerdo a los
datos alimentados)
2.1.3 Minería de Datos
Regresión: valores reales ( se obtiene instancias cuyo
fin es predecir instancias nuevas por medio de una
función)
Clusterizacion: valores discretos (los grupos obtenidos
son de elementos con un grado alto de similitud entre
instancias)
2.1.3 Minería de Datos
Correlaciones: valores reales (la correlación indica que
grado de relación tienen los datos )
Asociación: valores discretos (se obtiene reglas de
asociación, basadas en relación de tipo “A es B =› C es
D ” )
Asociación secuencial: Valores discretos y reales (se
obtiene reglas de asociación dependientes de una
dimensión temporal)
2.1.3 Minería de Datos
Tarea:
•Buscar una base de datos para proyecto final
•Reportar que tareas o algoritmos para
procesamiento de datos conoce
2.1.4 Evaluación e Interpretación
En esta fase es importante obtener patrones precisos,
comprensibles e interesantes.
“Si no es entendible lo obtenido una o varias fases
puede estar mal planteadas”
Si bien es cierto, una tarea llevada adecuadamente
será interpretada de manera automática, se podría
asumir que con esto están validadas, esta suposición
es errónea.
2.1.4 Evaluación e Interpretación
“La validación esnecesaria”
Una forma rápida para validar seria mediante el uso de
datos o casos distintos, a los que se usaron en el
entrenamiento (Valida dación Simple y Validación Cruzada).
Así mismo es importante recordar loanteriornoes
general,para cada tipo de tarea existe la validación
adecuada.
2.1.5 Difusión y uso
Ladifusiónyusoseenfoca;enrecomendacionescon
basealmodeloobtenidoyatravésdeesteaplicarloa
distintosdatos.
Asímismosehacelamención,queelmodelo
obtenido,essusceptibleamodificaciones
adaptaciones,porlacontinuaevolucióndelos
sistemas.
REFERENCIAS
1. KantardzicM. (2011). “Data mining: concepts, models, methods, and algorithms” Ed John Wiley : IEEE Press. ISBN: 0470890452 9780470890455
2. Kao A. PoteetS. (2010). “Natural languageprocessingand textmining” Ed. Springer ISBN: 9781849965583 9781846287541
3. Han J. KamberM. PeiJ. (2011). “Data mining: conceptsand techniques” Ed. Elselvier. ISBN: 9780123814791 9789380931913 0123814790
4. BasuS. Davidson I. WagstaffK. (2009). “Constrainedclustering: advancesin algorithms, theory, and applications” Ed. CRC PressISBN: 9781584889960
5. LongB. Zhang Z, YuP. (2010) “Relationaldata clustering: models, algorithms, and applications” Ed. Chapman & Hall/CRC ISBN: 9781420072617
6. Ian H. Witten, EibeFrank, Mark A. Hall.(2011) Data mining: practicalmachine learningtoolsand techniquesEd. Elsevier ISBN: 9780123748560
7. Hernández J Ramírez M. Ferri C. (2004) “Introducción a la minería de datos” Ed. Pearson Educación : Prentice Hall ISBN: 9788420540917 8420540919
8. DunhamM. (2003) “Data miningintroductoryand advancedtopics” Ed. Prentice Hall/Pearson EducationISBN: 0130888923
9. GrowthR. (2000). “Data mining: buildingcompetitiveadvantage” Ed. Prentice Hall PTR ISBN: 0130862711
10. Feldman R. Sanger J. (2007). “Thetextmininghandbook: advancedapproachesin analyzingunstructureddata” Ed. Cambridge UniversityPressISBN:
0521836573 9780521836579
11. ShmueliG. Patel N. Bruce P. (2010). “Data miningforbusinessintelligence: concepts, techniques, and applicationsin Microsoft Office Excel with
XLMiner” Ed.WileyISBN: 9780470526828
12. BratkoI. (2001). “Prologprogrammingforartificial intelligence” Ed. Pearson
13. FayyadU. (1996). Advancesin knowledgediscovery. Ed. Pearson ISBN: 0262560976
14. Pajares P. Sanz.M. (2006). “Inteligencia artificial e ingeniería del conocimiento” Ed. Alfa omega ISBN 9701511662
15. Palma J. MarinM. (2008). “Inteligencia artificial técnicas, métodos y aplicaciones”. Ed. McGraw-Hill ISBN 9788448156183
16. BeltranB (s/a), “Notas Mineria de Datos” , FCC
17. Vallejos S. (2006) “Mineria de datos” LSIC