La lematizacion de textos

lirondos 693 views 40 slides Feb 10, 2017
Slide 1
Slide 1 of 40
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40

About This Presentation

¿Qué ve un ordenador cuando lee un texto? ¿Entiende que "nueces" es el plural de "nuez"? ¿Es posible que distinga en contexto si la palabra "meses" es el plural de "mes" o una forma del verbo "mesar"? En esta sesión vamos a sumergirnos en el apa...


Slide Content

La lematización de textos
Elena Álvarez Mellado
Seminario Filologías Digitales hoy

¿Qué es la
lematización?

¿Cómo funciona
un lematizador?

limones
dijo
corruptas
nueces
cantábamos
limón
decir
corrupto
nuez
cantar
LEMATIZADOR

corruptísimas
tuerquecita
riéndose
dándoselas
corrupta
tuerca
reír
dar
LEMATIZADOR

-Lexicón
(lemas+categorías)
-Reglas morfológicas
-Paciencia.
Ingredientes para hacer
un lematizador:

Termina en -ito/a(s)
-illo/a(s)
-ísimo/a(s)
(sílaba tónica)
Quitamos la terminación:
arbolito>árbol
Añadimos O/E/IO
guapillo, excelentísimo, sucísimo
¿Raíz irregular?
QU->C; GU->G; GÜ->G; C->Z
En el caso de Z:
arrocito>arroc->arroz
Añado O/A
poquillo->poco;
agüita->agua;
Última vocal de la raíz
O->UE (fortísimo) E->IE
(calentito)
¿Termina en -bil?
-bil->ble (amabilísimo)
¿Termina en -rc /-nc/vocal+c?
mayorcito, camioncito, sofacito
¿Termina en -ec?
florecita
Añado O/E/IO
viejecito, sobrecito,
seriecísimo
¿Termina en -cec?
piececito->piecec->pie
Añadimos Z:
pececito->pecec->pez


¿Conozco esta palabra?
¿Está en mi base de datos
(lemario)?
Miro en el lemario su
lema y su
categoría
(MEMORIA)
Aplico el programa de
reglas
morfológicas
(REGLAS)
No

"palabra": "los"
"lema": "el"
"categoria": "articulo"
"analisis": "ADMP"

"palabra": "ciudadanos"
"lema": "ciudadano"
"categoria": "sustantivo"
"analisis": "NCMP"

"palabra": "reciben"
"lema": "recibir"
"categoria": "verbo"
"analisis": "VPI3P"


"palabra": "el"
"lema": "el"
"categoria": "articulo"
"analisis": "ADMP"

"palabra": "euro"
"lema": "euro"
"categoria": "sustantivo"
"analisis": "NCMP"

"palabra": "con"
"lema": "con"
"categoria": "preposición"
"analisis": "P000"

"palabra": "euforia"
"lema": "euforia"
"categoria": "sustantivo"
"analisis": "NCFS"





Los ciudadanos reciben el euro
con euforia

Pon un lematizador
en tu vida

Lematizadores de código abierto
Freeling (UPC)

NLTK (Natural Language Toolkit)

openNLP

Stanford CoreNLP

API

AntConc
+

Corpus anotados
Corpus AnCora (UB)

GitHub del grupo CLIG: FR ES PT

Corpus BROWN y LOB

Stanford NLP corpora

Corpus lematizados consultables
Corpus del español de Mark Davis
http://corpusdelespanol.org/

CORPES (RAE)
http://web.frl.es/CORPES/view/inicioExterno.
view