¿Qué ve un ordenador cuando lee un texto? ¿Entiende que "nueces" es el plural de "nuez"? ¿Es posible que distinga en contexto si la palabra "meses" es el plural de "mes" o una forma del verbo "mesar"? En esta sesión vamos a sumergirnos en el apa...
¿Qué ve un ordenador cuando lee un texto? ¿Entiende que "nueces" es el plural de "nuez"? ¿Es posible que distinga en contexto si la palabra "meses" es el plural de "mes" o una forma del verbo "mesar"? En esta sesión vamos a sumergirnos en el apasionante mundo de la lematización, el primer escalón en el procesamiento automático de un texto: veremos en qué consiste, por qué es fundamental, cómo podemos aplicarla en nuestro trabajo sobre textos y cuáles son los desafíos morfosintácticos y semánticos que nos plantea.
Sesión impartida en el Seminario Filologías Digitales hoy de la UNEX en Cáceres el 8 de febrero.
corruptísimas
tuerquecita
riéndose
dándoselas
corrupta
tuerca
reír
dar
LEMATIZADOR
-Lexicón
(lemas+categorías)
-Reglas morfológicas
-Paciencia.
Ingredientes para hacer
un lematizador:
Termina en -ito/a(s)
-illo/a(s)
-ísimo/a(s)
(sílaba tónica)
Quitamos la terminación:
arbolito>árbol
Añadimos O/E/IO
guapillo, excelentísimo, sucísimo
¿Raíz irregular?
QU->C; GU->G; GÜ->G; C->Z
En el caso de Z:
arrocito>arroc->arroz
Añado O/A
poquillo->poco;
agüita->agua;
Última vocal de la raíz
O->UE (fortísimo) E->IE
(calentito)
¿Termina en -bil?
-bil->ble (amabilísimo)
¿Termina en -rc /-nc/vocal+c?
mayorcito, camioncito, sofacito
¿Termina en -ec?
florecita
Añado O/E/IO
viejecito, sobrecito,
seriecísimo
¿Termina en -cec?
piececito->piecec->pie
Añadimos Z:
pececito->pecec->pez
Sí
¿Conozco esta palabra?
¿Está en mi base de datos
(lemario)?
Miro en el lemario su
lema y su
categoría
(MEMORIA)
Aplico el programa de
reglas
morfológicas
(REGLAS)
No