Analyse des performances de
modèles de langage sub-lexicale
pour des langues peu-dotées à
morphologie riche
Hadrien Gelas
1,2
, Solomon Teferra Abate
2
,
Laurent Besacier
2
, François Pellegrino
1
1
Laboratoire DDL, CNRS - Université de Lyon, France
2
LIG, CNRS - Université Joseph Fourier Grenoble, France
1 2 3
Introduction
Segmentation
des données
textuelles
Résultats
Introduction
1
333
Amharique
Langue
Sémitique
333
Swahili
Langue
Bantu
J!
"
r
l
r
l
Dictionnaire
prononciation
Sorties
texte
Modèles
acoustiques
Modèles
de langage
Reconnaissance
Automatique de la
Parole (RAP)
J!
"
r
l
r
l
AMH : 20h de parole lue
SWH : 2h30 de parole lue
+ 10h de broadcast news
Dictionnaire
prononciation
Sorties
texte
Modèles
acoustiques
Modèles
de langage
Ressources en RAP
J!
"
r
l
r
l
65k mots les plus fréquents
pour les 2 langues
Ressources en RAP
Dictionnaire
prononciation
Sorties
texte
Modèles
acoustiques
Modèles
de langage
J!
"
r
l
r
l
Dictionnaire
prononciation
Sorties
texte
Modèles
acoustiques
Modèles
de langage
Ressources en RAP
AMH : 2.3M de mots
SWH : 28M de mots
Amharique et swahili
Morphologie riche
Morphologie Riche
en swahili
English They will not tell you
Morphologie Riche
en swahili
English They will not tell you
Swahili hawatakuambieni
Morphologie Riche
en swahili
English They will not tell you
Swahili hawatakuambieni
Segm. ha-wa-ta-ku-ambi-e-ni
Gloss NEG-SM2-FUT-OM2-tell-FIN-PL
Morphologie Riche
et RAP
[Creutz et al., 2007]
Morphologie Riche
et RAP
Faible couverture lexicale
OOV% élevé!
3!
Segmentation des mots en
sous-unités !
Segmentation des
données
2
3 approches et
3 étiquetages
Approche #1
Approche non-supervisée
(Morfessor), guidée par les
données.
liste de mots liste de morphes
3!
Approche #2
Approche supervisée, nécessite un
corpus d’apprentissage
manuellement segmenté.
liste de mots liste de morphèmes
3!
Approche #3
Découpage en syllabe à partir de
règles suivant les contraintes
phonologiques et structurelles des
langues respectives
liste de mots liste de syllabes
3!
J!
"
r
l
r
l
Dictionnaire
prononciation
Sorties
texte
Modèles
acoustiques
Modèles
de langage
Ressources en RAP
On apprend des modèles de
langage à partir des corpus
segmentés en sous-unités
J!
"
r
l
r
l
Dictionnaire
prononciation
Sorties
texte
Modèles
acoustiques
Modèles
de langage
Ressources en RAP
Nécessite de reconstruire les
sorties au niveau mot !
Etiquetage #1
_AFX : Une frontière (MB) est ajoutée
à la gauche (ou droite) de la
segmentation laissant la « racine »
isolé.
ki tabu kiMB tabu kitabu 3! 3!
Etiquetage #2
_ALL : Une frontière (MB) est ajoutée
de chaque côté de la segmentation.
Distinguant ainsi chaque racine par
sa position (ROOT, MBROOT, ROOTMB,
MBROOTMB)
ki tabu kiMB MBtabu kitabu 3! 3!
Etiquetage #3
_POS : Pour les syllabes, nous avons
ajoutés à la syllabe la position de la
syllabe dans le mot.
ki ta bu 1ki 2ta 3bu kitabu 3! 3!
Résultats (WER)
"
r
l
r
l
Sorties
texte
J!3
Dictionnaire
prononciation
Modèles
acoustiques
Modèles
de langage
Résultats swahili (WER)
Résultats amharique (WER)
Résultats (OOV %)
Conclusion
RAP : langues à morphologie riche
Mots Sous-unités
= Amélioration du WER%
= Amélioration du OOV%
Si segmentation appropriée !
3!
Récapitulatif
Influence sur performances =
3 paramètres
#1 : Longueur couverte par n-gram
si suffisante…
#2 : Couverture lexicale
si suffisante…
#3 : Précision des contextes