Jep 2012 wrkshp

tihtow 750 views 33 slides Jun 11, 2012
Slide 1
Slide 1 of 33
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33

About This Presentation

No description available for this slideshow.


Slide Content

Analyse des performances de
modèles de langage sub-lexicale
pour des langues peu-dotées à
morphologie riche
Hadrien Gelas
1,2
, Solomon Teferra Abate
2
,
Laurent Besacier
2
, François Pellegrino
1
1
Laboratoire DDL, CNRS - Université de Lyon, France
2
LIG, CNRS - Université Joseph Fourier Grenoble, France

1 2 3
Introduction
Segmentation
des données
textuelles
Résultats

Introduction
1

333
Amharique


Langue
Sémitique

333
Swahili


Langue
Bantu

J!
"
r
l
r
l
Dictionnaire
prononciation
Sorties
texte
Modèles
acoustiques
Modèles
de langage
Reconnaissance
Automatique de la
Parole (RAP)

J!
"
r
l
r
l
AMH : 20h de parole lue
SWH : 2h30 de parole lue
+ 10h de broadcast news
Dictionnaire
prononciation
Sorties
texte
Modèles
acoustiques
Modèles
de langage
Ressources en RAP

J!
"
r
l
r
l
65k mots les plus fréquents
pour les 2 langues
Ressources en RAP
Dictionnaire
prononciation
Sorties
texte
Modèles
acoustiques
Modèles
de langage

J!
"
r
l
r
l
Dictionnaire
prononciation
Sorties
texte
Modèles
acoustiques
Modèles
de langage
Ressources en RAP
AMH : 2.3M de mots
SWH : 28M de mots

Amharique et swahili

Morphologie riche

Morphologie Riche
en swahili
English They will not tell you

Morphologie Riche
en swahili
English They will not tell you

Swahili hawatakuambieni

Morphologie Riche
en swahili
English They will not tell you

Swahili hawatakuambieni

Segm. ha-wa-ta-ku-ambi-e-ni

Gloss NEG-SM2-FUT-OM2-tell-FIN-PL

Morphologie Riche
et RAP
[Creutz et al., 2007]

Morphologie Riche
et RAP
Faible couverture lexicale
OOV% élevé!
3!
Segmentation des mots en
sous-unités !

Segmentation des
données
2
3 approches et
3 étiquetages

Approche #1
Approche non-supervisée
(Morfessor), guidée par les
données.

liste de mots liste de morphes
3!

Approche #2
Approche supervisée, nécessite un
corpus d’apprentissage
manuellement segmenté.

liste de mots liste de morphèmes
3!

Approche #3
Découpage en syllabe à partir de
règles suivant les contraintes
phonologiques et structurelles des
langues respectives

liste de mots liste de syllabes
3!

J!
"
r
l
r
l
Dictionnaire
prononciation
Sorties
texte
Modèles
acoustiques
Modèles
de langage
Ressources en RAP
On apprend des modèles de
langage à partir des corpus
segmentés en sous-unités

J!
"
r
l
r
l
Dictionnaire
prononciation
Sorties
texte
Modèles
acoustiques
Modèles
de langage
Ressources en RAP
Nécessite de reconstruire les
sorties au niveau mot !

Etiquetage #1
_AFX : Une frontière (MB) est ajoutée
à la gauche (ou droite) de la
segmentation laissant la « racine »
isolé.

ki tabu kiMB tabu kitabu 3! 3!

Etiquetage #2
_ALL : Une frontière (MB) est ajoutée
de chaque côté de la segmentation.
Distinguant ainsi chaque racine par
sa position (ROOT, MBROOT, ROOTMB,
MBROOTMB)

ki tabu kiMB MBtabu kitabu 3! 3!

Etiquetage #3
_POS : Pour les syllabes, nous avons
ajoutés à la syllabe la position de la
syllabe dans le mot.

ki ta bu 1ki 2ta 3bu kitabu 3! 3!

Résultats (WER)
"
r
l
r
l
Sorties
texte
J!3
Dictionnaire
prononciation
Modèles
acoustiques
Modèles
de langage

Résultats swahili (WER)

Résultats amharique (WER)

Résultats (OOV %)

Conclusion
RAP : langues à morphologie riche

Mots Sous-unités
= Amélioration du WER%
= Amélioration du OOV%

Si segmentation appropriée !
3!

Récapitulatif
Influence sur performances =
3 paramètres
#1 : Longueur couverte par n-gram
si suffisante…
#2 : Couverture lexicale
si suffisante…
#3 : Précision des contextes

19.17
12.46
10.28
11.36
1.61
Word-65k Word-200k Word-400k Morf-65k Morf-200k
Résultats swahili (TYPE OOV %)

Comparaison – swahili
approches et étiquetages