Etiquetage morpho-syntaxique

Les expériences sur l’étiquetage morpho-syntaxique ont été réalisées en collaboration avec Isabelle Tellier (LIFO, Université d’Orléans – Lattice).

L’annotation morphosyntaxique consiste à attribuer à chaque unité lexicale du corpus une étiquette apportant certaines informations (sa catégorie syntaxique, ses éventuels genre, nombre, temps verbal, etc.) dans le contexte où elle apparaît. Pour étiqueter ESLO, nous avons choisi de développer notre propre étiqueteur en utilisant la technique d’apprentissage automatique : les CRF (Tellier et Tommasi, 2011), qui permettent de construire un modèle statistique à partir de données étiquetées fournies en exemple.

En 2010, nous avons réalisé des premières expériences exploitant les CRF décrites dans (Eshkol et al., 2010), en partant d’un corpus d’apprentissage déjà segmenté et annoté manuellement. Le programme développé permettait d’attribuer une étiquette morphosyntaxique à une unité lexicale selon trois niveaux :

oui

ADV

ADV

ADV

en_effet

ADV

ADV

ADV

on

P

P3I

P3IPER

peut

V

V3SINDP

V3SINDP

commencer

V

VINF

VINF

rire

V

VINF

VINF

Dans la suite du travail, nous avons réfléchi à quelques modifications dans le jeu d’étiquettes, en prenant encore plus en compte les spécificités de l’oral : « marqueurs discursifs » (MD) incluant trois sous-classes : MD (marqueurs discursifs propres), MDEUH (euh d’hésitation) et MDINT (interjections) et « présentatif » (PRES) pour les structures comme « c’est », « voici », etc. Les expériences d’apprentissage ont tenu compte des nouvelles étiquettes et du format original du fichier :

<Turn speaker="spk2" startTime="5.0" endTime="7.533">

<Sync time="5.0"/>

<Sync time="5.03"/>

<w total="CONJCOO"> et </w>

<w total="PIINT"> qu’est-ce qui </w>

<w total="P2PPERCOMPL"> vous </w>

<w total="V3SINDPAUX"> a </w>

<w total="VMSPP"> amené </w>

<w total="PREP"> à </w>

<w total="VINF"> vivre </w>

<w total="PREP"> à </w>

<w total="NP"> Orléans </w>

</Turn>

Les résultats des deux expériences ont été moins bons que les performances annoncées des autres étiqueteurs actuels du français. Les raison en sont des irrégularités de l’oral, le nombre élevé d’étiquettes et la taille pas suffisante du corpus de référence.  Nous avons ainsi décidé d’arrêter pour le moment les expériences et utiliser l’étiqueteur TCOF-POS (Benzitoun et al., 2012) développé récemment pour l’oral qui obtient les meilleurs résultats.

Lien utilehttps://launchpad.net/cteslo

TéléchargementsGuide d'annotation, le Corpus de référence étiqueté et des Fichiers annotés en EN et DE

Références :

Eshkol-Taravella I., Baude O., Maurel D., Hriba I., Dugua C., Tellier I., « Un grand corpus oral « disponible » : le corpus d’Orléans 1968-2012 ». in Ressources linguistiques libres, TAL. Volume 52, n° 3, p. 17-46, 2012.

Eshkol I., Tellier I, Taalab S., Billot S., « Étiqueter un corpus oral par apprentissage automatique à l’aide de connaissances linguistiques », 10es Journées Internationales d’analyse statistique des données textuelles JADT 2010, Rome, 9-11 juin, 2010.

Tellier I., Tommasi M., « Champs Markoviens Conditionnels pour l’extraction d’information », dans Modèles probabilistes pour l’accès à l’information textuelle, Hermès, 2011, p. 223-267.