Annotation des entités nommées et dénommantes

L’Annotation des entités nommées et dénommantes a été effectuée en collaboration avec Denis Maurel (LI de Tours). Ce type d’annotation a été réalisé sur une partie du corpus ESLO1[1] : 112 entretiens en face-à-face. Elle s’est faite en deux étapes. Nous avons repéré et annoté, en premier lieu, les entités nommées comme le nom de la personne, son âge ou son lieu de travail. Nous avons recherché ensuite les éléments plus personnels concernant le locuteur que nous avons appelés « entités dénommantes » (Eshkol, 2010) comme son métier, le nombre d’enfants qu’il avait, le métier de son conjoint, etc. Le processus de reconnaissance de ces informations s’est effectué sur le corpus annoté en entités nommées.

Pour repérer et annoter les entités nommées et dénommantes, nous avons utilisé le système CasSys (Friburger, 2002)intégré àla plate-forme Unitex (Paumier, 2003). L’analyse de ce corpus a permis de créer des règles d’extraction (patrons) fondées sur des questions posées au cours de l’entretien et sur les structures répétées dans les réponses. La méthodologie choisie a tenu compte de la nature des données et des objectifs bien précises liées à l’anonymisation du corpus diffusé. Les entités annotées concernent les informations sur la personne interrogée (pers.speaker), son conjoint (pers.spouse), ses enfants (pers.child) et d’autres membres de la famille (pers.parent)

Voici quelques exemples d’annotation :

–        <DE type="pers.child"> il est parti <DE type="work.location"> à <ENT type="loc.admi"> Paris </ENT></DE> il travaille dans les <Sync time="1526.195"/> <DE type="work.field"> dans les assurances </DE></DE>

–        alors <DE type="pers.speaker"> <DE type="identity.name"> je suis <ENT type="pers.hum"> monsieur Gabrion </ENT></DE></DE> <DE type="pers.speaker"> je suis <DE type="work.occupation"> ingénieur chimiste </DE> </DE>

L’annotation a été réalisée sur cent douze fichiers Transcriber, soit un total de 35,75 Mo.

Pour plus de détails voir (Maurel et al., 2011, Eshkol-Taravella et al., 2012).

Références :

Eshkol-Taravella I., Baude O., Maurel D., Hriba I., Dugua C., Tellier I., « Un grand corpus oral « disponible » : le corpus d’Orléans 1968-2012 ». in Ressources linguistiques libres, TAL. Volume 52, n° 3, p. 17-46, 2012.

Eshkol I., (2010) « Entrer dans l’anonymat. Etude des "entités dénommantes" dans un corpus oral », Eigennamen in der gesprochenen Sprache, Narr Francke Attempto Verlag GmbH, Germany, p. 245-266, 2010.

Friburger N., Reconnaissance automatique des noms propres ; application à la classification automatique de textes journalistiques, Thèse de doctorat, Université François Rabelais Tours, 2002.

Maurel D., Friburger N., Antoine J.-Y., Eshkol-Taravella I., Nouvel D., « Cascades autour de la reconnaissance des entités nommées », TAL 52-1, 2011.

Paumier S., De la reconnaissance de formes linguistiques à l’analyse syntaxique, Thèse de

Doctorat, Université de Marne-la-Vallée, 2003.



[1]. À l’origine de cette étude les transcriptions ESLO2 n’étaient pas disponibles.