Anonymisation

Selon le Guide des bonnes pratiques 2006 (Baude, 2006) pour gérer les droits liés au respect de la vie privée, il convient de suivre scrupuleusement le cadre légal de gestion des données personnelles, de s’assurer que les locuteurs ont exprimé leur consentement « éclairé » ou, à défaut de celui-ci, de procéder à l’anonymisation des données. Le processus d’anonymisation a consisté pour nous dans le repérage et le traitement des indices permettant d’identifier directement ou indirectement la personne, ainsi que les éléments qui peuvent lui porter un préjudice.

Dans le cas du corpus ESLO1, le recueil de consentement pose deux problèmes. Premièrement, il n’existe aucun document rempli par les locuteurs qui permettrait d’exprimer ce consentement ; deuxièmement, il serait illusoire de penser que les locuteurs de la fin des années soixante imaginaient le type d’exploitation et notamment la diffusion instantanée par Internet. Pour anonymiser ESLO1, les entités dénommantes (Eshkol, 2010) qui renvoient vers les informations personnelles concernant le locuteur et sa famille et qui peuvent éventuellement permettre sa reconnaissance, ont été repérées et étiquetées automatiquement[1]. On procède ensuite à l’analyse manuelle consistant en la validation des éléments annotés dans un contexte. Ceux qui identifient directement le locuteur sont remplacés par un hyperonyme : NPERS[2] pour un nom de personne, NLIEU pour un nom de lieu, et NPROF pour un nom de profession. Pour le fichier son, nous avons utilisé le logiciel Praat[3] et un script développé par D. Hirst[4].

La méthodologie a été modifiée pour ESLO2. L’impossibilité de rendre le processus totalement automatique nous a conduits à la simplification de l’anonymisation pour ESLO2 qui consiste dans le remplacement manuel par un hyperonyme d’un élément identifieur et se fait dès la transcription.

Pour plus de détails voir (Eshkol-Taravella et al., 2012)

Références :

Baude O., Corpus oraux : guide des bonnes pratiques, CNRS-Editions et Presses universitaires d’Orléans, 2006.

Eshkol-Taravella I., Baude O., Maurel D., Hriba I., Dugua C., Tellier I., « Un grand corpus oral « disponible » : le corpus d’Orléans 1968-2012 ». in Ressources linguistiques libres, TAL. Volume 52, n° 3, p. 17-46, 2012.

Eshkol I., (2010) « Entrer dans l’anonymat. Etude des "entités dénommantes" dans un corpus oral », Eigennamen in der gesprochenen Sprache, Narr Francke Attempto Verlag GmbH, Germany, p. 245-266, 2010.



[1] Voir la partie qui décrit l’annotation des entités nommées et dénommantes

[2] L’anonymisation du fichier texte a été réalisée sur la plus petite partie possible (par exemple, le nom mais pas le prénom).