Résumés des conférences du colloque
50 ans de linguistique sur corpus oraux

Des corpus oraux aux humanités numériques : aller et retour

Olivier Baude
Modyco UMR 7114, Université Paris Nanterre

Quelques années seulement après l’apparition des premiers appareils permettant d’enregistrer la parole, les collections raisonnées d’archivage non graphique du langage avaient pour objectif de bouleverser la linguistique. Cinquante ans plus tard l’informatique outillait toutes les sciences humaines et sociales et orientait la linguistique de corpus vers une science des données. Actuellement, les humanités numériques visent une transformation du rapport aux savoirs et apportent de nouvelles perspectives théoriques et méthodologiques. La continuité qui existe entre les moyens numériques utilisés pour archiver et traiter les données de la recherche en linguistique et ceux pour analyser et disséminer les résultats, modifie en retour l’objet produit par te travail d’observation, de description et de modélisation.

En m’appuyant sur l’exemple du Corpus d’Orléans, issu des ESLO (Enquêtes sociolinguistiques à Orléans), j’aborderai les points de convergence et de divergence qui existent entre une linguistique de la variation fondée sur corpus oraux et les sciences humaines et sociales à l’ère des humanités numériques. Le corpus d’Orléans est ainsi passé du statut d’enregistrements sonores sur bandes magnétiques à un objet numérique, transcrit, annoté et explorable à l’aide d’outils informatiques mais aussi enrichi et lié à d’autres données disponibles sur le Web. Reste à savoir quels sont les apports et quelles sont les limites de ces évolutions technologiques, méthodologiques et théoriques pour l’étude de la variation linguistique et en quoi il est fondamental que celle-ci s’impose au moment où les données disponibles deviennent centrales dans la construction des savoirs ? Ainsi, ces interrogations, à partir du cas de la linguistique sur corpus oraux, rejoignent les nombreuses questions posées par une approche critique des humanités numériques. Cette présentation abordera certaines de ces questions par le prisme de projets de recherche en cours de réalisation :

En quoi les aspects éthiques et juridiques liés à la collecte, le traitement, l’archivage et la diffusion ont modifié la démarche du chercheur, et au-delà l’objet même de disciplines qui ont abordé un tournant numérique ?

Quels sont les effets de l’analyse du texte (au sens large) comme document structuré, et de l’exigence de standardisation et normalisation des données et métadonnées sur le travail d’interprétation ?

Dans quelles conditions les opérations d’extraction de connaissances, de visualisation, d’exploration quantitative de corpus deviennent des instruments nouveaux de construction et d’accès aux savoirs ?

Quelles sont les effets de l’exigence du partage des données et celui des plateformes et infrastructures dédiées à cet objectif dans le champ de la linguistique et dans l’espace social ?

In fine, il s’agira de se demander si l’étude de la variation est soluble dans une linguistique sur corpus numériques, ouverte à l’interdisciplinarité et quelles sont alors les conditions d’une démarche réflexive indispensable à un champ en pleine mutation.

Références bibliographiques

Baude, O., Dugua, C., (2017). Les ESLO, du portrait sonore au paysage digital. Corpus 15, Corpus de français parlé et français parlé des corpus, 29-56.

Biber, D., & Reppen, R. (Éd.). (2015). The Cambridge handbook of English corpus linguistics. Cambridge, Royaume-Uni de Grande-Bretagne et d’Irlande du Nord : Cambridge University Press.

Blanc M. & Biggs P. (1971). L’enquête sociolinguistique sur le français parlé  à  Orléans.  Le  français  dans  le  monde 85 : 16-25.

Gadet, F. (2012). Construction des connaissances sociolinguistiques. In Cahiers de linguistique, Courtil-Wodon, Belgique : E.M.E.

Goodwin, J., Holbo, J. (2011). Reading Graphs, Maps & Tree s: Responses to Franco Moretti, Parlor press.

Habert, B. (2012). L’archivage numérique entre us et abus de la mémoire numérique (p.23-43). Présenté aux 11èmes Journées internationales d’analyse statistique des données textuelles (JADT). Consulté à l’adresse https://halshs.archives-ouvertes.fr/halshs-00991517.

Jacobson M. & Baude O. (2012). Corpus de la parole : collecte, catalogage, conservation et diffusion des ressources orales sur le français et les langues de France. Ressources linguistiques libres, Traitement automatique des langues 52/3 : 47-69

Le Deuff, O. (2014). Le temps des humanités digitales : la mutation des sciences humaines et sociales. Limoges : Fyp éditions.

Mounier, P. (2018). Les humanités numériques une histoire critique. Paris : Éditions de la Maison des sciences de l'homme.

 

Session corpus

 

Le Corpus Preseea-Medellín[1] : Un exemple de corpus oral pour des études sociolinguistiques

Jorge Mauricio MOLINA MEJÍA* ** ; María Claudia GONZÁLEZ-RÁTIVA* & Marianne DIECK NOVIAL*
*Grupo de Estudios Sociolingüísticos - Universidad de Antioquia ; **LIDILEM – Université Grenoble-Alpe

L'objet principal de cette proposition de communication est de présenter les différentes phases méthodologiques ainsi que les résultats les plus saillants, concernant les analyses par rapport à des travaux de recherche sur les variétés linguistiques de l'espagnol urbain appartenant à la ville de Medellín. Pour ce faire, nous présentons le Corpus Preseea-Medellín: un corpus synchronique qui possède des caractéristiques d'ordre sociolinguistique (âge, sexe, niveau d'études, niveau socio-économique) représentatif de différents groupes sociaux de la ville de Medellín (Colombie) (González-Rátiva, 2008).

Le Corpus Preseea-Medellín est l'un des produits et des outils de recherche et d'analyse appartenant au Grupo de Estudios Sociolingüísticos  de l'Université d'Antioquia (située, elle aussi, dans la ville de Medellín - Colombie). Ce projet fait partie d'un macro-projet nommé PRESEEA (Proyecto para el Estudio Sociolingüístico del Español de España y América) , qui est coordonné depuis quelques années par l'Université d'Alcalá (Alcalá de Henares – Espagne) (Moreno Fernández, 2003).

Les documents audio qui appartiennent au Corpus Preseea-Medellín ont été enregistrés entre les années 2008 et 2010, et ceci dans plusieurs quartiers de la ville de Medellín. Le corpus contient ainsi plus de 100 heures d'enregistrement qui comptent des entretiens faits à 119 personnes de manière semi-dirigée. Chaque entretien a une durée de 45 minutes environ. Les entretiens ont été transcrits en format *.doc (Word) et ils contiennent des étiquettes avec des informations d'ordre phonique. La quantité totale de mots de ce corpus est de 840.240, ce qui équivaut à plus d'un million de tokens si nous comptons la ponctuation.

En ce moment toutes les transcriptions de ces enregistrements sont étiquetées de manière morphologique et syntaxique, grâce à l'analyseur FreeLing de l'Université Ouverte de Catalogne (Barcelone – Espagne) et elles seront, par la suite, transcrites en format XML.

Nous avons développé plusieurs travaux dans les domaines phonétique-phonologique, morphologique, syntaxique et des fonctions pragmatiques et du discours à partir de ce corpus. Parmi ces projets nous pouvons compter, entre les plus saillants :

  • Étude morphologique et syntaxique du verbe « haber » (avoir) au pluriel, utilisé de manière impersonnelle, dans l’espagnol parlé à Medellín. Il s’agit de l’emploi du verbe « haber » existentiel et de son accord en nombre avec son complément.
  • Analyse des fonctions sémantiques et pragmatiques du marqueur discursif « pues » dans l’espagnol parlé à Medellín.
  • Analyse sociolinguistique des processus phonologiques dans l’espagnol parlé à Medellín.

Nous finirons en présentant la dernière phase du projet qui cherche à modéliser une plateforme pour la recherche en ligne en fonction de la forme, du lemme ou de la catégorie grammaticale des mots. L'idée serait d'avoir une plateforme inspirée sur le travail fait au niveau de Scientext ou de ScienQuest, par exemple.

Références bibliographiques

González-Rátiva, M. C. (Coord.) (2008). Corpus sociolingüístico de Medellín [Portal electrónico]. Medellín: Facultad de Comunicaciones, Universidad de Antioquia. [En ligne]. URL : http://comunicaciones.udea.edu.co/corpuslinguistico/

Moreno Fernández, F. (Coord.) (2003). Metodología del “Proyecto para el estudio sociolingüístico del español de España y América” (PRESEEA). Alcalá. [En ligne]. URL : http://preseea.linguas.net/

 

Variations linguistiques et réseau social : enjeux d’un recueil non supervisé de données massives

Nardy Aurélie1, Chevrot Jean-Pierre1, Bouchet Hélène1, Rousset Isabelle1, Dugua Céline2, Laurence Buson1, Loïc Liégeois3
1
Univ. Grenoble Alpes, LIDILEM ; 2 Univ. Orléans, LLL UMR7270 ; 3 Univ. Paris Diderot, Sorbonne Paris Cité, CLILLAC-ARP et LLF

Les travaux menés en sociolinguistique ont montré que plus les individus sont intégrés à la communauté plus leurs usages langagiers sont typiques de cette communauté (Beaulieu & Cichocki, 2002 ; Milroy, 1987). Ces études s’appuient sur les déclarations des enquêtés en saisissant le(s) réseau(x) personnel(s) par des indicateurs globaux (types de lien entretenus avec les autres individus, densité, etc.) auprès d’échantillons ne dépassant pas la cinquantaine d’individus. Cette approche égocentrée ne permet toutefois pas de saisir l’influence réciproque des individus dans le réseau, ni de préserver l’écologie globale des liens sociaux au sein d’une communauté entière.

Pour ce faire, dans le cadre du projet DyLNet (ANR-16-CE28-0013 ; https://dylnet.univ-grenoble-alpes.fr/), nous avons mis en place une démarche empirique originale fondée sur une approche en termes de réseau complet. Notre terrain d’enquête, une école maternelle, permet d’étudier un phénomène rare : la formation d’un réseau social. De plus, du fait de la généralisation de la scolarisation précoce et du temps passé à l’école maternelle (24h par semaine), cette communauté est considérée comme une unité sociale signifiante dans les cultures occidentales (Hartup, 1984). Enfin, sur un plan méthodologique, l’école ou la classe sont des collectifs dont les contours sont définis de manière exogène (Butts, 2008) par la frontière spatiale de l’institution et le temps scolaire et non par les individus eux-mêmes (Almquist, 2011).

Le projet DyLNet résulte d’une collaboration multidisciplinaire réunissant des sociolinguistes, des psycholinguistes et des chercheurs en science des réseaux (Nardy et al., 2016). Il vise à décrire la co-évolution entre dynamique des réseaux (les changements dans les liens sociaux) et dynamique du langage oral dans les réseaux (les influences entre individus et la modification de leurs habiletés langagières). Notre approche consiste à suivre pendant 3 ans les 195 enfants et 30 intervenants pédagogiques d’une école maternelle socialement mixte (le recueil de données a débuté en 2017). Tous sont équipés une semaine par mois de capteurs sans fil qui enregistrent, toutes les 5 secondes, les contacts entre individus. De plus, nous enregistrons les usages langagiers des enfants et des adultes grâce à des micros implantés dans les capteurs. À quatre reprises durant les trois années, chaque enfant passera également une série de tests psycho- et sociolinguistiques. Enfin, leur profil social a été établi grâce à un questionnaire rempli par les familles.

La mise en place d’un recueil de données massives et variées (parole, contacts sociaux, informations sociodémographiques, tests) nécessite de relever plusieurs défis : prise en compte des aspects éthiques et relatifs à la vie privée, stockage et analyses des données. Parmi ceux-ci, la question du recueil et du traitement des données audio est central. Nous exposerons les dispositifs de pré- et post-traitements élaborés afin de différencier sans ambiguïté la voix du porteur du micro de celles des autres autour de lui et les méthodes utilisées pour limiter le temps de transcription. Enfin, cette communication sera l’occasion de présenter les potentialités offertes par ce type de recueil pour affiner, automatiser et systématiser l’analyse variationniste des relations entre réseau social et variations linguistiques.

Références bibliographiques

Almquist, Y. (2011). The school class as a social network and contextual effects on childhood and adult health: findings from the Aberdeen Children of the 1950s cohort study. Social Networks, 33 (4), 281-291.

Beaulieu, L. & Cichocki, W. (2002). Le concept de réseau social dans une communauté acadienne rurale. Canadian Journal of Linguistics, 47 (3-4), 123-150.

Butts, C. T. (2008). Social network analysis: a methodological introduction. Asian Journal of Social Psychology, 11 (1), 13-41.

Hartup, W. W. (1984). The peer context in middle childhood, in Collins, W. A. (éd.) Development During Middle Childhood, Washington DC, National Academy Press : 240-282.

Milroy, L. (1987). Language and social networks. Oxford : Blackwell.

Nardy, A., Fleury, É., Chevrot, J.-P., Karsai, M., Buson, L., Bianco, M., Rousset, I., Dugua, C., Liégeois, L., Barbu, S., Crespelle, C., Busson, A., Léo, Y. & Bouchet, H. (2016) DyLNet – Language Dynamics, Linguistic Learning, and Sociability at Preschool: Benefits of Wireless Proximity Sensors in Collecting Big Data (ANR-16-CE28-0013). https://dylnet.univ-grenoble-alpes.fr/

 

Le corpus filmique : une alternative au corpus écologique pour l’étude de la variation ?

Laurie Dekhissi
Université de Poitiers, Laboratoire FoReLLIS, EA3816

Les enquêtes de terrain sont souvent préférées par les sociolinguistes pour constituer leurs corpus de recherche comme l’ont fait Labov à New York (1966), Milroy à Belfast (1980), Ashby à Paris (1976) et bien d’autres encore. Bien que la conversation spontanée soit le genre idéal pour étudier le vernaculaire il peut être difficile de mener soi-même (ou à l’aide d’un fieldworker) une enquête de terrain lorsqu’on ne fait pas partie du groupe de pairs dont nous souhaiterions étudier le vernaculaire (par exemple celui des locuteurs vivants dans les banlieues françaises). Même lorsque des corpus écologiques sont réalisés, comme c’est le cas récemment avec le corpus Multicultural Paris French (Gadet, 2017), certaines structures expressives sont difficiles à obtenir comme celles apparaissant uniquement lors de conflits car évidemment, il n’est pas aisé d’enregistrer une dispute (Dekhissi, 2016). De ce fait, nous pensons que les films sont une bonne alternative au corpus écologique pour l’étude de structures attestées mais peu fréquentes dans les corpus traditionnels et/ou écologiques. En effet, les films sont un condensé de tout ce qui peut se passer sur une période plus ou moins longue et de ce fait, les formes expressives sont relativement fréquentes.

Dans cette communication, nous proposerons une réflexion épistémologique autour de la notion de corpus filmique et nous verrons en quoi il peut être utile en complément d’un corpus écologique pour l’étude de la variation. Nous identifierons les avantages (son de qualité, accès à la mimo-gestuelle, présence d’expressivité…) et les inconvénients (représentativité du langage, oral scénarisé…) qu’un tel corpus soulève. Pour ce faire, nous nous appuierons sur les travaux et les résultats de quelques études menées à l’aide de corpus de films ou des séries télévisées pour étudier le vernaculaire (sur le plan lexical ou syntaxique) comme Abecassis (2005),  Fiévet et Podhorna-Policka (2008), Quaglio (2009), Forchini (2012), Bedijs (2012), Farmer (2014) ou encore Dekhissi et Coveney (à paraitre).

Références bibliographiques

Ashby, W. (1976). The loss of the negative morpheme, ne, in Parisian French. Lingua, 39, 119-137.

Abecassis, M. (2005). The representation of Parisian speech in the cinema of the 1930s. Bern : Peter Lang.

Bedijs, K. (2012). Die inszenierte jugendsprache. Von "Ciao, amigo!" bis "Wesh, tranquille!": Entwicklungen der französischen jugendsprache in spielfilmen (1958-2005). Frankfurt : Peter Lang.

Dekhissi, L. (2016). « Qu’est-ce t’as été te mêler de ça ?! ». Une « nouvelle » structure pour les questions rhétoriques conflictuelles. Journal of French Language Studies, 279-298.

Dekhissi, L. &  A. Coveney. (à paraître). Variation dans l'emploi des interrogatives partielles dans le cinéma de banlieue, in Béguelin M-J., Coveney A. & Guryev A. (eds) La syntaxe des interrogatives en français, Bern, Peter Lang.

Farmer, K. (2015). Sociopragmatic variation in yes/no and wh-interrogatives in hexagonal French: a real-time study of French Films from 1930-2009. Thèse de doctorat. Indiana University.

Fiévet, A-C. & Podhorna-Policka, A. (2008). Argot commun des jeunes et français contemporain des cités dans le cinéma français depuis 1995 : entre pratiques des jeunes et reprises cinéma cinématographiques. Glottopol, Revue de sociolinguistique en ligne, n°12, 212-240.

Forchini, P. (2012). Movie language revisited. Evidence from multi-dimensional analysis and corpora. Oxford : Peter Lang.

Gadet F. (dir.). (2017). Les parlers jeunes dans l’île de France multiculturelle. Paris : Ophrys.

Labov, W. (1966). The social stratification of English in New York City. Washington DC : Center for Applied Linguistics.

Milroy, L. (1980). Language and social networks. Oxford : Blackwell.

Quaglio, P. (2009). Television dialogue: the sitcom Friends vs. natural conversation. Philadelphia : John Benjamins.

 

Le projet DOC (Didactique, Oral, Corpus), constitution d’une base de données d’interactions orales pour l’enseignement du français langue étrangère

Juliette Delahaie, Emmanuelle Canut, Antonio Balvet
Université de Lille, STL UMR 8163

Dans le cadre de l’enseignement/apprentissage des langues, on observe très peu d’exploitation de données authentiques en pédagogie de l’oral, bien que les approches communicatives et actionnelles plébiscitent l’enseignement des compétences pragmatiques et sociolinguistiques centrées sur la maîtrise de l’interaction (cf les orientations du CECRL). Certes, il existe de plus en plus de bases de données accessibles de corpus oraux (Corpus de Français Parlé Parisien, corpus Phonologie du Français Contemporain, Corpus TCOF Traitement de Corpus Oraux en Français, ORFEO, etc.), mais elles sont difficilement utilisables pour l’enseignement du FLE car elles privilégient bien souvent la forme de l’entretien et n’ont pas d’objectif didactique en amont. Par ailleurs, dans les corpus d’interactions orales existants, se pose souvent le problème de la représentativité des données, par exemple pour les corpus intéressants le FLE comme CLAPI, OTG ou ESLO2, il est souvent difficile d’avoir accès à un échantillon représentatif de genres discursifs du même type.

Nous exposerons ici les objectifs, les enjeux et les premières avancées du projet DOC (Didactique, Oral, Corpus) qui tente de pallier le manque de données en la matière, aussi bien du point de vue des corpus que du point de vue de l’enseignement de l’oral en langue étrangère. Si l’objectif à long terme du projet est la constitution d’une plate-forme multilingue (français, espagnol, anglais), nous ferons état de la constitution actuelle de données authentiques d’interactions en français dans des situations de communication ordinaire et des premières analyses et exploitations didactiques de ces données. Le choix des types d’interactions recueillis obéit en amont à des préoccupations didactiques, et nous avons décidé pour l’instant de nous concentrer sur les échanges présentés classiquement dans les manuels de français langue étrangère :

  • interactions de commerce : une dizaine d’enregistrements (demande de conseils sur un produit technique type IPad, tablette, etc.), représentant un peu plus de 25.000 mots ;
  • interactions de sociabilité : une douzaine d’enregistrements de rencontre avec une personne connue ou présentation d’une personne inconnue (rencontres dans la rue, avec le voisin, etc.), représentant environ 8.000 mots ;
  • interactions pour donner son avis : cinq enregistrements d’opinion sur un film, représentant environ 17.500 mots.

Nous montrerons que la configuration pragmatique et linguistique des échanges s’écarte des organisations discursives stéréotypées et survalorisées par la norme de l’écrit relevées dans les manuels de FLE. L’analyse des corpus de scènes de rencontres, de commerces ou d’opinion sur un film permet de dégager des styles communicatifs et des scénarios propres au type d’interaction et d’identifier des formulations et structures linguistiques courantes, souvent peu enseignées, voire peu étudiées par les linguistes. Par rapport aux structures et actes de langage dégagés, nous avancerons des propositions d’annotations spécifiques pour l’étiquetage et la numérisation des données. Nous terminerons enfin par une présentation des activités didactiques proposées sur les échanges enregistrés, et qui visent à dépasser le cadre trop étroit des jeux de rôles, activité privilégiée lorsqu’il s’agit de travailler l’interaction en classe de langue.

Références bibliographiques

Andersen, H.L. (2004). Comment utiliser les connaissances sur le français parlé dans l’enseignement du français langue étrangère, in Andersen, H.L. & Thomsen, Ch. (ed.). Sept approches à un corpus : analyses du français parlé, Bern, Peter Lang : 187-214.

André, V., Boulton, A., Canut, E. & Tyne, H. (2013) (éds). Corpus et apprentissage du français. Linx, 68-69.

Biber, D. (1993). Representativeness in Corpus Design. Literary and Linguistic Computing, vol.8/4, 243-257.

Conseil de l’Europe. (2001). Cadre européen commun de référence pour les langues : apprendre, enseigner, évaluer. Paris : Didier.

Debaisieux, J.-M. (2009). Les corpus oraux : situation, exploitation linguistique, bilan et perspectives. Mélanges Crapel, 31, 36-56.

Delahaie, J. (2013). Constitution et exploitation de corpus d’interactions verbales pour le FLE : problèmes et programme. Linx, 68-69, 95-114.

Onursal, I. (2008). Le dialogue dans les manuels d’enseignement de français langue étrangère et la notion d’authenticité. Synergies Turquie, 65-75.

 

Analyse des pratiques langagières en situations cliniques : apport d’une approche écologique pour développer une démarche réflexive des professionnels de santé ?

Christine da Silva Genest * & Caroline Masson**
*Université de Lorraine, EA 3450 DevAH & UMR 7118 ATILF, Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser. **Université Sorbonne Nouvelle – Paris 3, EA 7345 CLESTHIA & UMR 7118 ATILF, Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.

Notre proposition vise à déterminer de quelle façon la linguistique, et plus particulièrement la linguistique de corpus, peut aider des professionnels de santé à décrire leurs gestes professionnels et leur degré d’efficience dans le but d’atteindre des objectifs thérapeutiques. Nous nous intéresserons à deux catégories de professionnels : les orthophonistes et les médecins. Si les orthophonistes sont directement concernés par les problématiques de langage, à la différence des médecins, ces deux types de professionnels partagent un point commun : c’est par le langage, et à travers la médiation langagière, que la relation thérapeutique se met en place (Vion, 1992). Cette fonction médiatrice est montrée et marquée par des formes linguistiques et discursives dans le discours des locuteurs (Bres & Verine, 2002). De ce fait, la meilleure façon de décrire ce qui se joue dans ces interactions est d’avoir accès à des données en situations naturelles (Morgenstern, 2016 ; Traverso, 2016). En outre, il est déjà attesté que rendre compte des façons de communiquer permet de relever les effets d’une prise en charge sur le malade au niveau de sa santé, sa qualité de vie et son anxiété (Fournier & Kerzanet, 2007).

Dans la lignée de travaux interdisciplinaires visant à décrire les éléments constitutifs des interactions en contexte médical (Vergely et al., 2009 ; Fleischmann, 2001) et en contexte orthophonique (de Weck, 2003 ; Rodi, 2014 ; da Silva Genest & Masson, 2017), nous nous proposons de considérer l’apport de la linguistique pour apprécier la dynamique des échanges cliniques et appréhender les pratiques professionnelles.

Dans cette perspective, le travail sur corpus présente un intérêt principal : celui de passer d’une approche déductive à une approche empirique, fondée sur des données attestées. De ce point de vue, la constitution de données authentiques, l’élaboration d’une méthodologie et la création d’outils d’analyses spécifiques sont nécessaires (Morgenstern, 2016 ; da Silva Genest & Masson, 2017).

Notre corpus est constitué d’une part, d’interactions orthophoniste – enfant présentant des troubles du développement du langage oral et de la communication et d’interactions médecin – patient. Toutes les données ont été recueillies en situations naturelles et ont été transcrites en considérant les productions verbales et non verbales des locuteurs.

Des outils permettant l’analyse quantitative et qualitative des pratiques langagières orales via l’utilisation de CLAN (MacWhinney, 2000), développé et partagé par des chercheurs en acquisition et en pathologie du langage (Morgenstern & Parisse, 2012 ; MacWhinney et al., 2011), seront présentés : longueur moyenne des tours de parole et des énoncés, fréquence lexicale, nombre de reformulations sur le discours de l’autre, etc. L’utilisation de ces outils servira à analyser d’une part, les effets d’une intervention orthophonique sur le discours du patient et d’autre part, la relation thérapeutique en appréciant l’effet du positionnement du professionnel sur le patient et la construction du sens en dialogue. Des exemples d’application mettront en évidence la pertinence d’utiliser une approche écologique pour l’analyse et l’évaluation des pratiques professionnelles. Le traitement des données recueillies in situ constitue une base indispensable pour une prise de conscience des pratiques langagières des professionnels et de leurs effets. Pour conclure, nous montrerons la pertinence d’une expertise linguistique comme moyen d’évaluer des situations cliniques.

Références bibliographiques

Bres, J. & Verine, B. (2002). Le bruissement des voix dans le discours : dialogisme et discours rapporté. Faits de langues, 19, 159-169.

da Silva Genest, C. & Masson, C. (2017). Apport de la linguistique de corpus à l’étude des situations cliniques : utilisation de ressources écologiques pour évaluer les pratiques professionnelles. Studii de Linguistica, 7, 89-112.

de Weck, G. (2003). Pratiques langagières, contextes d’interaction et genres de discours en logopédie / orthophonie. Travaux Neuchâtelois de Linguistique, 38/39, 25-48.

Fleischmann, S. (2001). Language and medicine, in Schiffrin, D., Tannen, D. & Hamilton, H.E. (éd.) The Handbook of Discourse Analysis. Oxford, Blackwell Publishers, 470-502.

Fournier, C. & Kerzanet, S. (2007). Communication médecin-malade et éducation du patient, des notions à rapprocher : apports croisés de la littérature. Santé publique, 19(5), 413-425.

MacWhinney, B. (2000). The CHILDES Project: Tools for Analyzing Talk. 3rd Edition. Mahwah, NJ: Lawrence Erlbaum Associates.

MacWhinney, B., Fromm, D., Forbes, M. & Holland, A. (2011). AphasiaBank : Methods for studying discourse. Aphasiology, 25(11), 1286-1307.

Morgenstern, A. & Parisse, C. (2012). The Paris Corpus. French Language Studies, 22, 7-12.

Morgenstern, A. (2016). Pratiques langagières et comportements du patient en milieu familial : apport des méthodes ethnographiques multimodales pour la recherche en médecine. Ethics, Medicine and Public Health, Elsevier, 2, pp.641-649.

Rodi, M. (2014). Les reprises dans les interactions logopédiste-enfant. Une alternance entre « offres » et « saisies ». Travaux Neuchâtelois de Linguistique, 60, 149-160.

Traverso, V. (2016). Décrire le français parlé en interaction. Paris : Editions Ophrys.

Vergely, P., Condamines, A., Fabre, C., Josselin-Leray, A., Rebeyrolle, J. & Tanguy, L. (2009). Analyse des interactions patient/médecin, in Felix, C. & Tardif, J. (éds.) Actes éducatifs et de soins : entre éthique et gouvernance, Nice : 4-5 juin 2009.

Vion, R. (1992). La communication verbale. Paris : Hachette.

 

Session
Corpus microdiachroniques

 

The Construction of a Real-Time Sociolinguistic Research Corpus of the Hoosier State

Brian JOSÉ, Jon BAKOS, & Betty S. PHILLIPS
Indiana State University

This paper describes the ongoing construction of a real-time sociolinguistic research corpus of the midwestern state of Indiana, USA and summarizes early studies that have resulted from it.

At present, we’ve compiled recordings of speakers from 38 of Indiana’s 92 administrative counties. There’s appreciable real-time depth to the recordings in three areas of the state, representing the Northern, Midland, and Southern dialects of American English (Clopper, Pisoni, & de Jong 2005; Labov, Ash, & Boberg 2006):

  • in northwestern Indiana, close to Chicago Illinois, currently spanning up to 50 years of real-time depth
  • in west-central and central Indiana, currently spanning up to 60 years of real-time depth
  • in south-central Indiana, not far from Louisville Kentucky, currently spanning up to 55 years of real-time depth.

Small numbers of speakers from a couple of additional sites in northern parts of the state currently provide much shallower real-time depth (15 years), but which new fieldwork efforts in those communities would immediately extend substantially (up to 50 years). Similarly, new fieldwork in several other communities where we currently have only earlier recordings would immediately yield real-time depth of 20 to 60 years, depending on the community.

Most of the historical recordings in our collections ---and those usually going back the farthest in time--- were obtained from large-scale (regional or national) linguistic atlas and dictionary projects whose informants included speakers from Indiana: most notably, the Linguistic Atlas of the North Central States (28 speakers from 16 counties across Indiana, recorded between 1953 and 1962, in 1968, and in 1977) and the Dictionary of American Regional English (Cassidy & Hall 1985-2013: 43 speakers from 21 counties across Indiana, recorded between 1966 and 1969). Others are oral history interviews (among other types of recordings) from local archives and repositories that have generously opened their holdings for public access; these date back anywhere from 20 to 50 years, depending upon the source. Original fieldwork, by us and/or our students, produced recordings going back 10 to 15 to 20 years and has recently been renewed.

‘Corpus-ization’ of these diverse materials is in progress with the targeted end result being a searchable electronic database implemented in LaBB-CAT (Fromont & Hay 2012; also cf. Fromont & Hay 2008). Early and/or ongoing research, pending the completion of corpus construction, has already examined the Northern Cities Shift in northwestern Indiana (José 2009, 2014), the Cot ~ Caught merger in west-central Indiana (Phillips 2004; Bakos & Gövert 2017), and the Southern Vowel Shift in south-central Indiana (José 2017, 2018). A very brief overview of each of these studies will be provided.

Références bibliographiques

Bakos, J. & Gövert, I. (2017). Hoosier Talk: Acoustic work in western Indiana. Poster presented at New Ways of Analyzing Variation 46, University of Wisconsin, 03 November.  [under review for possible publication in the journal American Speech]

Cassidy, F. G. & Hall, J. H. (1985-2013). Dictionary of American Regional English, 6 vols. Cambridge MA: Belknap Press of Harvard University Press.

Clopper, C. G.; Pisoni, D. B.; & de Jong, K. (2005). Acoustic characteristics of the vowel systems of six regional varieties of American English. Journal of the Acoustical Society of America, 118, 1661-1676.

Fromont, R. & Hay, J. (2008). ONZE Miner: The development of a browser-based research tool. Corpora, 3, 173-193.

Fromont, R. & Hay, J. (2012). LaBB-CAT: An annotation store. Proceedings of the Australasian Language Technology Workshop, 113-117.

José, B. (2009). Testing the Apparent-Time Construct in a Young Speech Community: Steel City Speech in and around Gary, Indiana on its 100th Birthday. Unpublished PhD dissertation, Indiana University.

José, B. (2014). Chicagoland and Northwest Indiana. Paper presented at the 50th Annual Meeting of the Chicago Linguistic Society, University of Chicago, 11 April.  [to appear in the conference proceedings]

José, B. (2017). A real-time perspective on the Southern Vowel Shift in Kentuckiana. Paper presented at Methods in Dialectology 16, National Institute for Japanese Language and Linguistics (NINJAL), Tachikawa Japan, 09 August.  [under review for possible inclusion in the conference proceedings]

José, B. (2018). A real-time study of the Southern Vowel Shift in Kentuckiana. Paper presented at the Annual Meeting of the American Dialect Society, Salt Lake City USA, 04 January.

Labov, W.; Ash, S.; & Boberg, C. (2006). The Atlas of North American English: Phonetics, Phonology, and Sound Change. Berlin: Mouton de Gruyter.

Linguistic Atlas of the North Central States.  http://www.lap.uga.edu/

Phillips, B. S. (2004). Vowel merger in west central Indiana: A naughty, knotty project. In Curzan, A. & Emmons, K. (eds.) Studies in the History of the English Language II: Unfolding Conversations, Berlin, Mouton de Gruyter: 447-457.

 

Ecologie du same du Nord : 40 ans d’évolution typologique, de la tradition orale à l’échange électronique

M.M.Jocelyne Fernandez-Vest
CNRS & Université Sorbonne Nouvelle – Paris 3

Le same du Nord (sápmi), langue finno-ougrienne du Nord de l’Europe (Finlande et Norvège), est la langue samique la plus décrite aux niveaux phonologique et lexical (renniculture…). Pourtant l’évolution typologique de cette langue qui, standardisée progressivement à partir de 1979, présente l’intérêt d’être l’une des dernières langues à tradition orale du domaine européen, a été très peu étudiée dans la perspective d’un changement de paradigme communicationnel – sous la pression du style écrit, des médias et des langues indo-européennes voisines. Notre analyse, qualitative et ponctuellement statistique pour des catégories spécifiques – Particules Énonciatives (PEN) par exemple –, a été menée à l’aide d’une méthodologie dialectique dédiée à la Structuration Informationnelle (SI) – entre observation ethnolinguistique de corpus et théorisation énonciative (Bouquiaux & Thomas 1976, Hagège 1978, Lambrecht 1994, Apothéloz & alii (éds.) 2009, Fernandez-Vest 2015).

En same traditionnel, la SI repose sur des procédés caractéristiques d’oralité (Miller & Weinert 2009, Fernandez-Vest & alii 2017, Haspelmath & Michaelis 2017): nombreuses PEN et subordination paratactique. Les deux stratégies de base sont la stratégie binaire 1 (Thème-Rhème), comprenant un Détachement Initial (DI), et la stratégie binaire 2 (Rhème-Mnème), avec un Détachement Final (DF) :

  • [Il y avait déjà des barques à moteur à l’époque?]
    – Jo / dat    dat                       gal álge                  dan áigge /           mohtor-fatnasat gal
    ‘Oui /elles   vraiment (PEN) oui ont commencé   à cette époque / les barques à moteur (DF) oui’. (Ohcejohka corpus, Fernandez-Vest 1984)

Ces constructions à détachement, qui favorisent, avec un rythme souple, une référenciation cumulative, sont aujourd’hui marginalisées dans les dialogues d’oral simulé (romans, nouvelles). Même dans le dialogue impromptu, déictiques spatiaux et PEN tendent à être remplacés par des constructions clivées, calquées sur la syntaxe germanique (Gundel 2002), qui modifient le profil de cette langue « configurationnelle en discours » (Erteschik-Shir 2007) :

  • Dat lea várra dat mii lea buot eanamusat váikkuhan.
    C’est certainement ça qui  a    surtout le plus     influencé .’ (Oulu corpus, Giellagas Instituhtta 2015)
    pro  Dat dat [PEN thémat.] lea várra buot eanamusat váikkuhan.  en same traditionnel.

Mais l’observation récente de réseaux sociaux électroniques brouille à son tour l’opposition analytique/synthétique : sur Facebook, les énoncés brefs des échanges spontanés ont recours à de nombreuses PEN thématisantes qui marginalisent les clivées :

  • [Cinéma, c’est bien šinu en same ? – Oui si tu es un Same d’Oslo !]
    Doppe    han                  eai                 máhte              šat          ‘č’ jiena      dadjat.
    là-bas     PEN thémat.   ils-ne pas       pouvoir            ne plus   le son ‘č’     dire
    ‘Là-bas, c’est vrai, ils ne savent plus prononcer le son ‘č’.’ (Facebook corpus, Fernandez-Vest 2017)

Une observation qui reste à affiner en fonction de critères complémentaires : l’origine des participants et leur maîtrise de la langue minoritaire.

Cette évolution apparemment cyclique manifeste aussi le dynamisme de la langue. À l’arsenal de mesures socio-politiques destinées à sauver les « langues en danger » (Mufwene 2001), il paraît essentiel d’ajouter pour une langue minoritaire quelques prérequis linguistiques ancrés dans son environnement écologique, telle sa Structuration Informationnelle originale.

Références bibliographiques

Apothéloz, D., B. Combettes & F. Neveu (éds.). (2009). Les linguistiques du détachement. Actes du Colloque International de Nancy (7-9 juin 2006). Bern & Berlin, Peter Lang, Sciences pour la communication 87.

Bouquiaux, L. & J. M.C. Thomas (éds.). (1976). Enquête et description des langues à tradition orale. I-III. Paris: SELAF.

Erteschik-Shir, N. (2007). Information structure. The syntax-discourse interface. Oxford: Oxford University Press, Oxford Surveys in syntax and morphology.

Fernandez-Vest, M.M.J. (2015). Detachments for Cohesion – Toward an Information Grammar of Oral Languages. Berlin & Boston: De Gruyter Mouton, Empirical Approaches to Language Typology, EALT 56.

Fernandez-Vest M.M.J. (2017). Ecology of Northern Sami: its typological evolution from oral to written language, in : U. Tuomarla, I. Piechnik & B. Bíró (eds.). Festschrift Finland Suomi 100: language, culture and history. Kraków / Helsinki, Jagiellonian Library & University of Helsinki : 27–44.

Fernandez-Vest, M.M.J., M. Amon, K-E. Gadelii, V.J. Pan, J. Achariyayos & D.T. Do-Hurinville. (2017). Information Structuring of Dialogic pairs from a cross-linguistic perspective. Evidence from some European and Asian languages, in M.M.J. Fernandez-Vest & H. Metslang (eds.). Perspectives on Questions, answers and information structure; Language Typology and Universals — STUF – Sprachtypologie und universalienforschung. Special Issue, 70/3, 391–454.

Gundel, J.K. (2002). Information structure and the use of cleft sentences in English and Norwegian, in. H. Hasselgård, S. Johansson, B. Behrers & C. Fabricius-Hansen (eds.). Information structure in a cross-linguistic perspective. Amsterdam & New York, Rodopi : 113–128.

Hagège, C. (1978). Intonation, functions syntaxiques, chaîne-système et universaux des langues. Bulletin de la Société de Linguistique de Paris, 73 (1), 1–48.

Haspelmath, M. & Michaelis, S. M. (2017). Analytic and synthetic. Typological change in varieties of European languages, in. I. Buchstaller & B. Siebenhaar. (eds.). Language variation – European perspectives VI: Selected papers from the 8th International Conference on Language Variation in Europe (ICLaVE 8), Leipzig 2015. Amsterdam : Benjamins.

Haugen, E. (1972). The Ecology of Language. Stanford, CA: Stanford University Press / London: Oxford University Press.

Lambrecht, K. (1994). Information structure and sentence form. Topic, focus and the mental representations of discourse referents. Cambridge: Cambridge University Press.

Miller, J. & R. Weinert. (2009 [1998]). Spontaneous spoken language. Oxford: Oxford University Press, Oxford Linguistics.

Mufwene, S. S. (2001). The Ecology of Language Evolution. Cambridge: Cambridge University Press.

 

Diachronic change of spoken Japanese in the 20th century: A corpora-based study

Takehiko Maruyama1,2  and Hanae Koiso2
1
Senshu University   2 National Institute for Japanese Language and Linguistics

In this presentation we will discuss how a “diachronic speech corpus of Japanese” can be developed and what type of language change can be described with it.

A diachronic corpus is a corpus containing various texts taken from different periods (Aarts et al. 2015). This can be used for the linguistic study of diachronic change in the given language. A diachronic corpus usually consists of written text, but is it possible to construct a “diachronic speech corpus”, which consists of various speech samples recorded in different periods?

ESLO1 (1968-1971) and ESLO2 (2008-) comprise a pioneering achievement in diachronic speech corpora. With 700 hours of transcribed recordings, this set of comparable corpora illustrate how spoken French in Orleans has changed over a period of 40 years.

A similar project is now under way at the National Institute for Japanese Language and Linguistics (NINJAL), Japan. Our project collects recorded materials across multiple time periods (the 1910s-40s, the 1950s-60s, and the 2000s-10s), and compiles them into a series of oral corpora. They are carefully designed and systematically organized for analyzing diachronic changes of spoken Japanese.

The earliest speech materials we collected were recorded from the 1910s to the 1940s, and mainly consist of political speeches recorded on phonograph records (Aizawa et al. 2016). Some historical Japanese politicians made public speeches with their own voices, in which we can observe some old-fashioned intonation patterns and grammatical expressions. The collection includes a total of 165 audios, comprising18.5 hours of speech.

The second corpus is the Diachronic Corpus of Present-day Spoken Japanese (DCPSJ), a collection of monologues and dialogues recorded during the 1950s and the 1960s (Maruyama 2016). NINJAL, established in 1948, started making recordings of various daily conversations in 1952 to describe the intonation patterns, vocabulary, and grammar of spoken Japanese. Our project is now compiling these resources into a speech corpus, the DCPSJ, which consists of 64 audios with 37.5 hours of dialogue, and 33 audios with 28.7 hours of monologue.

Since 2000, NINJAL has worked on compiling speech corpora, resulting in the Corpus of Spontaneous Japanese (CSJ) and the Corpus of Everyday Japanese Conversation (CEJC). The CSJ, released in 2004, is a large corpus of spontaneous speech, which consists mainly of monologue (the rest dialogue), with a total of 651 hours and 7.52 million words (Maekawa 2003). The CEJC, on the other hand, is a multi-modal corpus of daily conversation, with a total of 200 hours of video (Koiso et al. 2018). The development of the CEJC started in 2016, and it will be released publicly in 2022. Both are precisely transcribed and richly annotated.

Lining up all the corpora in order of age, the aggregate can be regarded as a diachronic speech corpus of Japanese in the 20th century. While the amount of old recordings is much smaller and more limited than that of the newer ones, nevertheless, these corpora are (partly) comparable since their metadata are strictly designed and described. We analyzed a series of data and found some remarkable changes such as intonation patterns and grammatical forms among the corpora.

In this presentation we will show the design and metadata of our corpora, and some analyses of diachronic change in Japanese speech during the last 100 years.

Références bibliographiques

Aarts, B., Close, J. Leech, L. & Wallis, S. (eds.) (2015). The Verb Phrase in English: Investigating Recent Language Change with Corpora. Cambridge: Cambridge University Press.

Aizawa, M. & Kanazawa, H. (eds.) (2016). SP-ban enzetu rekood ga hiraku nihongo kenkyuu. Tokyo : Kasama shoin.

Koiso, H., Den, Y., Iseki, Y., Kashino, W., Kawabata, Y., Nishikawa, K., Tanaka, Y. & Usuda, Y. (2018). Construction of the Corpus of Everyday Japanese Conversation: An Interim Report. Proceedings of the 11th edition of the Language Resources and Evaluation Conference, 4259-4264.

Koiso, H., Usuda, Y., Amatani, H., Kawabata, Y. & and Den, Y. (2018). Design and Preliminary Analysis of the Corpus of Everyday Japanese Conversation. Proceedings of LREC2018 Workshop: LB-ILR2018 and MMC2018 Joint Workshop, 1-5.

Maekawa, K. (2003). Corpus of Spontaneous Japanese: Its Design and Evaluation. Proceedings of ISCA and IEEE Workshop on Spontaneous Speech Processing and Recognition (SSPR2003), 7-12.

Maruyama, T. (2016). Showa hanasi kotoba koopasu no keikaku to tenboo. Senshu University Institute of Humanities Monthly Bulletin, 282, 39-55.

 

Vers un hypercorpus structuré de français québécois

Marie-Hélène Côté
Université de Lausanne

Depuis les années 1960, le Canada a figuré à l’avant-garde de la recherche linguistique sur le français oral, grâce notamment à la constitution de grands corpus, dont certains ont fait date dans l’histoire de la (socio)linguistique. D’un côté, on trouve les corpus variationnistes de dialectologie urbaine : le corpus de Montréal Sankoff-Cedergren (Sankoff & Sankoff 1973), celui d’Ottawa-Hull (Poplack 1981) ou celui de Québec (Deshaies 1981). Le corpus de Montréal se démarque également par ses développements de 1984 et 1995, qui incluent le réenregisgrement d’une grande proportion des locuteurs de 1971. D’un autre côté, se développent des corpus dialectologiques « classiques » en zone rurale, à visée souvent lexicale, mais qui incluent aussi des enregistrements de conversations. Mentionnons ici divers corpus régionaux (p. ex. Lavoie et al. 1985), mais surtout le monumental Atlas linguistique de l’Est du Canada (ALEC ; Dulong et al. 1980), qui couvre l’ensemble du Québec rural, mais dont les enregistrements n’ont été que récemment mis au jour.

Ces corpus ont surtout été exploités de façon isolée les uns des autres, sans que l’on puisse tirer profit d’une mise en commun qui permettrait non seulement d’augmenter la taille de la base de données (un élément essentiel étant donné la fréquence peu élevée de beaucoup des traits linguistiques), mais également le niveau de structuration géographique, temporel et social. Deux initiatives récentes permettent d’envisager un dépassement de ces lacunes. D’une part, le corpus FRAN (Martineau et al. 2011-) regroupe divers types de matériaux linguistiques dans des terrains d’enquête choisis, dans une perspective diachronique plus longue. La visée est ici nord-américaine et le Québec n’est représenté que par deux zones urbaines. D’autre part, le corpus PFC (Durand et al. 2002) s’est considérablement développé au Québec (Côté 2014), à la fois en zone urbaine et rurale.

Cette communication vise à présenter le projet d’un hypercorpus de français québécois de très grande taille, structuré à la fois dans ses dimensions sociale (les caractéristiques de chaque locuteur étant connues), temporelle (les années de naissance des locuteurs s’étendant sur un siècle) et spatiale (couverture du territoire québécois urbain et rural). Au cœur de ce dispositif se trouve le corpus PFC, qui comprend 30 points d’enquête au Québec et plus de 400 locuteurs. À ce corpus s’adossent les corpus urbains et ruraux des années 70 et 80, auxquels sera appliqué le protocole de transcription et de traitement PFC. Ce réseau de corpus conversationnel permet notamment d’articuler les dimensions micro-diachronique et diatopique, en offrant un siècle d’histoire du français parlé au Québec, à la fois dans les principaux centres urbains et dans l’ensemble des régions rurales. Cet hypercorpus permet pour la première fois de documenter la diffusion/régression dans le temps et l’espace de traits linguistiques relevant de différentes composantes du langage. Par exemple, St-Amant Lamy (en cours) retrace l’origine et la diffusion de l’ouverture des voyelles devant /R/ final, sur la base de l’exploitation simultanée du corpus de Montréal Sankoff-Cedergren, de l’ALEC et de PFC.

Références bibliographiques

Côté, M.-H. (2014). Le projet PFC et la géophonologie du français laurentien, in Durand, J., Kristoffersen, G. & Laks, B., avec la collaboration de Peuvergne, J. (éds) La phonologie du français : normes, périphéries, modélisation, Nanterre, Presses Universitaires de Paris Ouest : 175-198.

Deshaies, D. (1981). Le français parlé dans la ville de Québec : une étude sociolinguistique. Québec : CIRB (« G-11 »).

Durand, J., Laks, B. & Lyche, C. (2002). La phonologie du français contemporain. Usages, variétés et structure, in Pusch, C. D. & Raible, W. (éds) Romanistische Korpuslinguistik. Korpora und gesprochene Sprache / Romance Corpus linguistics. Corpora and spoken language, Tübingen, Narr : 93-106.

Martineau, France et al. (2011-). Corpus FRAN: Corpus du français en Amérique du Nord, élaboré dans le cadre du projet Le français à la mesure d'un continent: un patrimoine en partage (dir. F. Martineau), <http://continent.uottawa.ca/fr/corpus-et-ressources-electroniques/corpus/>

Lavoie, T., Bergeron, G. & Côté, M. (1985). Les parlers français de Charlevoix, du Saguenay, du Lac-Saint-Jean et de la Côte-Nord. Québec : Office de la langue française / Les Publications du Québec.

Poplack, S. (1989). The care and handling of a mega-corpus, in Fasold, R. & Schiffrin, D. (éds) Language change and variation. Amsterdam, Benjamins : 411-451.

Saint-Amant Lamy, H. (en cours). Origines du changement phonique : une étude de cas en français laurentien, Thèse de doctorat, Université Laval.

Sankoff, D. & Sankoff, G. (1973). Sample survey methods and computer-assisted analysis in the study of grammatical variation, in Darnell, R. (éd) Canadian languages in their social context, Edmonton, AB, Linguistic Research: 7-64.

 

D’une seconde à un siècle : de l’innovation au changement phonétique à Glasgow

Florent Chevalier
Université de Poitiers

Mais où le changement phonétique prend-il sa source ? Si les linguistes observent depuis longtemps la diffusion d’une nouvelle norme de prononciation au sein d’une communauté linguistique et au-delà, s’ils en comprennent les étapes et les modalités (Labov 1994, 2001), le mécanisme premier, l’innovation, demeure difficile à expliquer. Pour l’heure, la théorie la plus recevable est celle notamment soutenue par Trudgill (1986, 2008) : l’accommodation phonétique entre locuteurs (voir Giles & Smith 1979) durant une interaction serait responsable du changement systémique à long terme à l’échelle d’une communauté. Nous savons en effet que des ajustements se produisent à très court terme (Babel 2009) et qu’ils peuvent se fossiliser à moyen terme (Sonderegger et al. 2017), mais cela n’a rien de systématique (Auer & Hinskens 2005).

Ce lien de causalité potentiel ne peut être étudié qu’à travers un corpus répondant à des critères spécifiques (Pardo 2013) : un corpus de production orale spontanée, en interaction, offrant une perspective en temps réel, dans une communauté linguistique définie. Nous nous proposons pour cela d’avoir recours au corpus Sounds of the City, composé de 142 enregistrements de la classe ouvrière de Glasgow en temps réel et apparent de 1970 à 2000. La variation phonétique intra et inter-locuteurs y sera observée de manière dynamique dans différents types d’interactions (entretiens, conversations…), avec des témoins de chaque génération (jeunes, adultes, âgés) pour chaque décennie d’enregistrement. À cet effet, nous examinerons la convergence ou divergence graduelle entre locuteurs dans la réalisation des voyelles, tant en qualité que quantité. À terme, il s’agira de relier la micro-diachronie (interaction) à la diachronie large (décennies), en comparant les modalités, la direction, et la vitesse de la variation d’éléments dont l’évolution au cours du XXème siècle a d’ores et déjà été documentée : le schéma de quantité vocalique en anglais écossais (ou Scottish Vowel Length Rule, Chevalier & Stuart-Smith 2016) et les caractéristiques spectrales des voyelles de boot, cot et goat (Stuart-Smith et al. 2017). Nous chercherons également à définir les facteurs linguistiques, sociaux et situationnels susceptibles d’encourager ou de freiner cette évolution.

Cette communication sera l’occasion de présenter les résultats du premier pilote de ce projet, soit la réalisation de /i/ dans huit interactions (quatre groupes de femmes et quatre groupes d’hommes, adultes et adolescent.e.s, enregistré.e.s dans les années 1990). Toutes les occurrences de /i/ sous accent lexical ont été segmentées et annotées selon plusieurs facteurs (notamment contexte morphophonologique et prosodique) afin de contrôler au mieux la variation dynamique des caractéristiques spectrales (censées être stables à cette période) et durationnelles de cette voyelle, ces dernières ayant fortement évolué au gré de la SVLR.

À ce stade de notre étude, nos résultats ne sont qu’embryonnaires, puisqu’ils ne permettent pas de comparaison en temps réel. Nos premiers résultats attestent d’une variation intra et inter-locuteurs importante, ainsi que du rôle crucial des facteurs prosodiques (position dans le groupe de souffle, accent de phrase) dans cette variation. Les résultats complets du premier pilote, et notamment l’opposition de la qualité et de la quantité de /i/ en temps réel ou selon le genre des locuteurs, seront disponibles en amont de la conférence, et permettront de finaliser la méthodologie de cette étude.

Références bibliographiques

Auer, P. & Hinskens, F. (2005). The role of interpersonal accommodation in a theory of language change, in. Auer, P., Hinskens, F., and Kerswill, P. (éds.) Dialect change: convergence and divergence in European languages. Cambridge, Cambridge University Press : 335–357.

Babel, M. E. (2009). Phonetic and social selectivity in speech accommodation. Doctoral dissertation, University of California.

Chevalier, F. & Stuart-Smith, J. (2016). Gender and real time change in the Scottish Vowel Length Rule in Glasgow. British Association of Academic Phoneticians’ 2016 colloquium, Lancaster University.

Giles, H. & Smith, Ph. (1979). Accommodation Theory: Optimal Levels of Convergence, in. Giles, H. & St-Clair, R. N. (éds.) Language and Social Psychology. Baltimore : Basil Blackwell : 45-65.

Labov, W. (1994). Principles of linguistic change. Vol. 1:  Internal factors. Oxford : Blackwell.

Labov, W. (2001). Principles of linguistic change. Vol. 2:  Social factors. Oxford : Blackwell.

Pardo, J. (2013). Measuring phonetic convergence in speech production. Frontiers in Psychology, 4 : 559. En ligne : https://doi.org/10.3389/fpsyg.2013.00559

Sonderegger, M., Bane, M. & Graff, P. (2017). The medium-term dynamics of accents on reality television. Language, 93(03), 598-640.

Stuart-Smith, J., Jose, B., Rathcke, T., Macdonald, R. & Lawson, E. (2017). Changing sounds in a changing city, in. Moore, E. & Montgomery, C. (éds.) Language and a Sense of Place: Studies in Language and Region, Cambridge: Cambridge University Press : 38-64.

Trudgill, P. (1986). Dialects in contact. Oxford : Blackwell.

Trudgill, P. (2008). Colonial dialect contact in the history of European languages: on the irrelevance of identity to new-dialect formation. Language in Society, 37(02), 241-254.

 

Ce que les Orléanais disent de leur ville et comment ils en parlent

Gabriel Bergounioux
Université d’Orléans / LLL (UMR 7270)

À la fin des années 1960, l’extension de la scolarité secondaire et l’introduction du magnétophone dans les salles de classe ont incité des enseignants du Royaume-Uni à illustrer de documents sonores leurs cours de langue. Afin de développer les capacités de communication des élèves, ils entendaient privilégier le français tel qu’on le parle. C’est ainsi qu’à partir de 1968, quelques universitaires ont entrepris une campagne d’enregistrements, l’Enquête Sociolinguistique à Orléans (ESLO), dressant le « portrait d’une ville » à travers les propos de ses habitants.

Cette enquête, des centaines d’heures d’enregistrements, constitue aujourd’hui le plus important témoignage sur la façon dont on parlait il y a cinquante ans en même temps qu’elle nous restitue une image de la vie et de la ville à cette époque. Les transformations urbaines, le développement des industries et des services, la création de nouveaux quartiers, l’ouverture de l’université sont évoqués, mais aussi les bouleversements sociaux, l’actualité politique, les loisirs, la cuisine…

Un manuel, Les Orléanais ont la parole, reprenant et commentant vingt-quatre extraits d’entretiens, a servi à toute une génération de collégiens anglais à se familiariser avec notre langue en même temps qu’ils découvraient, à partir de photos en noir et blanc, les halles, la gare, les chèques postaux, la boucherie Lefèvre, l’usine Renault, le lycée Pothier et les fêtes de Jeanne d’Arc, bien sûr. L’ouvrage a été adapté pour l’allemand.

C’est de ce qui a été confié aux professeurs britanniques par les habitants de la cité qu’il sera question. Mais aussi, au-delà, on parlera de l’extraordinaire destin des bandes magnétiques, sauvées in extremis de la destruction, rapatriées par le Laboratoire Ligérien de Linguistique qui en a assuré la transcription et aujourd’hui déposées à la Bibliothèque nationale de France (l’une des tutelles de l’unité de recherche) afin de servir dans le monde entier de ressource en libre accès pour l’étude du français vivant grâce à la mise en ligne assurée par le site Gallica.

Quarante années plus tard, l’enquête a été reprise. Selon les mêmes principes, en adoptant à notre temps les questions, les procédures, le périmètre urbain et les publics, ESLO2 constitue une ressource de premier plan pour les chercheurs, les enseignants de Français Langue Étrangère et les entreprises, un observatoire unique pour évaluer la dynamique du français et les réalisations de la langue parlée.

Entre la publicité qu’assure à une ville sa présence dans les manuels d’enseignement et le développement technologique des sciences de la parole, au croisement des applications informatiques et de la préservation de la mémoire collective, ESLO reste avant tout, pour nous, une mémoire, celle de la relation des Orléanais à leur langue et à leur ville.

 

50 ans (et plus) de corpus en ville

Françoise Gadet
Université Paris Nanterre - MoDyCo

On partira d’un bref rappel de l’histoire de quelques corpus francophones collectés dans des villes. Les données ainsi recueillies, surtout en France (à Paris et dans quelques grandes villes, depuis le Français Fondamental jusqu’à MPF – voir différents articles dans Gadet (dir.) à paraître, sur différentes villes de France et de Belgique) et au Canada (sur les villes de Montréal et Ottawa-Hull-Gatineau), avec selon les cas des objectifs (socio)linguistiques, didactiques voire politiques, permettront de revenir sur les propriétés et les limites que ces corpus ont manifestées. La recherche d’une masse importante de données (le corpus comme « réservoir de données ») a souvent pris le pas sur des objectifs sociolinguistiques ou écolinguistiques supposant une élaboration de catégories, dont, en l’occurrence, celui de comprendre ce que la ville fait aux langues, donc quelles sont les spécificités des langues quand elles sont parlées dans les villes (voir Calvet, 1994, Gadet & Gasquet-Cyrus à paraître). On évoquera aussi rapidement des corpus urbains élaborés sur d’autres langues.

L’évocation de ces recueils, au début en tous cas inscrits dans la continuité de perspectives d’échantillonnages dialectologiques des témoins, offrira l’occasion de soulever des interrogations à la fois méthodologiques et théoriques, en particulier quant aux dimensions qui concernent les sites (ex. : français de Montréal/français à Montréal) et l’échantillonnage des témoins (le choix des catégories conduisant à les sélectionner ou non). Les questions primordiales se ramènent ainsi à : quel(s) corpus veut-on élaborer, comment et pour montrer ou problématiser quoi ? On cherchera alors, en s’appuyant sur l’exemple du corpus parisien MPF (Gadet, dir, 2017), à soulever des questions quant à la complexité des données  (socio)linguistiques urbaines (ou les données recueillies dans une ville), et finalement sur la ville qui parle (Manessy, 1992, Tabouret-Keller, 1992 – et Britain, 2018, pour le contraste avec la non-ville et le risque de « fétichisation » de la ville).

Références bibliographiques

Britain, D. (2018). Paris: a sociolinguistic comparative perspective. Journal of French Language Studies, Vol 28 n° 2, 291-300.

Calvet,  L.-J. (1994). Les voix de la ville, introduction à la sociolinguistique urbaine, Paris : Payot Essais, édition de poche 2011.

Gadet, F. (dir, 2017). Les parlers jeunes dans l’Ile-de-France multiculturelle, Paris & Gap : Ophrys.

Gadet, F. (dir, à paraître). Des villes francophones et des langues en temps de globalisation, Paris : Garnier.

Gadet, F. & Gasquet-Cyrus, M. (à paraître). Des villes francophones et des langues… en temps de globalisation : introduction », in. F. Gadet, Des villes francophones et des langues en temps de globalisation, Paris : Garnier.

Manessy, G. (1992). Modes de structuration des parlers urbains, in. Des langues et des villes, E. Gouaini, N. Thiam (dirs), Paris, :Didier Erudition,  7-27.

Tabouret-Keller, A. (1992). Des villes sans langue : un aperçu des grands courants de réflexion sur l’homme urbain au début de ce siècle, in. Des langues et des villes, E. Gouaini, N. Thiam (dirs), Paris : Didier-Erudition, p. 85-95.

 

Session
Observer la variation - Ville

 

L’évolution des pratiques langagières francophones à Bruxelles : approche rétrospective

Emmanuelle Labeau et Hélène Blondeau
Aston University, University of Florida,

Initialement conçus pour documenter les variétés et examiner la configuration sociolinguistique de la variation dans la communauté linguistique, de grands corpus sociolinguistiques ont été recueillis depuis les années 1960 dans plusieurs centres urbains (Labov 2006). En domaine francophone, les corpus d’Orléans (1969) et de Montréal (1971), qui ont depuis fait école, ont tous les deux entraîné des collectes de donnée subséquentes donnant ainsi accès à l’évolution des pratiques langagières en temps réel. Or, le français parlé à Bruxelles a été plus tardivement étudié selon cette perspective.

Cette communication porte sur deux corpus comparables éclairant  à la fois l’évolution les  représentations langagières francophones et l’usage du français à Bruxelles des années 1990 à aujourd’hui. La comparaison de ces deux corpus, constitués à 25 ans d’intervalle, a l’avantage de donner accès de manière rétrospective à la reconfiguration de la dynamique sociolinguistique en temps réel. La présentation du  Corpus de français parlé à Bruxelles [CFPB] (http://cfpp2000.univ-paris3.fr/cfpb.html) constitué récemment (Dister et Labeau 2016) est suivie de celle d’un corpus  patrimonial recueilli en 1990 (Blondeau 1991, 1993) en en voie d’être remis en forme à des fins comparatives (MHRA 2017-2018). L’examen de ces deux ensembles de données montre que  malgré leurs objectifs de recherche initiaux distincts, ils  s’avèrent comparables à plusieurs égards. Constitués d’entretiens sociolinguistiques menés par un intervieweur (étudiant ou chercheur en sociolinguistique ou en linguistique française), les données ont été recueillies dans un cadre relativement naturel, soit au domicile du participant ou dans un endroit qui lui est familier. D’autre part, on constate une similarité du point de vue des thèmes abordés: la vie à Bruxelles, la situation des langues à Bruxelles, les rapports que les locuteurs entretiennent face aux langues en usage et l’identification de soi à un groupe.

À titre d’illustration, nous montrons comment l’exploitation longitudinale de ces deux corpus permet de saisir les changements dans les pratiques langagières. Dans un premier temps, nous documentons l’évolution des représentations de la concurrence des langues sur le marché linguistique à Bruxelles, en particulier en ce qui a trait à la place de l’anglais dans la capitale bruxelloise. Dans un deuxième temps, nous examinons l’évolution de l’usage en documentant les changements dans les formes d’introduction du discours direct (DD). L’analyse des données préliminaires suggère d’une part un changement dans l’usage verbal marqué par un déclin des verbes déclaratifs traditionnels introduisant le DD au profit de verbes non-déclaratifs (comme être et faire). D’autre part, l’analyse indique un développement du rôle de marqueurs pragmatiques (comme genre ou ) impliqués dans l’introduction du DD.

Le recours à la comparaison de corpus de données à des fins rétrospectives s’avère  intéressant pour tout linguiste ou sociolinguistique. Néanmoins, il faut prendre soin de s’interroger sur le sens exact de leur constitution afin de les exploiter correctement à des fins comparatives. Dans le cas de la situation Bruxelloise, ce retour dans le temps s’avère fructueux.

Références bibliographiques

Blondeau, H. (1991). Les attitudes linguistiques et la représentation de soi comme groupe. Chez les Bruxellois francophones. Mémoire de maîtrise, Université de Montréal.

Blondeau, H. (1993). L'identité collective des Bruxellois francophones à travers leurs attitudes linguistiques, Actes du colloque de l’Association canadienne des sociologues et anthropologues de langue française: Les identités.

Dister, A. & Labeau, E. (2016). Le Corpus de français parlé à Bruxelles: available online at: http://cfpp2000.univ-paris3.fr/cfpb.html

Labov, William (2006 [1966]). The Social Stratification of English in New York City, Washington, D.C., Center for Applied Linguistics.

 

Des enfants dans la ville : constitution du corpus novateur ESLO-Enfants

Jennifer Ganaye & Céline Dugua
LLL UMR7270 – Université d’Orléans

ESLO-Enfants est un projet original de recueil de paroles enfantines qui s’intègre au corpus ESLO (Enquêtes sociolinguistiques à Orléans). Original à plusieurs titres. Dès la création du corpus ESLO dans les années 1970, les chercheurs ont eu pour objectif de réaliser le portrait sonore d’une communauté d’auditeurs, considérant l’importance à accorder aux paroles entendues, plus concrètement aux paroles qui s’échangent à l’intérieur d’une communauté, ici l’agglomération orléanaise. Aujourd’hui, dans l’ensemble de notre projet, nous envisageons l’enfant comme un locuteur/auditeur à part entière et nous chercherons donc à capter toute la variété des paroles auxquelles il peut être confronté. Il ne s’agit donc pas simplement d’un corpus enfantin, mais d’un corpus à hauteur d’oreilles d’enfants, visant à capter l’input dans toute sa diversité. Cette démarche s’inscrit dans une approche variationniste où nous mettrons en évidence l’hétérogénéité des pratiques et des usages à travers l’étude notamment d’un phénomène variable : celui de la liaison, de son usage, de sa diffusion et de son acquisition. Nous nous inscrivons par ailleurs dans les principes des théories basées sur l’usage (Kemmer & Barlow, 2000, Tomasello, 2003) qui notamment documentent les liens input/output dans le cadre de l’acquisition du langage (Cameron-Faulkner et al., 2003), et qui apportent des outils pour travailler sur ces relations.

Afin de mener à bien ce projet, nous présenterons nos choix méthodologiques liés à la collecte des données et à notre échantillonnage. Pour l’heure, trois familles participent au projet. Elles ont été choisies en fonction de l’âge des enfants (entre 2 et 6 ans), et des catégories socio-économico-culturelles auxquelles elles appartiennent : notre volonté étant de diversifier au maximum les types de famille. Nous réaliserons trois temps de collecte afin de disposer de données longitudinales. Par ailleurs, nous ferons passer des tests de langage à chaque période, que nous empruntons au projet DyLNet (Nardy et al., 2016) et des tests de productions de liaisons (Dugua, 2006). Concernant la collecte, afin de mieux cerner les différentes situations et pour faciliter les transcriptions, l’usage de la vidéo s’est imposé. Nous utilisons des caméras d’action qui présentent l’avantage d’être peu invasives, simples de manipulation et qui peuvent facilement être installées par des systèmes de fixations modulables permettant de suivre les participants dans leurs déplacements. Nous complétons ce média par des captations sonores grâce à des micro-cravates connectés en réseau pour une meilleure qualité d’enregistrement. Dans le but de minimiser l’impact du paradoxe de l’observateur (Labov, 1973), nous confions le matériel aux familles qui choisissent elles-mêmes les moments de collecte les plus opportuns par rapport à leurs organisations familiales. Nous les encourageons à privilégier des situations variées : temps de devoirs, repas de familles, jeux/activités, etc.

Prenant appui sur les premiers travaux qui rendent compte de l’usage des liaisons dans le corpus ESLO (Dugua & Baude, 2017), nous repèrerons et annoterons les liaisons produites et entendues par les enfants et nous proposerons une analyse à la fois sociolinguistique et dans le cadre des théories basées sur l’usage sur l’acquisition et la transmission de cet objet linguistique variable.

Références bibliographiques

Cameron-Faulkner, T., Lieven, E. & Tomasello, M. (2003). A construction based analysis of child directed speech. Cognitive Science, 27, 843-873.

Dugua, C., 2006. Liaison, segmentation lexicale et schémas syntaxiques entre 2 et 6 ans. Un modèle développemental basé sur l'usage. Thèse de doctorat. Université Grenoble3.

Dugua, C. & Baude, O. (2017). La liaison à Orléans, corpus et changement linguistique: une première étude exploratoire, Journal of French Language Studies, 27, 41-54.

Kemmer, S. & Barlow, M. (2000). Introduction : A usage-based conception of language, in Barlow M. et Kemmer S., Usage-based models of language use, Stanford Californie, CSLI Publications, p. VII-XXVIII.

Labov, W. (1973). Some principles of linguistic methodology, Language in Society, 1, 97-120.

Nardy, A., Fleury, É., Chevrot, J.-P., Karsai, M., Buson, L., Bianco, M., Rousset, I., Dugua, C., Liégeois, L., Barbu, S., Crespelle, C., Busson, A., Léo, Y. & Bouchet, H. (2016). DyLNet – Language Dynamics, Linguistic Learning, and Sociability at Preschool: Benefits of Wireless Proximity Sensors in Collecting Big Data (ANR-16-CE28-0013). https://dylnet.univ-grenoble-alpes.fr/

Tomasello M. (2003). Constructing a Language: a Usage-Based Theory of Language Acquisition, Cambridge, Massachussetts, Harvard University Press.

ESLO : http://eslo.huma-num.fr/ consulté le 10/04/2018

 

La conséquence du passage du temps dans deux variétés de français apparentées: étude longitudinale des marqueurs de conséquences à Montréal et à Welland

Hélène Blondeau, Raymond Mougeon et Mireille Tremblay
University of Florida, College Glendon Université York, Université de Montréal

Cette communication présente les résultats d’une étude longitudinale du changement linguistique en français dans deux ensembles urbains nord-américains sur une période s’échelonnant sur une quarantaine d’années. L’étude (micro)diachronique compare le français parlé à Montréal, où le français occupe une position majoritaire, et le français parlé à Welland, où il est minoritaire. En analysant la variation dans l’usage des marqueurs de conséquence, notamment les formes ça fait que, alors, donc et so, l’étude documente à la fois les tendances communautaires et le positionnement des individus par rapport aux changements communautaires.

L’examen d’échantillons représentatifs des deux communautés à quarante ans d’intervalle permet de dégager les tendances communautaires. Deux sous-ensembles d’entretiens sociolinguistiques du corpus FRAN (Martineau et Séguin 2016) menés dans les années 2010 à Montréal et à Welland font l’objet d’une comparaison avec les corpus sociolinguistiques des années 1970 : le corpus Sankoff-Cedergren recueilli à Montréal en 1971 (Sankoff et al 1976) et le corpus Mougeon-Beniak recueilli à Welland en 1975 (Beniak, Mougeon et Valois, 1985). L’analyse quantitative indique que ces deux variétés de français laurentien, qui partageaient des traits communs dans les années 1970 (Mougeon et al 2016), tendent à s’éloigner, tant sur le plan du répertoire des variantes disponibles et de leur répartition, que sur le plan des contraintes sociolinguistiques de la variation. En effet, à Welland, la montée de la forme so entraîne un affaiblissement de la forme (ça) fait (que) alors qu’à Montréal, où la forme so est absente, la forme (ça) fait (que) connaît une forte progression. Quant à la forme alors, son statut de variante prestigieuse se maintient à Welland, tandis qu’elle décline à Montréal au profit de la forme donc. Une analyse du rôle de l’âge, de l’origine sociale, du genre et, pour Welland, du niveau de bilinguisme alimente l’interprétation de ces reconfigurations.

L’étude longitudinale a également recours à l’examen de la variation au cours de la vie de cohortes d’individus ayant participé à deux enquêtes : 12 individus à Welland (1975 et 2010) et 12 individus à Montréal (1971 et 1995 (Vincent et al 1995)). Cette analyse tisse un lien entre l’évolution de la trajectoire sociale de l’individu et les modifications dans l’usage des variantes. Alors que certains locuteurs participent au changement et s’alignent sur les tendances communautaires, d’autres font montre de stabilité ou se retranchent dans leur usage de jeunesse, comportements potentiellement associés à des phénomènes de mobilité ou de stabilité sociale, ou au relâchement sociolinguistique parfois observé lors du retrait de la vie active. Les résultats de la présente étude  s’inscrivent dans la lignée des travaux sur la variation et le changement intra-individuel menés à Montréal (Blondeau 2001, 2006, 2011, Blondeau, Sankoff et Charity 2002, Sankoff et Blondeau 2007, 2013) et  contribuent à l’essor des études longitudinales en sociolinguistique (Buchstaller et Wagner 2016).

Références bibliographiques

Beniak, É., R. Mougeon & D. Valois (1985). Contact des langues et changement linguistique: étude sociolinguistique du français parlé à Welland. Québec: Centre International de Recherche sur le Bilinguisme.

Buchstaller, I. & S. E. Wagner  (2016). Introduction: Using panel data in the sociolinguistic study of variation and change, in Wagner S. E. & Buchstaller , I. (ed.) Panel Studies of variation and Change, New York and London: Routledge, p.1-18.

Blondeau, H. (2001). Real-time changes in the paradigm of personal pronouns in Montreal French.  Journal of Sociolinguistics, vol. 5, no 4, p. 453-474.

Blondeau, H. (2006b). La trajectoire de l’emploi du futur chez une cohorte de Montréalais francophones entre 1971 et 1995.  Revue Canadienne de Linguistique Appliquée, vol. 9, p. 73-95. 

Blondeau, H. (2011). Cet «autres» qui nous distingue. Tendances communautaires et parcours individuels dans le système des pronoms du français québécois. Québec, Canada : Presses de l’Université Laval.

Blondeau, H, G. Sankoff & A. Charity (2002) Parcours individuels dans deux changements linguistiques en cours en français montréalais.  Revue québécoise de linguistique, vol. 31, no 1, p. 13-38.

Martineau, F. & M-C. Séguin, (2016). Le Corpus FRAN : réseaux et maillages en Amérique française », Corpus, no. 15, Corpus de français parlés et français parlés des corpus.

Mougeon, R., S. Hallion, D. Bigot & R. Papen (2016). Convergence et divergence sociolinguistique en français laurentien: l’alternance rien que/juste/seulement/seulement que/neque, Journal of French language Studies, 26, (2), 115-154

Sankoff, D., G. Sankoff, S. Laberge. & M. Topham (1976). Méthodes d’échantillonnage et utilisation de l’ordinateur dans l’étude de la variation grammaticale. Cahiers de linguistique de l'Université du Québec 6 : 85-125.

Sankoff, G. & H. Blondeau (2007). Language change across the lifespan : /r/ in Montreal French.  Language, vol. 83, no 3, p. 560-588.

Sankoff, G. & H. Blondeau (2013). « Instability of the [r] ~ [R] alternation in Montreal French : An exploration of stylistic conditioning in a sound change in progress in Spreafico, L & Vietti, A. (éd.), Rhotics : New data and perspectives, Bozen, Bozen University Press, p. 249-265.

 

Session
outils

 

Annoter un corpus oral multicouche en chunks : l'approche de la linguistique outillée

Flora Badin1, Marie Skrovec1, Iris Eshkol2
1
Université d’Orléans ; 2 Université Paris Nanterre

La communication porte sur l’annotation en chunks d’un corpus de français oral transcrit, issu des bases de données ESLO et CLAPI, dans le cadre du projet SegCor - Segmentation de Corpus Oraux. Les chunks sont des constituants continus et non-récursifs (Abney, 1991) de la parole. L’objectif de la tâche de chunking est d’identifier la structure syntaxique superficielle d’un énoncé, c’est-à-dire de reconnaître ses constituants minimaux sans spécifier leur structure interne et leurs fonctions syntaxiques. Pour les transcriptions de l’oral, pour lesquelles une analyse syntaxique complète est souvent difficile surtout dans l’optique du traitement d’une grande quantité de données, le chunking représente un degré d’analyse adapté. Il a en effet par exemple été démontré que ses constituants sont le lieu de réalisation privilégié des réparations à l’oral (Blanche-Benveniste, 1997 : 47). L’enjeu de ce travail d’annotation consiste à élaborer une typologie des unités qui tienne compte des spécificités de l’oral dans la perspective d'une automatisation du processus de chunking.

L’annotation en chunks du corpus oral transcrit a suivi plusieurs étapes :

  • annotation effectuée par deux chercheurs ensemble en vue de tester et de déterminer la typologie des unités à annoter ;
  • élaboration du jeu d’étiquettes et des conventions d’annotation. Cette étape a permis de proposer 9 étiquettes tenant compte des spécificités du discours oral comme par exemple la forme noyau (Benzitoun, Fort & Sagot 2012) ou l’articulateur, une catégorie fonctionnelle comprenant des éléments qui organisent le contenu propositionnel et permettent la cohésion à différents niveaux (à la fois syntaxique, textuel, mais aussi interactionnel) ;
  • validation des résultats de l’étape précédente par le calcul de l’accord inter-annotateur ;
  • analyse des erreurs d’annotation classées par type.

Le corpus annoté manuellement a servi de corpus de référence pour l’apprentissage automatique de la segmentation effectuée en utilisant les CRF (Conditional Random Fields) linéaires (Lafferty et al. 2001). 

Après avoir introduit la notion de chunks et le contexte du travail effectué, le projet ANR-DFG SegCor, nous présenterons la typologie des chunks en l’illustrant par des exemples tirés du corpus. Certaines catégories comme les articulateurs, les formes noyaux, les segments inconnus, ainsi que certains choix portant sur les catégories connues telles que les chunks adjectivaux, verbaux seront explicités. Les cas spécifiques posant problème aux annotateurs seront discutés.  Le processus de l’annotation manuelle incluant le prétraitement des données afin de faciliter la tâche de l’annotation manuelle, sa méthodologie, le calcul de l’accord inter-annotateur et l’analyse de son résultat seront développés ensuite. Les perspectives du travail seront présentées en conclusion.

Références bibliographiques

Abney, S. (1991). Parsing by chunks, in Berwick, R., Abney, R. and Tenny, C., (ed.) Principle-based Parsing, Kluwer Academic Publisher.

Benzitoun, C., Fort, K. & Sagot, B. (2012). TCOF-POS : un corpus libre de français parlé annoté en morphosyntaxe, Actes de la conférence conjointe JEP-TALN-RECITAL, volume 2 : TALN, Grenoble, 4-8 juin, pp. 99-112.

Blanche-Benveniste, C. (1997). Approches de la langue parlée en français. Paris, Ophrys.

Lafferty, J., McCallum, A. and Pereira, F. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In Proceedings of ICML 2001, 282–289.

 

Compiler un grand corpus oral pour la textométrie : retour d'expérience en vue de favoriser le développement de nouvelles fonctionnalités logicielles

Loïc Liégeois1,2 et Flora Badin3
1
LLF, UMR 7110, Université Paris Diderot, Sorbonne Paris Cité, CNRS, F-75013 Paris, France, 2CLILLAC-ARP, EA 3967, Université Paris Diderot, Sorbonne Paris Cité, F-75013 Paris, France, 3LLL, UMR 7270, Université d'Orléans, COMUE Centre-Val de Loire, CNRS, F- 45065 Orléans, France

La visualisation, la réutilisabilité et l'interopérabilité des données de la recherche sont au centre des préoccupations de la plupart des chercheurs constituant des corpus oraux. Dans ce cadre, le projet scientifique ESLO fait office de référence : depuis 2007, les membres du projet ont développé une chaine de traitements qui a abouti à la diffusion des corpus de manière à ce qu'ils soient non seulement valorisés aux yeux d'un large public mais également réutilisables par des chercheurs de disciplines diverses. Le choix des formats de structuration des données (trs, format du logiciel de transcription Transcriber, puis XML-TEI) et des licences de diffusions (Creative Commons restreignant uniquement les réutilisations à but lucratif) vont parfaitement dans ce sens et nous permettent aujourd'hui de proposer un travail fondé sur la compilation de ces données pour les rendre compatibles avec un des outils état de l'art en textométrie, TXM (Heiden, 2010 ; Heiden, Magué et Pincemin, 2010). En effet, même si la possibilité d'import automatique des données Transcriber est déjà prévue par l'outil, celle-ci ne nous semble pas satisfaisante au regard du traitement opéré sur certaines spécificités de l'oral, comme les chevauchements d'énoncés par exemple. De plus, la méthode d'import existante ne nous permet pas d’utiliser toutes les fonctionnalités de l’outil, notamment l’annotation.

Les membres du projet ESLO proposent un concordancier en ligne pour interroger les transcriptions en fonction de certaines caractéristiques (locuteurs, type d’entretiens, …). Si ce concordancier permet d’avoir une vision globale du contenu des corpus, il ne peut pas être utilisé pour des analyses fines. Exploiter, analyser, enrichir cette ressource multi-supports (transcriptions, son, métadonnées locuteur) semble être la suite logique à donner dans le but de pouvoir par exemple interroger le corpus avec un langage de requêtes performant (impliquant par exemple l'usage d'expressions régulières) ou bien pouvoir créer plusieurs sous corpus d'étude comparables en s'appuyant sur la richesse des métadonnées sociolinguistiques associées aux données.

Nous avons décidé de nous pencher sur cette problématique. Dans un premier temps, nous avons récupéré les transcriptions disponibles ainsi que les métadonnées locuteurs associées. Ensuite, nous avons décidé d'effectuer une série de traitements sur les données afin de les rendre exploitables par le logiciel TXM. Dans cet objectif, nous avons appliqué un ensemble de scripts nous permettant de gérer les particularités du format Transcriber, comme la représentation des chevauchements d'énoncés et des évènements non textuels ou la segmentation des tours de paroles segmentés en unités non significatives par exemple. En effet, les transcriptions du corpus ESLO ne sont segmentées ni en tour de parole, ni en énoncés (comme définis par exemple par Parisse et Le Normand, 2006) mais en fonction de critères comme le chevauchement de la parole par exemple. Ainsi, comme illustré dans l'exemple ci-dessous, un énoncé peut se retrouver segmenté sur plusieurs lignes de transcriptions, ce qui peut nuire au traitement automatique du corpus (étiquetage POS par exemple).


Figure 1 : Exemple de problème de segmentation de la transcription dans le corpus ESLO. La production du locuteur BV1 se retrouve répartie sur 3 lignes de transcription différentes alors qu'elle correspond à 2 unités cohérentes significatives : un tour de parole et un énoncé (tel que défini par Parisse et Le Normand, 2006).

Nous verrons ensuite que ce travail permet non seulement d'offrir une puissante plateforme d'interrogation du corpus mais qu'il nous amène également à nous questionner sur un ensemble d'évolutions possibles pour le logiciel. L'exploitation du corpus ESLO nous permet de proposer le développement d'un module permettant l'accès à la donnée sonore en parallèle de la transcription. Cette fonctionnalité amènerait ainsi la possibilité d'utiliser le récent module d'annotation intégré à la dernière version de TXM pour annoter des phénomènes oraux comme la liaison par exemple. Dans la deuxième partie de notre exposé, nous présenterons les solutions que nous avons mises en place pour adapter le logiciel à l'analyse d'un grand corpus oral ainsi que les pistes de travail que nous envisageons.

Références bibliographiques

Eshkol-Taravella I., Baude O., Maurel D., Hriba L., Dugua C. & Tellier I. (2012). Un grand corpus oral « disponible » : le corpus d’Orléans 1968-2012. TAL, Volume 52(3), pp. 17-46.

Heiden, S. (2010). The TXM Platform: Building Open-Source Textual Analysis Software Compatible with the TEI Encoding Scheme, in Otoguro R., Ishikawa, K., Umemoto, H., Yoshimoto, K. & Harada, Y. (éds.) 24th Pacific Asia Conference on Language, Information and Computation - PACLIC24, Sendai, Institute for Digital Enhancement of Cognitive Development, Waseda University : pp. 389-398.

Heiden, S., Magué, J.-P. & Pincemin, B. (2010). TXM : Une plateforme logicielle open-source pour la textométrie – conception et développement, in Bolasco, S., Chiari, I. & Giuliano, L. (éds.) Proc. of 10th International Conference on the Statistical Analysis of Textual Data - JADT 2010, Vol. 2, Roma, Edizioni Universitarie di Lettere Economia Diritto : pp. 1021-1032.

Parisse, C. & Le Normand, M.-T. (2006). Une méthode pour évaluer la production du langage spontané chez l’enfant de 2 à 4 ans. Glossa, 97, pp. 20-41.

 

Une chaîne de traitement informatique pour enrichir l’annotation des grands corpus oraux du français

George Christodoulides
Service de Métrologie et des Sciences du langage, Université de Mons, Belgique, Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.

Notre communication relève de la thématique transversale de l’outillage, exploration et diffusion des corpus oraux. Plusieurs grands corpus oraux du français existent désormais. Toutefois, les corpus conçus pour des études en sociolinguistique, comme le corpus PFC (Durand et al. 2009) ou les corpus ESLO (Baude & Dugua 2016) sont transcrits en unités de parole d’une durée de plusieurs secondes et contiennent peu d’annotations supplémentaires (à savoir, leurs conventions de transcription et le codage des phénomènes spécifiques). Nous présenterons un ensemble d’outils qu’on peut appliquer sur un corpus transcrit afin de l’enrichir avec des couches d’annotation supplémentaires et ainsi permettre son utilisation pour répondre à plusieurs questions de recherche. Nous aborderons aussi la question de la diffusion d’un corpus sur Internet, tant pour un grand corpus, que pour un corpus de taille plus modeste. Nous allons illustrer le fonctionnement de cette boîte à outils en présentant notre travail sur l’ensemble du corpus du projet « Phonologie du Français Contemporain » (PFC).

Les outils présentés portent sur les tâches suivantes :

  • Alignement automatique. Nous proposons un système dynamique qui (i) adapte le modèle acoustique se basant sur les données d’entrée, (ii) combine la sortie de trois systèmes de reconnaissance de parole automatique (HTK, Sphinx et Kaldi) et (iii) combine la reconnaissance et l’alignement pour gérer les cas de chevauchement.
  • Annotation morphosyntaxique et syntaxique. Nous avons poursuivi le développement de l’annotateur morphosyntaxique DisMo (Christodoulides & Barreca, 2017), en profitant des corpus annotés publiés par le projet Universal Dependencies (de Marneffe et al. 2014).
  • Annotation prosodique. Nous proposons un système pour l’annotation automatique de la proéminence et des frontières prosodiques présenté dans (Christodoulides et al., 2017).
  • Diffusion et présentation du corpus en ligne. Notre outil génère un site web basé sur le système de gestion de contenu Django, afin de présenter les métadonnées et les annotations d’un corpus sur la toile. Ce site peut être enrichi avec d’autres modules Django (p.ex. formulaires, cartes, statistiques complémentaires).

Nous présenterons notre travail sur le corpus issu du projet PFC. Après l’application de la chaîne de traitement sur ce corpus, les annotations supplémentaires permettent d’élargir le champ de nos analyses aux questions de recherche suivantes :

  • Quelle est l’interaction des paramètres prosodiques (débit de parole, proéminence, présence d’une frontière prosodique) avec la production ou l’absence des schwas et des liaisons ?
  • Quelle est la dynamique temporelle de l’interaction (durée des tours de parole, durée des pauses inter- et intra-locuteur etc.) dans les interviews du corpus? Quelles sont les différences entre les interviews guidés et les interviews libres?
  • Dans le sous-corpus de lecture (le même texte produit par des centaines des locuteurs), quelle est la relation entre la segmentation prosodique et la structure syntaxique du texte PFC ? Quelle est la distribution de la production des disfluences (hésitations, répétitions) dans ces lectures?

Les outils sont disponibles gratuitement (logiciel libre) et pourraient être appliques sur d’autres corpus. Nous discuterons aussi donc la question de la mutualisation des données et l’amélioration de la diffusion des corpus via les dépôts institutionnels.

Références bibliographiques

Baude, O. & Dugua, C. (2016) Les ESLO, du portrait sonore au paysage digital. Corpus, 15, Corpus de français parlé et français parlé des corpus, 29-56.

Christodoulides, G., Avanzi, M., Simon, A. C. (2017). Automatic Labelling of Prosodic Prominence, Phrasing and Disfluencies in French Speech by Simulating the Perception of Naïve and Expert Listeners, Proceedings of Interspeech 2017, Stockholm, Suède, 3936-3940.

Christodoulides, G., Barreca, G. (2017). Expériences sur l’analyse morphosyntaxique des corpus oraux avec l’annotateur multi-niveaux DisMo. CORELA: Cognition Representation Langage, No. HS-21, DOI:10.4000/corela.4867, En ligne: http://corela.revues.org/4867.

de Marneffe, M.C., Dozat, T., Silveira, N., Haverinen, K., Ginter, F., Nivre, J. & Manning, C.D (2014) Universal Stanford dependencies: A cross-linguistic typology, Proceedings of 9th International Conference on Language Resources and Evaluation (LREC), Reykjavik, Islande, 4585-4592.

Durand, J., Laks, B. & Lyche, C. (2009). Le projet PFC: une source de données primaires structurées, in. Durand, J., Laks, B. & Lyche, C. (éd.) Phonologie, variation et accents du français. Paris, Hermès: 19-61.

 

Cartographie de la perception de la ville d’Orléans

Hélène Flamein1 & Iris Eshkol-Taravella2
1
LLL UMR 7270, Université d’Orléans, 2 MODYCO UMR 7114, Université Nanterre

L'évolution constante des nouvelles technologies multiplie et diversifie les usages et les attentes des utilisateurs. Si de nombreux progrès ont été faits en matière d'extraction d'informations automatique dans des ressources écrites, la recherche n'en est pas encore au même stade pour ce qui est du traitement de l’oral. Notre projet tend à répondre à ce manque en s'intéressant plus particulièrement à l'identification des opinions et des sentiments dans un contexte oral. Pour cela, nous nous fondons sur les transcriptions du corpus ESLO. Grâce aux technologies du Traitement Automatique du Langage (TAL), nous proposons une analyse automatique de la perception de la ville d’Orléans par ses habitants.

La détection d’informations géographiques et d’éléments subjectifs s’y rapportant ont déjà été mené en TAL comme dans le projet Senterritoire qui visait l’extraction de sentiments liés à l’aménagement d’un territoire. Dominguès et Eshkol-Taravella (2015) ont, quant à elles, défini la notion de « lieux subjectifs » et exposé ainsi les différents procédés lexicaux, syntaxiques et pragmatiques mis en œuvre pour exprimer la perception d’un lieu. Dans la suite de ce dernier travail, nous nous occupons aussi des « lieux subjectifs », c'est-à-dire les lieux sur lesquels un locuteur exprime son avis ou son sentiment.

Notre travail tend vers la matérialisation du portrait sonore de la ville d’Orléans évoqué dans les objectifs du projet ESLO (Baude & Dugua, 2016). Chaque lieu identifié sera représenté sur une carte et mis en relation directe avec les descriptions que les orléanais en font. L’élaboration de cette carte est fondée sur une succession d’annotations automatisées.

La première série d’annotations concerne l’identification de toutes les mentions de lieux présentes dans le corpus. Des lexiques spécifiques aux lieux d’Orléans ont été constitués à partir de bases de données dédiées à l’information géographique comme GEOFLA® , et appliqués au corpus selon une approche symbolique. Différentes règles permettent la combinaison de ces lexiques afin d’annoter les noms de voies, de villes, de commerces, etc. tout en prenant en compte les éventuelles variations opérées par le locuteur sur ces termes (troncation - rue de la république et rue de la rép- ; abréviation - La Ferté Saint-Aubin et La Ferté) (Eshkol-Taravella & Flamein, 2017 ; Flamein, 2017). A partir de ces annotations, les expressions subjectives relatives à ces lieux (les bords de Loire sont magnifiques) sont détectées par apprentissage automatique. Pour effectuer cet apprentissage, le corpus de référence d’une taille importante est nécessaire. Pour constituer ce corpus, nous avons choisi de procéder par myriadisation (Fort, 2017) en créant une plateforme collaborative permettant à des utilisateurs bénévoles d’annoter le corpus.

La première partie de la communication sera consacrée aux règles implémentées pour la détection automatique de toutes les variations des mentions de lieux dans les transcriptions d’ESLO2. Le schéma d’annotation de la perception de ces lieux et le processus d’annotation manuelle seront présentés dans la deuxième partie. Le corpus ainsi constitué servira de modèle d’apprentissage du repérage automatique des tours de parole contenant la perception des orléanais de leur ville.

Références bibliographiques

Baude O. & Dugua C. (2016) « Les ESLO, du portrait sonore au paysage digital », Corpus [En ligne], 15 | 2016, mis en ligne le 15 janvier 2017, consulté le 07 avril 2018. URL : http://journals.openedition.org/corpus/2924

Dominguès C. & Eshkol-Taravella I. (2015). Toponym recognition in custom-made map titles. International Journal of Cartography, Volume 1, Taylor & Francis.

Eshkol-Taravella I., Baude O., Maurel D., Hriba L., Dugua C. & Tellier I. (2012) Un grand corpus oral « disponible » : le corpus d’Orléans 1968-2012. in Ressources linguistiques libres, TAL vol. 52, n° 3, 17-46.

Eshkol-Taravella I. & Flamein H. (2017). « Dis-moi Orléans ». Repérage et analyse de la perception d’un lieu dans l’oral transcrit. Echo des études romanes, vol.XIII, n1, 61-72.

Flamein H. (2017). Annotation automatique des lieux dans l’oral spontané transcrit. Actes des RECITAL 2017, 30 juin 2017, Orléans.

Fort K. (2017) « Experts ou (foule de) non-experts ? la question de l’expertise des annotateurs vue de la myriadisation (crowdsourcing) », Corela [En ligne], HS-21 | 2017, mis en ligne le 20 février 2017, consulté le 07 avril 2018. URL : http://journals.openedition.org/corela/4835 ; DOI : 10.4000/corela.4835

Fort K. (2012). Les ressources annotées, un enjeu pour l'analyse de contenu : vers une méthodologie de l'annotation manuelle de corpus. Traitement du texte et du document. Université Paris-Nord - Paris XIII, 2012. Français.

Kerbat-Orecchioni C. (1999). L’Énonciation. De la subjectivité dans le langage. Armand Colin, Paris.

Kergosien E., Maurel P., Roche M. & Teisseire M. (2015). Senterritoire pour la détection d’opinions liées à l’aménagement d’un territoire. Revue Internationale de Géomatique, Hermes, 25 (1), 11-34.

Lesbegueries J. (2007). Plate-forme pour l’indexation spatiale multi-niveaux d’un corpus territorialisé. Thèse de doctorat, Université de Pau et des Pays de l’Adour.

Pak A. & Paroubek P. (2010) Construction d’un lexique affectif pour le français à partir de Twitter. TALN 2010, Montréal, 19-23 juillet 2010.

Plantin C. (2011). Les bonnes raisons des émotions. Principes et méthode pour l’étude du discours émotionné. Peter Lang, Berne.

Rosset S., Grouin C. & Zweigenbaum P. (2011). Entités Nommées Structurées : guide d'annotation Quaero. Technical report.

Zesnani S., Kergosien E., Roche M. & Tesseire M. (2016). Extracting new Spatial Entities and Relations from Short Messages, In the 8th International ACM Conference on Management of Digital EcoSystems (MEDES'2015), pp. 8, Hendaye (France).

 

Génération de pictogrammes à partir de la parole spontanée pour la mise en place d’une communication médiée

Céline Vaschalde, Benjamin Lecouteux, Didier Schwab
Équipe GETALP, Laboratoire d’Informatique de Grenoble

Dans le cadre d’un travail de recherche sur la génération de pictogrammes à partir de la parole spontanée, nous avons choisi de travailler avec le corpus ESLO pour aborder les problèmes rencontrés dans ce type de conditions de reconnaissance vocale (conditions acoustiques non optimales, superpositions de locuteurs, disfluences…) [Dufour, 2010], et ainsi améliorer les performances de nos modèles acoustiques et linguistiques.

L’objectif de notre recherche est en effet de développer un outil basé sur KALDI (système de reconnaissance de la parole libre) [Povey et al., 2011] permettant une communication médiée lorsque l’oralisation et la capacité de communiquer ses besoins, ses idées, vitale chez l’être humain, sont mis en difficulté voire impossibles. Ces troubles langagiers peuvent avoir des causes multiples (dysarthrie, dysphasie/aphasie, troubles cognitifs et communicationnels...), et peuvent être renforcés par des troubles moteurs aggravants qui empêchent l’accès aux langues signées et au langage non verbal. [Cataix-Nègre, 2017]

Plusieurs méthodes de Communication Alternative et Améliorée (CAA) existent et permettent à ces personnes de communiquer, et beaucoup ont recours à un encodage multimodal de l’information avec des pictogrammes. Ces pictogrammes permettent une représentation plus iconique de l’information et réduisent donc le coût cognitif d’encodage et de décodage. [Duboisdindien, 2014]. Néanmoins, la manipulation des classeurs et tableaux de pictogrammes utilisés par l’entourage des utilisateurs de CAA pour transmettre un message n’est pas aisée (matériel peu maniable, navigation chronophage…) et entraîne une perte de spontanéité. Or l’acquisition et l’utilisation de ces méthodes de communication nécessitent un bain langagier en contexte pour les apprenants. La production de messages « sur le vif » représente un réel enjeu pour une compréhension optimale. [Beukelman & Mirenda, 2017]

Un outil de génération de pictogrammes à partir de la parole permettra de faciliter l’encodage en interaction quotidienne, mais également un gain de sociabilité, d’autonomie ainsi que de confort cognitif et communicationnel pour les utilisateurs de CAA.

La méthodologie de création de cet outil s’axe autour du développement de quatre modules. Le premier est un module de reconnaissance automatique de la parole continue (à base de modèles de Markov cachés couplés à des réseaux de neurones profonds) [Elloumi & al, 2018] qui permet d’obtenir une transcription orthographique de l’énoncé produit. Le deuxième est un module de simplification automatique à base de règles qui permet, après un pré-traitement de la transcription (tokenisation, étiquetage morpho-syntaxique, lemmatisation), un paramétrage de la complexité du niveau de traduction voulue en fonction des capacités cognitives de l’utilisateur de CAA auquel on s’adresse. Il existe deux niveaux de traduction, un premier dans lequel seuls les mots pleins sont traduits, excluant les mots grammaticaux dont la représentation en pictogrammes peut être jugée trop symbolique pour nos utilisateurs, et un deuxième niveau dans lequel tous les mots sont traduits. Le module de simplification va également permettre d’implémenter des règles de simplification syntaxique inspirées du Facile À Lire et à Comprendre (FALC), un guide de règles pour rendre accessibles les supports d’information au plus large public possible (transformer les structures passives à la voie active pour éviter les confusions concernant l’agent par exemple). Après cette étape de simplification, un module de désambiguïsation lexicale [Vial & al, 2018] va annoter en sens la transcription pour éviter l’affichage d’un pictogramme non pertinent (exemple : afficher le pictogramme « souris » représentant une « souris d’ordinateur » comme traduction pour l’énoncé « Le chat a mangé la souris »). Enfin, un module d’affichage va concaténer tous les pictogrammes de la séquence pour afficher le message complet traduit.

Pour faciliter le bain multimodal nécessaire à l’apprentissage, le module de reconnaissance vocale développé doit être particulièrement performant sur la parole spontanée en situation d’interaction quotidienne. De par sa grande taille (800 enregistrements, près de 700h de parole, 758 enregistrements transcrits et validés), la multiplicité des situations d‘interaction explorées (interaction quotidienne comme dans le module « Repas » ou le module « Boulangerie », interaction plus guidée avec les entretiens...) et la diversité des modalités de recueil de données, ESLO est une ressource particulièrement pertinente pour ré-entraîner nos modèles acoustiques. Cela permettra d’améliorer les performances de notre outil, de par l’enrichissement considérable de nos corpus d’entraînement, via l’ajout de faits de langues propres à l’oral spontané et non répertoriés dans les corpus plus normalisés utilisés auparavant (parole médiatique). L’utilisation d’ESLO ajoutera ainsi de la variabilité dans les modèles acoustiques et les modèles de langues utilisés jusqu’ici.

De plus, notre étude comportant une analyse de corpus d’une cinquantaine de textes écrits traduits en pictogrammes, composé en majorité d’histoires pour enfants, il nous est apparu particulièrement pertinent de travailler avec le module « Livres pour enfants » de ESLO2 qui regroupe des moments de lecture et d’échange entre des adultes et un ou plusieurs enfants pour s’appuyer sur des données orales similaires. Cela nous permettra de ré-évaluer les performances de notre outil.

Références bibliographiques

Baude, O. & Dugua, C. (2011). « (Re)faire le corpus d’Orléans quarante ans après : quoi de neuf, linguiste ? ». Corpus, Varia, 10 | 2011, 99-118.

Beukelman D. R. & Mirenda P. (2017). Communication alternative et améliorée, Aider les enfants et les adultes avec des difficultés de communication. De Boeck Supérieur, collection Apprendre et Réapprendre.

Cataix-Nègre E. (2017). Communiquer autrement, Accompagner les personnes avec des troubles de la parole ou du langage, 2ème édition, De Boeck Supérieur, collection Pratiques en rééducation.

Duboisdindien G. (2014). L'interprétation des pictogrammes. Statut linguistique et limites de l’utilisation des pictogrammes dans la réhabilitation langagière. - Étude de deux groupes d’enfants âgés de 5 à 6 ans – entraînés Versus non entraînés, mémoire de recherche de Master de Linguistique Générale et Appliquée Spécialité Fonctionnements Linguistiques et Dysfonctionnements langagiers, sous la direction de Bogliotti, C., Université Paris-Ouest Nanterre La Défense.

Dufour R. (2010). Transcription automatique de la parole spontanée. Thèse de doctorat en informatique sous la direction de Deléglise, P., Soutenue à l’UFR de sciences exactes et naturelles du Mans.

Elloumi Z., Besacier L., Galibert O., Kahn J. & Lecouteux B. (2018). ASR Performance Prediction on Unseen Broadcast Programs using Convolutional neural networks. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, Alberta, Canada, 5894-5898.

Eshkol-Taravella I., Baude O., Maurel D., Hriba L., Dugua C. & Tellier I. (2012). « Un grand corpus oral « disponible » : le corpus d’Orléans 1968-2012 ». In : Ressources linguistiques libres, TAL. Volume 52 – n° 3/2011, 17-46.

Montoya D. & Bodart S. (2009). Le programme Makaton auprès d'un enfant porteur d'autisme : le cas de Julien. Développements, 2009/3 (n° 3), 15-26. DOI : 10.3917/devel.003.0015. URL : https://www.cairn.info/revue-developpements-2009-3-page-15.htm

Perrioux-Perdreaux M. & Schmitt A. (2014). Communication alternative et augmentative auprès d'adultes déficients intellectuels : aménagements de l’environnement et outils de communication adaptés. Mémoire présenté pour l’obtention du Certificat de capacité d’orthophoniste, Université de Lorraine, Faculté de Médecine, Département d’orthophonie.

Povey D., Ghoshal A., Boulianne G., Burget L., Glembek O., Goel N., Hannemann M., Motlicek P., Qian Y., Schwarz P., Silovsky J., Stemmer G. & Vesely K., (2011). The Kaldi speech recognition toolkit. IEEE 2011 Workshop on Automatic Speech Recognition and Understanding, Hilton Waikoloa Village, Big Island, Hawaii, USA. Povey_Idiap-RR-04-2012

Vial L., Lecouteux B. & Schwab D. (2018). Approche supervisée à base de cellules LSTM bidirectionnelles pour la désambiguïsation lexicale. Actes de la conférence TALN 2018, Rennes, France, Volume 1, 157-170.

 

Session
Observer la variation - Usages

 

La transcription, entre donnée primaire et donnée secondaire. L’empreinte du transcripteur en question

Linda Hriba1, Layal Kanaan-Caillol1, Olivier Baude2, Céline Dugua
1LLL, UMR 7270, Université d’Orléans ; 2MoDyCo, UMR 7114, Université de Paris Nanterre

Quarante ans après les travaux de Ochs (1979) qui précisait que toute transcription est empreinte de théorie, celle-ci reste une façon de mettre en perspective les conditions de production des données offertes à l’analyse linguistique.

La difficulté majeure réside dans la représentation graphique, cette forme de codage qui ne peut se ramener à la notation conventionnelle de la langue écrite. A cette difficulté s’ajoute une deuxième quand il s’agit d’un grand corpus oral, impliquant une masse de données volumineuse. Enfin, l’enjeu de l’interopérabilité des données apporte une troisième difficulté : la transcription produit-elle des données secondaires résultant d’une forme d’analyse ou doit-elle être considérée comme une donnée primaire, source de l’étude ?

Ces pratiques de transcription, contraintes par des choix théoriques, des normes sociales et des formats technologiques mais relevant aussi de pratiques individuelles offrent par-delà l'observation de celles-ci, une définition de l'objet scientifique "langue" appréhendé par les habitus linguistiques.

Dans le projet ESLO, pour tout enregistrement, trois versions de transcriptions sont effectuées par trois transcripteurs différents et toutes sont rendues disponibles. Les procédures ont évolué au fil des années pour aboutir à une répartition des tâches claire qui priorise, selon les versions, la segmentation, l’orthographe, l’application des conventions, la transcription des passages marqués comme “inintelligibles” ou l’anonymisation. Avec une telle procédure, le temps moyen de travail estimé pour effectuer la transcription d’un enregistrement dans ses trois versions est de 20 heures.

 La transcription constitue donc une phase essentielle de la chaîne de traitement du corpus et ce, sur plusieurs plans :

  • celui du temps de travail du transcripteur (11.000 heures de travail dédiées aux  transcriptions d’ESLO1 et ESLO2),
  • celui du temps consacré à la formation des transcripteurs et au suivi de leur travail (questions/réponses par mail, échanges de fichiers, vérifications du travail rendu),
  • celui de l’enjeu de fournir une version validée la plus aboutie possible par rapport aux conventions et objectifs donnés, et de rendre disponibles les trois versions.

 Le transcripteur tient ainsi une place centrale dans le projet. Il est celui qui se retrouve entre l’enregistrement et le chercheur et c’est justement cet auditeur particulier qui nous intéresse. Nous souhaitons mettre en évidence dans quelle mesure les transcriptions et tout particulièrement les variations observées dans ces dernières sont influencées par les caractéristiques sociales des transcripteurs ainsi que par leur rapport à l’écrit et à la norme.

Dans ce but, nous avons mis en place un module dédié aux transcripteurs qui prend la forme d’entretiens semi-directifs autour de ces questions. Pour l’heure, sept entretiens ont été réalisés et sont en cours d’analyse. Il s’agit d’abord d’établir une échelle qui prend en compte les différents paramètres questionnés afin de proposer, pour chacun, une catégorisation de ses pratiques et représentations. L’objectif à terme étant de mettre en parallèle ces informations avec les variations de transcriptions observées.

Ainsi l’étude des conditions de production des transcriptions permet une approche inattendue de la variation linguistique et ouvre des perspectives pour des analyses linguistiques qui ne refoulent pas la valeur sociale de la langue.

Références bibliographiques

Barras C., Adda, G., Adda-Decker, M., Habert, B., Boula de Mareüil, P., Paroubek, P. (2004). Automatic audio and manual transcripts alignments, time-code transfer and selection of exact transcripts. Actes de la Fourth International Conference on Language Resources and Evaluation (LREC), Lisboa, May 2004, vol. 3, pp. 877-880.

Baude, O., Dugua C. (2011). (Re)faire le corpus d'Orléans quarante ans après : quoi de neuf, linguiste ? Corpus, 10 Varia, 99-118.

Baude, O. (2006). Corpus oraux, Guide des bonnes pratiques. Paris, CNRS Editions.

Bilger, M. (ed) (2008). Données orales, les enjeux de la transcription. Les cahiers de l’Université de Perpignan.

Blanche-Benveniste, C., Jeanjean, C. (1987). Le français parlé. Transcription et édition. Paris, Inalf, Didier érudition.

Cappeau P., Gadet F. (2013). Quand l’œil écoute : que donnent à lire les transcriptions d’oral ? Communication orale au CILPR, Nancy.

Cappeau, P., Gadet, F., Guerin, E., Paternostro, R. (2011). Les incidences de quelques aspects de la transcription outillée. Linx [En ligne], 64-65, 85-100. Mis en ligne le 01 juillet 2014, consulté le 17 janvier 2017. URL : http://linx.revues.org/1403 ; DOI : 10.4000/linx.1403

Cappeau, P., Gadet, F., (2010). Transcrire, ponctuer, découper l’oral : bien plus que de simples choix techniques. Cahiers de linguistique, 35/1, 187-202.

Corpus eslo : http://eslo.huma-num.fr/

Delais-Roussarie, E., Yoon, H.-Y. (2011). Transcrire la prosodie : un préalable à l’échange et à l’analyse des données. Journal of French Language Studies, 21, 13-37.

Encrevé, P. (1977). Présentation : linguistique et sociolinguistique. Langue Française, 34, 3-16.

Falbo, C. (2005). La transcription : une tâche paradoxale. The Interpreters’ Newsletter, 13. 25-38.

Habert, B. (2005). Portrait de linguiste(s) à l’instrument. Texto! [en ligne], vol. X, n°4.

Koch, P., Oesterreicher, W. (2001). Langage oral et langage écrit. Lexicon der romanistischen Linguistik, 1-2. Tübingen : Max Niemeyer Verlag, 584-627.

Mondada, L. (2000). Les effets théoriques des pratiques de transcription, LINX, 42, 131-146.

Ochs, E. (1979). Transcription as theory, in Ochs, E. & Schieffelin, B. (ed.) Developmental Pragmatics, New-York : Academic Press, 43-72.

 

Etude acoustique de l’hypoarticulation dans l’alternance stylistique : l’importance des caractéristiques sociales des interactants

Mélanie Lancien
Section SLI, Faculté des Lettres de l’Université de Lausanne, 1015 Lausanne, Suisse

Les recherches en linguistique ont révélé l’existence de motifs de variation linguistique intra-locuteur, liés en partie aux caractéristiques sociales de la situation d’interaction. Comme l’ont montré Passy (1917) avec les registres de langue du français, Léon (1993) avec la voix charmeuse de Brigitte Bardot, et Labov (1972, 2006) avec le « lower middle class crossover effect », les individus instrumentalisent la variation linguistique, notamment phonétique, de façon à atteindre une forme de distinction sociale. Cette alternance stylistique est guidée par différents aspects de la situation de communication, tels que l’identité de l’interlocuteur et la nature de la relation entre individus (Labov, 1972 ; Eskénazi, 1993). Dans la suite de Lindblom (1963,1990), Harmegnies et Poch-Olivé (1992,1994), et Scarborough et al. (2007, 2013) ont, montré que la présence physique, la langue maternelle, ou les difficultés d’audition de l’interlocuteur (entre autres) influencent la qualité acoustique des voyelles et leur degré d’hypoarticulation. Dans une optique socio-phonétique, nous proposons d’examiner finement le lien entre la relation sociale entre les locuteurs et le degré d’hypoarticulation (Lindblom, 1990).

Notre corpus de travail, issu du corpus PFC-Canada (Côté, 2014) (lui-même issu du projet PFC (Durand et al., 2012)) comprend pour le moment 10 locutrices du français laurentien, originaires de 5 régions du Québec (Montréal, La Pocatière, Grande-Rivière, Saint-Ephrem, et Hawkesbury), divisées en 3 groupes d’âges (20-39ans, 39-59ans, et 60+), qui ont participé à 3 tâches : la lecture de listes de mots, une discussion avec un inconnu, et une discussion avec un membre de leur famille. 13 locuteurs supplémentaires (6♀/7♂) sont actuellement en cours d’annotation.

Une transcription orthographique des enregistrements a été réalisée sous Praat, permettant ensuite l’utilisation d’un aligneur semi-automatique pour la segmentation en phone (adaptation du Penn Forced Aligner (Milne, 2014)). Suite à cet alignement, les moyennes de F1, F2, et durées de 9847 voyelles ont été extraites pour analyse grâce à un script Praat. Ces valeurs de formants nous ont permis de calculer la variation intra catégorie (=distance euclidienne d’un exemplaire vocalique par rapport au centre de sa catégorie), la dispersion du système (=distance euclidienne d’un exemplaire vocalique par rapport au centre du système vocalique) (Audibert et. al, 2011;2015), et la diffusion des voyelles (d=F2-F1).

L’analyse par modèle linéaire mixte montre d’ores et déjà une différence significative des durées des voyelles, de la variation intracatégorie, et de la diffusion des voyelles entre la discussion avec un membre de la famille et celle avec un inconnu (p<0.02). La discussion en famille comportant des voyelles plus courtes, une variation intracatégorie moins forte, et des voyelles plus compactes. Concernant l’âge, de premières statistiques montrent une scission claire principalement entre le groupe des 20-39ans, et celui de 60+ (p<0.01): les jeunes locutrices produisent des voyelles plus courtes, plus proches du centre du système vocalique, plus dispersées au sein de leur catégorie, et plus compactes. L’origine géographique n’aurait, elle, aucun impact significatif sur le degré d’hypoarticulation, sûrement dû au peu de locuteurs analysés par région à ce stade de la recherche. On constate donc un moindre effort articulatoire chez les plus jeunes locutrices, ainsi qu’un impact de l’identité de l’interlocuteur sur cet effort.

Références bibliographiques

Audibert, N., Fougeron, C., Gendrot, C. & Adda-Decker, M. (2015). Duration- vs. style-dependent vowel variation : a multiparametric investigation. In 18th International Congress of Phonetic Sciences, ICPhS'15, 5-10.

Côté, M-H. (2014). Le projet PFC et la géophonologie du français laurentien. In J. Durand, G. Kristoffersen & B. Laks, avec la collaboration de J. Peuvergne (éds), La phonologie du français : normes, périphéries, modélisation. Nanterre : Presses Universitaires de Paris Ouest, 175-198.

Durand, J., Laks, B.  & Lyche, C. (2002). La phonologie du français contemporain : usages, variétés et structure. In C. Pusch & W. Raible (éds), Romanistische Korpuslinguistik – Korpora und gesprochene Sprache / Romance corpus linguistics – Corpora and spoken language. Tübingen : Gunter Narr, 93-106.

Eskenazi, M. (1993). Trends in speaking styles research. In Proceedings of Eurospeech-93, 501-509.

Fougeron, C., & Audibert, N. (2011). Testing various metrics for the description of vowel distortion in dysarthria. In Actes de ICPhS 2011, 687-690.

Harmegnies, B. & Poch-Olivé, D. (1992). A study of style-induced vowel variability : laboratory versus spontaneous speech in Spanish. Speech Communication11(4-5), 429-437.

Harmegnies, B. & Poch-Olivé, D. (1994). Formants frequencies variability in French vowels under the effect of various speaking styles. Journal de Physique IV 4.C5 (1994), C5-509-512.

Labov, W. (1972). Sociolinguistic patterns. Philadelphie : University of Pennsylvania Press.

Labov, W. (2006). The social stratification of English in New York city. Cambridge University Press.

Léon, P (1993). Précis de phonostylistique. Paris : Armand Colin.

Lindblom, B. (1963). Spectrographic study of vowel reduction. Journal of the Acoustical society of America, 35(11), 1773-1781.

Lindblom, B. (1990). Explaining phonetic variation : a sketch of the H&H theory. In W. J. Hardcastle & A. Marchal (éds), Speech production and speech modelling. Dordrecht : Springer, 403-439.

Milne, P. (2014). The variable pronunciations of word-final consonant clusters in a force aligned corpus of spoken French. Thèse de doctorat, Université d’Ottawa.

Nguyen, N. & Adda-Decker, M. (2013). Méthodes et outils pour l'analyse phonétique des grands corpus oraux. Paris : Hermes Science Publications.

Passy, P. (1917). Les sons du français. Paris : Firmin Didot.

Scarborough, R., Dmitrieva, O., Hall-Lew, L., Zhao, Y., & Brenier, J. (2007). An acoustic study of real and imagined foreigner-directed speech. Journal of the Acoustical Society of America, 121(5), 3044.

Scarborough, R. & Zellou, G. (2013). Clarity in communication : “clear” speech authenticity and lexical neighborhood density effects in speech production and perception. Journal of the Acoustical Society of America, 134(5), 3793-3807.

Scarborough, R. (2013). Neighborhood-conditioned patterns in phonetic detail : relating coarticulation and hyperarticulation. Journal of Phonetics, 41(6), 491-508.

 

Variation des signes à deux mains selon les registres de la Langue des Signes de Belgique francophone (LSFB)

Aurore Paligot
Université de Namur, LSFB Lab

De nombreux changements ont affecté l’évolution de la langue des signes de Belgique francophone (LSFB) suite à la diversification de ses usages dans la société, ce qui rend propice le développement de variétés stylistiques et l’apparition de distinctions liées au caractère formel ou informel des échanges (Meurant et al. 2013). Dans ce contexte, notre travail se focalise sur la variation selon les registres de langue, l’un des enjeux étant de voir si ces registres émergents dans l’espace discursif se distinguent également du point de vue de leurs caractéristiques formelles. Dans les langues vocales, l’étude des réductions phonétiques constitue, depuis les travaux de Labov en sociolinguistique (1966), un lieu stratégique de la description des registres de langue. L’importance des registres a également été mise en avant dans les travaux privilégiant une analyse phonétique des réductions (ex. Warner 2011, Hanique et al. 2013 et Ernestus et al. 2015). Plusieurs cas de réductions spécifiques aux langues signées ont été décrits mais la question des registres de langue n’y occupe pas une place centrale (ex. Lucas et al. 2001).

Nous nous intéressons à un phénomène de réduction phonétique observé dans plusieurs langues signées : la suppression de la main dominée dans les signes à deux mains ou weak drop (ex. Battison 1974, van der Kooij 2001, McCaskill et al. 2011, Paligot et al. 2016). Le choix de cette variable nous intéresse pour plusieurs raisons : (1) souvent présentée par les chercheurs comme étant propre aux registres informels, cette hypothèse n’a cependant jamais été testée sur la base d’un corpus conséquent ; (2) les variantes à une et deux mains des signes à deux mains peuvent être repérées à l’aide d’un traitement semi-automatisé des fichiers d’annotation, ce qui permet l’analyse d’un grand nombre de données.

Nous présentons une analyse de la répartition des variables à une et deux mains des signes à deux mains à travers l’ensemble des vidéos du Corpus LSFB annotées à ce jour, soit plus de 12 heures d’enregistrement (Meurant 2015). Nous présenterons l’influence du degré de spontanéité (spontané ou planifié), du genre discursif (narratif, descriptif, argumentatif, explicatif, conversationnel) et du degré d’interactivité (interactif ou semi-interactif) sur la réalisation de la variable. Une régression logistique à effets mixtes indique que les facteurs « spontanéité » (p<.001) et « genre discursif » (p<.001) ont tous deux une influence significative sur la réalisation des formes réduites. Celles-ci sont plus fréquentes dans les discours spontanés que dans les discours planifiés, un résultat que nous interprétons relativement au degré d’attention porté à la langue. Nous observons également que les narrations et les conversations sont les genres discursifs qui se distinguent le plus au regard de l’usage des variantes à une et deux mains. Les narrations, qui constituent une forme discursive assez codifiée dans les langues signées, présentent moins de variables réduites que les conversations, plus proches de la langue parlée au quotidien.

Références bibliographiques

Battison, R. (1974). Phonological Deletion in American Sign Language. Sign Language Studies, 5, 1-19.

Ernestus, M., Hanique, I & Verboom, E. (2015). The effect of speech situation on the occurrence of reduced word pronunciation variants. Journal of Phonetics, 48, 60-75.

Hanique, I., Ernestus, M. & Schuppler, B. (2013). Informal speech processes can be categorical in nature, even if they affect many different words. Journal of the Acoustical Society of America, 133, 1644-1655.

Kooij, E. van der (2001). Weak Drop in Sign Language of the Netherlands, in Dively, V., Metzger, M., Taub, S. & Baer, A. (éd.). Signed Languages. Discoveries from Intrnational Research, Washington, D.C., Gallaudet University Press : 27-42.

Labov W. (1966). The social stratification of English in New York City. Washington : Center for applied Linguistics.

Lucas, C., Bayley, R. & Valli, C. (2001). Sociolinguistic variation in American Sign Language. Washington D.C. : Gallaudet University Press.

McCaskill, C., Lucas, C., Bayley, R. & Hill, J. (2011). The Hidden Treasure of Black ASL: Its History and Structure. Washington D.C. : Gallaudet University Press.

Meurant, L., Sinte, A., van Herreweghe, M. & Vermeerbergen, M. (2013). Sign language research, uses and practices. Berlin : De Gruyter Mouton & Ishara Press.

Meurant, L. (2015). Corpus LSFB. Un corpus informatisé en libre accès de vidéos et d'annotations de la langue des signes de Belgique francophone (LSFB). Laboratoire de Langue des signes de Belgique francophone (LSFB-Lab), FRS-F.N.R.S et Université de Namur.

Paligot, A., van der Kooij, E., Crasborn, O. & Bank, R. (2016). Weak Drop in Context. Présentation donnée au TISLR 12, Melbourne, 4 janvier.

Paligot, A. (à venir). Vers une description des registres de la langue des signes de Belgique francophone (LSFB). Aspects phonologiques et variations phonétiques. Thèse de doctorat. Université de Namur.

Warner, N. (2011). Reduction, in van Oostendorp, M., Ewen, C. J., Hume, E. & Rice, K. (éd.) The Blackwell Companion to Phonology, vol.3, Malden, MA et Oxford, Wiley-Blackwell : 1866-1891.

 

Session
Observer la variation - Identité

 

Language-specific and individual differences in the interviews about language and national identity (Corpus of spoken Italian at the University of Oslo)

Elizaveta Khachaturyan
University of Oslo (Norway)

The aim of this paper is twofold. First, I will introduce a corpus of Spoken Italian (SILaNa - Spoken Italian: Interviews about Language and Nation) under construction at the University of Oslo (accessible version will be ready in autumn 2018). Secondly, I will discuss how this type of corpus can be used for the analysis of different linguistic domains, in particular I will compare the use of discourse markers (DMs) in the answers of different informants and the DMs’ role in structuring the conversation.

The corpus of Spoken Italian at the University of Oslo (UiO) contains the interviews collected with two groups of informants: 1) 20 Italian native speakers (L1) living in Norway (ca. 124.000 words); 2) ten informants (ca. 45.000 words) having lived in Italy for more than ten years and considered “almost native speakers” (L2) of Italian (cfr. F.Pauletto & C.Bardel 2015 about the term quasi nativo “almost native”). Among these ten informants: seven are native speakers of another Romance language, two speak Slavic languages and one – Chinese.

The starting point for the construction of the corpus was the idea that, on the one hand, each language gives us different possibilities to speak about the world (in particular, as it is shown by various tests, cfr. contrastive studies on the event conceptualization in present, i.e. Bylund 2011), but on the other hand, there are also individual differences between the native-speakers of the same language. Within the construction of the corpus we tried to take into account both types of differences and for this reason we created a very similar situation of communication for our informants: the corpus contains not only the same type of communication (semi-conducted interviews), but also the discussion of the same topic (all the interviews are dedicated to the problems of integration in a new society and to the role of language in this process (for more details about the interviews, see Khachaturyan & Camilotti 2017)). To make the conditions of the communication even more comparable the interviewer (as far as the role of the interlocutor is important, i.e., Katriel 1985) and the questions asked to the informants were always the same. As we will see in the second part of the presentation, these common features allow us to compare differences between native and non-native speakers in the way they organize their discourse, as well as individual differences between L1 speakers when talking about the same topic.

To illustrate this, in the second part, I will discuss the use of some DMs when answering questions and structuring the conversation. It is interesting to observe that in the discourse of native speakers, different DMs can be more or less frequent depending on the whole communicative strategy used by the speaker, while in the L2 discourse they are often considered as a sign of learner’s proficiency (Hasselgren 2002). I will analyze in more details the use of the DMs diciamo and insomma. Diciamo is one of the most frequent DMs for L1 and L2, insomma is rarer and its use is often based on individual preferences.

Références bibliographiques

Bylund, E. 2011, Language-specific Patterns in Event Conceptualization: Insights from Bilingualism. In Pavlenko, A. (ed.) Thinking and Speaking in Two Languages. Bristol: Multilingual Matters, pp.108-142.

Hasselgren A., 2002. Learner corpora and language testing: smallwords as markers of learners frequency. In Pons Bordería, S. (ed.): Models of Discourse Segmentation. Explorations across Romance Languages. Amsterdam : John Benjamins. Pragmatics and Beyond New Series, pp.185-218

Katriel T. 1985. Speech in context: Moving towards an integrative perspective. In Informatologia Yugoslavica 17, pp.171-176.

Khachaturyan E. & Camilotti S. 2017. The Place of Language in (Re)constructing Identity: The Case of “Fortunate Immigrants” to/from Italy. In Khachaturyan E. & Grassi S. (eds.) Romance studies (special issue), 35(1), pp.31- 47.

Pauletto F. & Bardel C. 2015 Direi che: strategie di mitigazione nell’interazione di un’apprendente «quasi nativa». In Borreguero Zuloaga M. & Gómez-Jordana Ferary S. (eds.), Marqueurs du discours dans les langues romanes: une approche contrastive. Limoges: Lambert Lucas, pp.425-437.

 

Le corpus MPF : un observatoire de communautés de pratique

Anaïs Moreno-Kerdreux
Université Paris Nanterre & Laboratoire MoDyCo

Le terme peu satisfaisant de « langue des jeunes » réfère à des phénomènes linguistiques qui, pour la plupart, ne sont ni des spécificités, ni des nouveautés mais qui s’inscrivent davantage dans une certaine continuité « des variétés ordinaires et familières de la langue quotidienne » (Conein & Gadet, 1998). En tant que dénomination générationnelle et sociodémographique, ce terme amène à penser que les pratiques qui y sont associées seraient abandonnées à l’âge adulte et à généraliser des emplois de formes qui ne s’appliquent pas à tous les jeunes. Il tend également à essentialiser une catégorie de locuteurs dans une seule pratique langagière. Rampton (2011) lui préfère la notion de contemporary urban vernacular qui ne se focalise pas sur l’âge des locuteurs et qui réfère à un ensemble de formes et de pratiques linguistiques émergeant dans des « quartiers urbains ethniquement mixtes ». Depuis au moins Bourdieu (1978), on sait que l’âge n’est pas qu’une simple donnée biologique, et qu’il apparaît comme un mode de catégorisation restrictif qui ne tient pas compte des variations de statuts sociaux des individus (Eckert, 1997).

En nous appuyant sur le corpus MPF, recueilli en région parisienne depuis 2010 (Gadet, 2017), nous remettrons en cause la notion de « langue des jeunes » à travers l’étude de plusieurs marqueurs : wesh, zaama, bluff, genre, crari, considérés comme « typiques » des « parlers jeunes ». Ils seraient ainsi de bons candidats pour établir des corrélations avec des catégories de locuteurs définies : jeunes et/ou habitants des grands ensembles de banlieue.

Nous montrerons que des considérations reposant uniquement sur l’âge ou le lieu de résidence ne semblent pas suffisantes pour saisir l’emploi de ces formes. Nous postulons plutôt que le répertoire linguistique des locuteurs est activé différemment en fonction des situations de communication et des interlocuteurs en présence. Autrement dit, les formes évoquées seraient davantage déployées dans la proximité (Koch & Oesterreicher, 2001). Le corpus MPF permet cette analyse en tirant parti de trois types de situation de communication : des entretiens dits traditionnels, des entretiens de proximité et des données écologiques. Nous comparerons ainsi l’emploi de nos formes dans ces différents cadres communicationnels.

En laissant de côté l’illusion du sociodémographique et en accordant une place centrale à la situation de communication (incluant la relation entre interactants), nous creuserons l’intérêt du recours à une autre notion, celle de communauté de pratique (Eckert & McConnell-Ginet, 1998, Wenger, 2000). Elle présente l’avantage de ne pas se limiter à des catégories prédéfinies (de façon autre que langagière) de locuteurs et de faire une part belle à la proximité entre locuteurs en s’appuyant sur les savoirs et les implicites partagés par les interactants qui évoluent en réseaux serrés. Au sein des communautés, des pratiques langagières singulières, ou, au contraire plus communes, se développent selon les locuteurs auxquels on a affaire. Si nous employons cette notion pour l’étude de certains marqueurs, elle n’est pas sans intérêt pour aborder d’autres phénomènes linguistiques, notamment l’usage du verlan.

Références bibliographiques

Bourdieu P. (1978). La jeunesse n’est qu’un mot. Entretien avec A.- M. Métailié, in Les jeunes et le 1er emploi, Paris, Association des Ages, 1978, 520-530 (réédité dans Bourdieu P., Questions de sociologie, Edition de Minuit, 1980, 143-154).

Conein B. & Gadet F. (1998). Le “français populaire” des jeunes de la banlieue parisienne entre permanence et innovation, in Androutsopoulos J. & Scholz A. (eds), Jugendsprache / Langue des jeunes / Youth language, Frankfurt, Peter Lang, 105-123.

Eckert P. (1997). Age as a Sociolinguistic Variable, in Coulmas F. (ed), The Handbook of Sociolinguistics, Oxford, Wiley, 151-167.

Eckert P. & Mc Connell-Ginet S. (1998). Communities of practice : where language, gender and power all live?, in Coates J. (ed), Language and Gender : A Reader, Oxford, Blackwell, 484-494.

Gadet F. (dir, 2017). Les parlers jeunes dans l’Ile-de-France multiculturelle, Paris/Gap, Ophrys.

Koch P. & Oesterreicher W. (2001). Langage oral et langage écrit, Lexicon der Romanistischen Linguistik, 1-2. Tübingen, Max Niemeyer Verlag, 584-627.

Rampton B. (2011). From ‘multi-ethnic adolescent heteroglossia’ to ‘Contemporary urban vernaculars, Language & Communication 31, 276- 294.

Wenger E. (2000). Communities of practice. Learning, Meaning and Identity, Cambridge, Cambridge University Press.

 

Session
Observer la variation - Système

 

Cartographie des constructions en si dans un corpus de français parlé

Gilles Corminboeuf & Timon Jahn
Université de Fribourg & Université de Bâle

Objet. Dans notre communication, nous présenterons les premiers résultats d’une recherche sur les constructions conditionnelles en si dans un corpus de français parlé.

Corpus et méthode. Nous avons extrait, analysé et classé 1000 occurrences de constructions en si issues de l’archive Ofrom (www.unine.ch/ofrom). En voici un échantillon pour illustration :

(1)   ce soir si je vais à Aigle + ben je vais pas demander la voiture à ma mère    [‘+’ note une pause]
(2)   il serait capable de tout faire si il s’investissait un peu plus
(3)   si tu as choisi d’être là c’est que c’est- tu es là pour étudier
(4)   par exemple si je regarde avec mon frère + lui il avait une phase + où il parlait seulement français
(5)   là le contremaître aussi + m’a dit ouais mais si on faisait + une tranchée pis ça fait comme un:: un un puits perdu si tu veux bien

Nous établirons une taxinomie syntaxique et sémantique des constructions en si, en réservant une place aux occurrences qui présentent un statut syntaxique ambivalent ou une ambiguïté sémantique. Dans la présentation des résultats, nous rendrons compte de cette dimension sous-déterminée.

Résultats. Les résultats attendus sont les suivants :

  • Une classification syntaxique en trois catégories (elles-mêmes sous-structurées) – classification qui s’inscrit dans le cadre de modélisation macro-syntaxique (Groupe de Fribourg 2012) :
    1. les si-constructions micro-syntaxiques (ex. 1-3) ; nous distinguerons au plan sémantique les lectures contingente (1), temporelle-hypothétique, contrefactuelle (2) et factuelle (3) ;
    2. les si-constructions macro-syntaxiques (de Cornulier 1985b, Corminboeuf 2010) : ex. (4), et si tu veux bien dans (5) ;
    3. les si-constructions indépendantes, i.e. sans le terme Q : si on faisait une tranchée dans (5) (Patard 2014).
  • Un aperçu quantitatif. A la lumière des tendances quantitatives observées, la recherche permettra de dégager des prototypes, mais également de ménager à la fois une place aux faits de marge, significatifs quant à la consistance du système, et aux occurrences ambiguës.

Sans entrer dans le détail et en vrac, on peut noter par exemple que dans (1) c’est ben qui sépare les deux membres de la construction (et non alors, rarissime dans le corpus). Dans (2), au plan sémantique, la lecture est dite ‘contrefactuelle’, contrairement à (1) où elle est ‘contingente’ : entre les deux lectures, nous montrerons chiffres à l’appui quelle est la plus commune dans le corpus. Dans ce même exemple (2), on peut se demander quelle répercussion a sur l’analyse l’intégration prosodique de si il s’investissait un peu plus et quelle est la proportion de constructions de forme {Q, si P} en comparaison avec l’organisation {si P, Q}, réputée plus commune (ex. 1, et 3-5). Dans (3) à (5), le rapport de ‘condition’ – très peu évident – entre le contenu des deux membres ne manque pas de questionner le profil sémantique et la facture syntaxique de ces constructions.

  • Un éclairage sur la syntaxe et le sens de ces constructions. Des faits empiriques comme (1) à (5) conduisent à s’interroger sur la syntaxe (si introduit-il toujours une P « subordonnée » ? Y a-t-il des cas où on peut hésiter entre un si interrogatif vs circonstanciel ?) et sur le sens (y a-t-il toujours un rapport de « condition » ? Que conclure de la dite « concordance des temps » ?).

Plus globalement, notre recherche est une contribution à la connaissance de la langue parlée ordinaire. L’étude des propriétés du discours oral nous semble fondamentale à la fois pour la description du fonctionnement réel du français dans un contexte spontané, et pour mieux comprendre et ainsi mieux rendre compte de la diversité linguistique.

Références bibliographiques

Avanzi M., Béguelin M.-J. & Diémoz F. (2012-2017). Présentation du corpus OFROM – corpus oral de français de Suisse romande. Université de Neuchâtel, http://www.unine.ch/ofrom

Corminboeuf G. (2009). L’expression de l’hypothèse en français. Entre hypotaxe et parataxe. Bruxelles : De Boeck-Duculot.

Corminboeuf G. (2010). Une description des constructions introduites par un si dit ‘austinien’. Travaux de linguistique, 60, 127-144.

Corminboeuf G. (2014). La focalisation des conditionnelles. Discours, 14, publication électronique : http://discours.revues.org/8903

Corminboeuf G. (2018). Les constructions en si. In Berrendonner A. & al. Encyclopédie grammaticale du français. Publication électronique : http://encyclogram.fr/notx/020/020_Notice.php

Dancygier B. & Sweetser E. (2006). Mental Spaces in Grammar : Conditional constructions. Cambridge : CUP.

De Cornulier B. (1985a). Effets de sens. Paris : Minuit.

De Cornulier B. (1985b). Sur un si d’énonciation prétendument non conditionnel. Revue québecoise de linguistique, 15-1, 197-211.

Groupe de Fribourg (2012). Grammaire de la Période. Berne : Peter Lang.

Haiman J. (1978). Conditionals are topics. Languages, 54/3, 564-589.

Kronning H. (2014). La théorie modale de la polyphonie et les constructions prédictives en si. Langages, 193, 17-31

Monte M. (2009). Si marqueur d’altérité énonciative dans les si P extraprédicatives non conditionnelles. Langue française, 163, 99-119.

Patard A. (2014). Réflexions sur l’origine de l’insubordination. Le cas de trois insubordonnées hypothétiques du français. Langages, 196, 109-130.

 

Les dislocations à droite dans les interrogatives : corrélations entre formes syntaxiques et fonctions pragmatiques

Márton Gergely Horváth
Université Catholique Pázmány Péter (Budapest, Hongrie)

Dans notre communication, qui s’inscrit dans l’axe de la linguistique de l’oral, nous présenterons une analyse syntaxico-pragmatique basée sur un ensemble de corpus oraux publics (768 minutes d’enregistrement) du Projet Phonologie du Français Contemporain (PFC ; Durand et al. 2002, 2009). Notre analyse a pour objectif de montrer qu’il existe une corrélation entre les fonctions pragmatiques des constructions de dislocation à droite et celles des différents types de constructions interrogatives.

Les constructions de dislocation à droite (DD) de type (1), en tant que constructions topicalisantes, sont amplement décrites par la littérature linguistique d’un point de vue syntaxique (cf. notamment Blanche-Benveniste et al. 1990, Lambrecht 2001), d’un point de vue pragmatique (cf. Lambrecht 1981, 1987, Ziv 1994, Nølke 1997, 1998, Horlacher & Müller 2005, Morel 2007, Simonin & Leonarduzzi 2009, Detges & Waltereit 2014) ainsi que du point de vue de l’organisation séquentielle des interactions (cf. Fornel 1988, Apothéloz 1997).

(1) Ilsi sont fous, [ces Romains]i. (Lambrecht 1981 : 1)

Les fonctions pragmatico-discursives de ces constructions sont le plus souvent décrites par rapport à celles des constructions de dislocation à gauche (DG) : « while the order topic-comment signals announcement or establishment of a new topic relation between a referent and a predication, the order comment-topic signals continuation or maintenance of an already established relation » (Lambrecht 2001 : 1074). Toutefois, nous avons montré (Horváth 2016) que la dislocation à droite des SN ne correspond pas nécessairement au maintien ou à la continuation de la relation topicale. Nous avons laissé ouverte l’hypothèse selon laquelle l’établissement d’une nouvelle relation topicale est fortement lié aux constructions interrogatives.

Dans notre communication, nous montrerons que la divergence entre les constructions de DD et les constructions de DG réside effectivement dans la distinction selon le type de phrase et non pas dans la « nouveauté » des relations topicales, le taux des interrogatives étant significativement plus important dans le cas des SN lexicaux disloqués à droite que dans le cas des SN lexicaux disloqués à gauche. De surcroît, nous constaterons que les fonctions pragmatico-discursives de la DD et celles des interrogatives qui impliquent une construction de DD sont en corrélation. Notre analyse sera donc à la fois quantitative et qualitative, puisque nous établirons les liens entre les fonctions des différents types d’interrogatives et les fonctions de la DD dans le discours, et nous vérifierons si ces liens sont statistiquement significatifs.

Références bibliographiques

Apothéloz, D. (1997). Les dislocations à gauche et à droite dans la construction des schématisations, in. Miéville, D. & Berrendonner, A. (éds) Logique, discours et pensée : mélanges offerts à Jean-Blaise Grize, Bern, Peter Lang : 183–217.

Blanche-Benveniste, C. et al. (1990). Le français parlé : études grammaticales. Paris : CNRS.

Detges, U. & Waltereit, R. (2014). Moi je ne sais pas vs. Je ne sais pas moi : French disjoint pronouns in the Left vs. Right Periphery, in. Beeching, K. & Detges, U. (éds) Discourse functions at the left and right periphery. Crosslinguistic investigations of language use and language change, Leiden, Brill : 24–46.

Durand, J., Laks, B. & Lyche, Ch. (2002). La phonologie du français contemporain : usages, variétés et structure, in. Pusch, C. D. & Raible, W. (éds) Romanistische Korpuslinguistik – Korpora und gesprochene Sprache / Romance corpus linguistics – Corpora and spoken language, Tübingen, Narr : 93–106.

Durand, J., Laks, B. & Lyche, Ch. (2009). Le projet PFC : une source de données primaires structurées, in. Durand, J., Laks, B. & Lyche, Ch. (éds) Phonologie, variation et accents du français, Paris, Hermès : 19–61.

Fornel, M. de (1988). Constructions disloquées, mouvement thématique et organisation préférentielle dans la conversation. Langue française, 78, 101–123.

Horlacher, A.-S. & Müller, G. M. (2005). L’implication de la dislocation à droite dans l’organisation interactionnelle. Travaux neuchâtelois de linguistique, 41, 127–145.

Horváth, M. G. (2016). Analyse pragmatico-discursive des SN disloqués à droite du français parlé. Revue Romane, 51(2), 244–270.

Lambrecht, K. (1981). Topic, antitopic and verb agreement in non-standard French. Amsterdam : Benjamins.

Lambrecht, K. (1987). On the status of SVO sentences in French discourse, in. Tomlin, R. S. (éd.) Coherence and grounding in discourse, Amsterdam, Benjamins : 217–262.

Lambrecht, K. (2001). Dislocation, in. Haspelmath, M. et al. (éds) Language typology and language universals 2, Berlin, De Gruyter : 1050–1078.

Morel, M.-A. (2007). Le postrhème dans le dialogue oral en français. L’Information grammaticale, 113, 40–46.

Nølke, H. (1997). Anaphoricité et focalisation : Le cas du pronom personnel disjoint, in. De Mulder, W., Tasmowski-De Ryck, L. & Vetters, C. (éds) Relations anaphoriques et (in)cohérence, Amsterdam, Rodopi : 55–67.

Nølke, H. (1998). Il est beau, le lavabo, il est laid, le bidet. Pourquoi disloquer le sujet ? in. Forsgren, M., Jonasson, K. & Kronning, H. (éds) Prédication, assertion, information. Actes du colloque d’Uppsala en linguistique française, Uppsala, Uppsala University : 385–393.

Simonin, O. & Leonarduzzi, L. (2009). Dislocations à droite et extrapositions nominales : syntaxe et réalisation(s). Travaux linguistiques du Cerlico, 22, 129–149.

Ziv, Y. (1994). Left and right dislocations : discourse functions and anaphora. Journal of Pragmatics, 22, 629–645.

 

Je piétine sur l’axe syntagmatique : régularités des disfluences en français parlé

Anne Dister
Université Saint-Louis – Bruxelles

Les études sur la langue parlée ont permis de dégager des phénomènes propres à l’oral, qu’on regroupe souvent sous l’appellation générale de disfluences. On entend par là un certain nombre de traits caractéristiques de la production de la langue parlée, d’« achoppements » dans la linéarité de l’énoncé, qui se caractérisent par un piétinement en un point de l’axe syntagmatique (Blanche-Benveniste et al. 1990). Ces phénomènes sont inhérents aux productions orales, et plus fréquents dans l’oral non planifié (Oostdijk 2003). Sous ce terme de disfluences, on regroupe un certain nombre de marques qui, dans la littérature, prennent des appellations très variées : euh, pause pleine, ponctuants, répétitions de mots ou de groupes de mots, amorces de morphèmes, interruptions, répétition-hésitation, hésitation, reprise, recommencement, réitération, séquence réitérée, réduplication, ressassement, ré-énonciation, faux départs, auto-interruptions, allongements, marques d’hésitations, achoppements marques du travail de formulation, réparations, etc.

Les transcriptions de français parlé faites à des fins de recherche linguistique notent scrupuleusement ces phénomènes.

Depuis longtemps, on a tenté de montrer certaines régularités qui affectent les disfluences, notamment pour l’anglais (Blankenship et Kay 1964, Cook 1971, Shriberg 1994). L’équipe autour de Claire Blanche-Benveniste, le Groupe Aixois de Recherche en Syntaxe (Gars), s’était attachée elle aussi, depuis ses débuts, à mettre en évidence les régularités des modes de production de l’oral – y compris les disfluences –, et à les intégrer dans une description unifiée de la langue (Blanche-Benveniste 2003, Henry et Pallaud 2003, Pallaud et al. 2013).

Dans cette communication, nous analysons 4 types particuliers de disfluences : la pause pleine (euh), les amorces de morphèmes (un cha- un chapeau), les répétitions (mon mon mon mari) et les auto-corrections liées aux répétitions (du type le le la).  Le corpus analysé compte 430.000 mots issus de la banque de données textuelles orales Valibel (https://uclouvain.be/fr/instituts-recherche/ilc/valibel). Il correspond à 40 heures de parole et est constitué de 51 entretiens semi-directifs et de 9 conversations informelles.

A travers ces quatre classes de disfluences, nous mettrons en évidence les régularités que l’on peut observer, et verront comment celles-ci peuvent être mises ou non en lien avec les caractéristiques des locuteurs, et notamment l’aspect « professionnel » de la langue qui caractérise certains d’entre eux, nombre de nos entretiens ayant été faits auprès de journalistes, de politiques ou encore de linguistes et de grammairiens.

Références bibliographiques

Blanche-Benveniste, Cl. (2003). La naissance des syntagmes dans les hésitations et répétitions du parler, in Araoui, J.-L. (éd) Le sens et la mesure. Hommages à Benoît de Cornulier, Paris,  Honoré Champion : 40-55.

Blanche-Benveniste, Cl., Bilger, M., Rouget, Chr., van den Eynde, K. (1990). Le Français parlé. Études grammaticales. Paris : CNRS Éditions.

Blankenship, J., Kay, Chr. (1964). Hesitation phenomena in English Speech : a study in distribution. Word, 20, 360-372.

Cook, M. (1971). The Incidence of Filled Pauses in Relation to Part of Speech. Language and Speech 14, 135-150.

Henry, S., Pallaud, B. (2003). Word fragments and repeats in spontaneous spoken French, in Eklund, R. (éd.) Proceedings of DISS’03. Disfluency in Spontaneous Speech Workshop, (5-8 Septembre 2003, Göteborg University, Sweden), Gothenburg Papers in Theorical Linguistics 90, 77-80.

Shriberg, E. (1994). Preliminaries to a Theory of Speech Disfluencies. Université de Berkeley, Thèse non publiée.

Oostdijk, N. (2003). Normalization and disfluencies in spoken language data, in  Granger, A., Petch-Tyson, St. (éds) Extending the scope of corpus-based research. New applications, new challenges, Amsterdam / New York, Rodopi : 59-70.

Pallaud, B. , Rauzy, St., Blache, Ph.  (2013). Auto-interruptions et disfluences en français parlé dans quatre corpus du CID. Travaux interdisciplinaires sur la parole et le langage 29 : 2-19.

 

Connaître soi, soi-même : remarques sur les usages et les antécédents du pronom soi dans les ESLO

Badreddine HAMMA
Université d’Orléans, LLL, UMR 7270

Le recours à un corpus de français parlé renfermant un large éventail des usages du pronom soi a permis de dégager une certaine constance sémantique qui traverse ses différentes manifestations dans le discours, à la fois comme lexie libre, apparaissant principalement comme le régime d’une préposition et comme élément de composition dans la lexie soi-même. Notre but, ici, est d’affiner les gloses habituelles sur soi, qui, rappelons-le, tournent autour des notions de « réflexivité » et d’« indéfini » (voir, entre autres, le TLFi et le GRLF et Le Bon usage, 2008). L’examen des données ESLO a révélé l’existence de deux classes globales d’emplois, selon que les formes étudiées rentrent dans une relation de dépendance forte ou non avec l’énoncé-hôte ; ainsi, soi(-même) correspond globalement au deuxième terme d’un double marquage mettant en évidence une certaine relation de « coréférence » (1-5), avec un support pronominal ou lexical généralement « indéterminé » (on, chacun, tous, certains, etc. ; les Orléanais, un Orléanais, les socialistes, les habitants de la Source, les étudiants, etc.), sachant que le premier élément de ce double marquage peut parfois être absent en surface, en particulier, dans les constructions infinitives et impersonnelles (avec un pronom, dit « postiche », comme en (3)). Dans tous ces cas, la séquence « prép. + soi » semble sous-catégorisée par l’un des constituants du noyau énonciatif dans le cadre d’une rection interne (modifieur du N point de vue en (1), Ajout au SV a tout à portée de main en (2) et complément du verbe soit en (3) :

  1. chacun a son petit point de vue à soi \;
  2. Maintenant/ on a tout à portée de main chez soi \ ;
  3. Il suffit que ça soit sur soi que ça tombe\ 

La nature de la rection avec la lexie soi-même est, en revanche, beaucoup moins forte qu’avec soi, puisqu’elle apparaît surtout sous forme de greffe (ou en position de postfixe) et dont la fonction est d’insister sur l’exclusivité de la référence (4-5) :

  1. les les gens/ n'ont pas le temps/ de/ d'étudier soi-même\ non pas d'étudier/ mais enfin de lire des revues spécialisées\ ils n'ont pas le temps\ ou pas le courage\
  2. ce que l'on peut donner soi-même/ à sa ville| en faisant partie euh d’un mouvement|

Soi dans ses différentes manifestations semble ainsi se présenter nécessairement comme l’exclusion d’une tierce personne ou comme la négation d’un certain aspect extérieur, ce qui lui confère de facto un certain statut polémique et en fait un vrai marqueur polyphonique, qui ne se contente pas de décrire l’existant et qui s’étend à ce qui est passé sous silence ou exclu d’emblée (correspondant en l’occurrence à ce que l’on prend pour acquis dans l’expérience collective). Cette hypothèse est corroborée par les affinités distributionnelles globales de soi ; en effet, à l’exception de deux occurrences parmi les 135 emplois libres relevés, tous les emplois de ce pronom semblent rentrer dans une construction, dite « médiate », selon l’expression guillaumienne, s’employant presqu’exclusivement comme le régime d’une préposition (notamment avec chez, en, de, sur, à et pour), donc, occupant une position « disjointe/forte », appelant un certain contraste avec un élément du co(n)texte et qui se traduit, ici, par une certaine « restriction/ délimitation » ; cet aspect singularisant est assuré par le composant adverbial même dans la lexie soi-même.

Références bibliographiques

ESLO : Enquêtes SocioLinguistiques à Orléans. en libre accès sur l’adresse suivante : http://eslo.huma-num.fr/.

Grevisse, M. & Goose, A. (2008). Le bon usage. De Boeck & Larcier s.a.

Trésor de la langue française informatisé (http://atilf.atilf.fr/) et Le Grand Robert de Langue Française.

 

L’emploi de après en tant que connecteur - évolution et variation-

Hisae Akihiro
Tokyo University of Foreign Studies

Après est un mot polysémique et multi-catégoriel.  Le caractère polysémique de après a été remarqué il y a déjà longtemps. Fagard (2003) constate que le mot après, qui avait originairement une valeur spatiale signifiant « tout près de », a élargi au fur et à mesure ses emplois à d’autres valeurs.  La variété des emplois de après s’observe également en français contemporain. Tout en exprimant des valeurs différentes, il peut être employé comme préposition, adverbe, nom, interjectif et connecteur.

Notre présentation portera particulièrement sur l’emploi de après en tant que connecteur. En voici deux exemples.

  1. (En parlant d’un dessin animé japonais qui s’appelle Porco Rosso)

DMC168 - c(e n’)est pas la réalité mais en tout cas c’est l(e) message qu’il essaie de faire passer dans ses trucs ben si tu regardes même pour Porco Rosso
MA169 -  ooooh [en aspirant] j(e) l’aime trop c(e)lui-là
DMC169 - ben, Porco Rosso c’est mon petit c’est mon premier
MA170 - moi aussi
DMC170 - quand j’étais petite mes parents i(ls) m(e) le mettaient
MA171 - moi aussi
DMC171 - après j’ai des amis qu(i) accrochent moins Porco Rosso

(Corpus TUFS)

  1. (En parlant de films de Kitano TAKESHI)

MA187 - t(u n’) as pas vu Sonatine
DMC187 - nan mea culpa [petit rire]
MA188 - nan regarde-le franchement regarde-le dès qu(e) tu peux il est trop trop bien après (il) y a Hanabi et moi j’ai adoré Kids Return

(Corpus TUFS)

Dans ces exemples, après ne semble pas avoir besoin d’un complément quelconque. Prosodiquement marqué par une intonation montante et une brève pause, après sert à introduire une unité discursive, tout en la reliant au contexte antérieur et en exprimant sa postériorité énonciative. Nous verrons que cette postériorité énonciative peut s’interpréter de différentes manières selon les contextes et les degrés de pragmatisation : après peut fonctionner tantôt comme marqueur ‘temporel’, tantôt comme ‘causal’, tantôt encore comme ‘concessif’.

Il existe peu d’études consacrées au connecteur après. En se basant sur des exemples trouvés sur Internet et dans Frantext, Le Deraoulec (2017) a décrit les particularités de l’emploi ‘concessif’ du connecteur après, en le comparant avec l’emploi ‘concessif’ de maintenant. Dans cette présentation, en revanche, nous tenterons de mener une enquête basée sur corpus pour décrire les différents emplois du connecteur après.

D’abord, nous montrerons que les comportements syntaxiques de après sont très différents selon les types de données, en comparant 4 corpus distincts : parler formel (une partie de ESLO2 consacrée aux données ‘conférences’), parler informel (Corpus TUFS[2]), presse (Corpus du Monde 2011) et textes littéraires (Frantext). L’emploi de après en tant que connecteur s’observe le plus fréquemment dans l’oral informel.

Ensuite, nous décrirons en détail les occurrences du connecteur après attestées dans notre corpus du parler informel (Corpus TUFS), en partant d’une analyse des contextes syntaxiques et des types de relations entre les deux segments reliés par le connecteur. Dans l’oral informel, d’un côté, il existe des exemples dans lesquels après fonctionne comme un connecteur autonome exprimant seul des relations variées (voir les exemples 1 et 2) et d’un autre côté, des exemples où après se combine avec d’autres connecteurs exprimant explicitement des relations : et après, mais après, parce qu’après, donc après, du coup après, et puis après, etc. Ces  cooccurrences  syntagmatiques seraient un des facteurs favorisant l’expansion des emplois de après par la grammaticalisation.

Comme Le Draoulec (2017 : 12) le note, il reste à examiner l’hypothèse que «  le processus de grammaticalisation n’est pas tout à fait achevé », ce qui dépasse le cadre de notre étude synchronique. Cependant, en observant les exemples attestés de après dans notre corpus, nous pouvons dire que l’évolution est certainement en cours, produisant une variété d’emplois dans l’usage du parler informel.

Références bibliographiques

Amiot, D. & De Mulder, W. (2015). Polycatégorialité et évolution diachronique : les emplois préfixoïdes de après(-) et arrière(-). Langue Française 187, 137-155.

Blanche-Benveniste, C. (2010). Le français, usages de la langue parlée. Paris/Louvain : Peeters.

Combettes, B. & Carlier, A. (éds.) (2015). Une tendance évolutive du français : la spécialisation de la catégorisation morphosyntaxique, Langue Française 187, Paris : Larousse.

Fagard, B. (2003). Après : de l’espace au temps, la sémantique en diachronie. in. Da Silva, S., Torres, A. &Gonçalves, M. (éds.) Linguagem, cultura e cognição. Bragas, Almedina : 231-246.

Fagard, B. (2011). Conjonctions et grammaticalisation : le cas des langues romanes. in. François, J. & Prévost, S. (éds). Mémoires de la Société de Linguistique de Paris 19 : L’évolution grammaticale à travers des langues romanes, Paris/Louvain, Peeters : 79-102.

Franckel, J-J. & Paillard, D. (2007). Grammaire des prépositions Tome 1, Paris : Ophrys.

Haspelmath, M. (1997). From space to time, temporal adverbials in the world’s languages, Berlin : Lincom Europa.

Ilinski, K.(2003). La préposition et son régime, Etude des cas atypiques. Paris : Honoré Champion.

Le Draoulec, A. (2017). “Après moi ce que j’en dis…” L’emploi pragmatique de ‘après’. in. Dostie, G. & Lefeuvre, F. (éds.). Lexique, grammaire, discours, les marqueurs discursifs, Paris, Honoré Champion : 23-40.

Rossari, C. & Paillard, V. (2006). Après tout : une forme de temporalité énonciative. Cahiers Chronos 15, 91-104.

Sfar, K. (2009). La préposition après : entre catégorisation syntaxique et catégorisation pragmatique. in. François, J., Gilbert, E., Guimier, C. & Krause, M. (éds.) Autour de la préposition, Caen : Presse Universitaire de Caen.

Stoy, H. (2013). Les connecteurs contenant des prépositions en français, profils sémantiques et pragmatiques en synchronie et diachronie. Berlin : De Gryuter.

Trabelsi, H. (2013). La grammaticalisation de la préposition, Etudes sémantique et pragmatique de selon, suivant et d’après. Düsseldorf : Presse Académiques Francophones.

Traugott, E. & Trousdale, G. (2013). Constructionalization and constructional changes. Oxford : Oxford University Press

 

Session
Microdiachronie

 

La micro-diachronie : au-delà du dilemme temps réel/temps apparent

Lotfi Abouda
LLL (UMR7270) – Université d’Orléans

Malgré la nécessaire adaptation aux exigences scientifiques actuelles, dont l’équipe Eslo avait conscience (Abouda & Baude, 2007), la comparabilité avec Eslo1 (1968-1971) a constitué l’un des enjeux majeurs ayant présidé à la constitution d’Eslo2 (2008-). C’est ainsi que l’on a pu par exemple privilégier et justifier les entretiens en face-à-face. Orales, « ordinaires », et situées, ces données sont en plus uniques : si, aujourd’hui, beaucoup de corpus oraux existent, aucun ne contient de données comparables à 40 ans de distance.

Une partie du corpus offre ainsi une perspective diachronique qui permet d’interroger le changement sous un angle inédit dans le domaine francophone. Les questions qui en découlent sont nombreuses : quels changements linguistiques peut-on voir se profiler en l’espace d’une génération (et pas n’importe laquelle…), et quelles analyses leur attribuer ?

L’objectif de cette communication, qui sera illustrée par diverses études menées sur le corpus micro-diachronique ESLO-MD (voir Abouda & Skrovec 2018), est de montrer que le positionnement micro-diachronique des ESLO permet, en se situant au croisement de diverses approches, de contribuer d’une manière significative à deux champs, en les faisant se dialoguer, le domaine de la linguistique variationniste et celui de la diachronie.

En effet, dans le champ de la diachronie, ainsi que l’écrit Siouffi & al. (2012), les « études diachroniques se sont […] construites dans la mise en évidence de grandes évolutions, plus que dans le repérage des moments particuliers où quelque chose dans la langue change ». La micro-diachronie pourrait ainsi constituer une focale intermédiaire et intéressante entre diachronie et synchronie, où il sera possible de cerner les dynamiques de l’émergence des faits nouveaux, ainsi que les processus à l’œuvre dans des évolutions plus lentes. Au-delà d’avancées descriptives, l’identification de ces dynamiques pourrait constituer un apport théorique important au champ de la diachronie longue, amené à travailler sur des données écrites, anciennes, et généralement peu ou mal documentées.

Parallèlement, les analyses descriptives qu’il est possible de mener dans ce cadre peuvent constituer la source d’une contribution théorique importante dans le champ du changement linguistique, aujourd’hui traversé par des courants nombreux et contradictoires (voir par exemple Béguelin 2014). En effet, l’angle que rend possible la micro-diachronie dans les ESLO permet d’éviter les écueils méthodologiques que l’on peut quelquefois observer dans les études sur le changement. D’une part, il est connu que les études dites en temps apparent (où le chercheur restitue le changement via les pratiques linguistiques de sujets d’âges différents), incontournables lorsque le chercheur ne dispose pas de données comparables plus anciennes, présentent l’inconvénient de potentiellement amalgamer phénomènes de changement, pratiques générationnelles, et phénomènes de mode (Siouffi, 2016). Il est sans doute moins connu que les études dites en « temps réel », en tout cas tel qu’elles sont entendues et pratiquées dans le domaine québécois (Thibault & Vincent, 1990 et Thibault, 2002) présentent, lorsqu’elles se bornent à tracer les pratiques linguistiques des mêmes locuteurs, le risque d’attribuer au changement dans le temps ce qui relève en fait d’une évolution sociale. Entre ESLO1 et ESLO2, les locuteurs DIA (présents parallèlement dans chacune des deux parts micro-diachroniques du corpus ESLO-MD), en plus de prendre 40 ans en âge, sont susceptibles de connaitre un changement de statut social (sur les 7 locuteurs DIA du corpus ESLO-MD, 4 ont connu une nette évolution sociale (2 cas d’ascension et 2 de déclassement)). Comment affirmer dans ce cas que leurs pratiques langagières relèveraient du changement, et non d’une variation sociale ou générationnelle ?

Cette communication cherchera à montrer que la perspective micro-diachronique, sans exclure d’autres focales, possibles, parce qu’elles sont souvent complémentaires, et nécessaires parce que la micro-diachronie n’est pas une panacée (voir Abouda & Rendulic, 2017), apporte une réelle contribution aux deux champs envisagés.

Références bibliographiques

Abouda, L. & Baude, O. (2007). Constituer et exploiter un grand corpus oral : choix et enjeux théoriques. Le cas des Eslo, in Rastier, F. & Ballabriga, M. (dir.), Corpus en Lettres et Sciences sociales. Des documents numériques à l’interprétation, Actes du XXVIIe Colloque d’Albi « Langages et Signification », 161-168.

Abouda, L. & Rendulic, N. (2017). Séquence d’introduction de discours représenté : faire ou dire ?, Discours [En ligne], 21 | 2017, mis en ligne le 22 décembre 2017. URL : http://journals.openedition.org/discours/9353

Abouda, L. & Skrovec, M. (2018). Pour une micro-diachronie de l’oral : le corpus ESLO-MD, Actes du CMLF, Université de Mons, 9-13 juillet 2018, SHS Web Conf., 46 (2018) 11004.

Beal, J. & Corrigan, K. (ms.). New Ways of Capturing the “Kodak” moment : Real-time vs. Apparent Time Analyses of Syntactic Variation in Tyneside English, 1969-1994, contribution à la conférence VIEW 2000, Essex.

Béguelin, M.-J. (2014). Deux points de vue sur le changement linguistique, Langages, n° 196, 13-36.

Hansen A. B. & Malderez, I. (2004). Le ne de négation en région parisienne : une étude en temps réel, Langage et Société, n° 107, 5-30.

Gadet, F. (2003). La variation sociale en français, Paris, Ophrys.

Hansen, A. B. & Juillard, C. (2011). La phonologie parisienne à trente ans d’intervalle - Les voyelles à double timbre, Journal of French Language Studies 21/3, 313-359.

Labov, W. (1976). Sociolinguistique, Paris, Les Éditions de Minuit, [1972 Sociolinguistic Patterns, Philadelphia, University of Pennsylvania Press].

Labov, W. (1994). Principles of Linguistic change : Internal Factors, Oxford : Blackwell.

Ledegen, G. & Léglise, I. (2013). Variations et changements linguistiques, in S. Wharton & J. Simonin (éd.)., Sociolinguistique des langues en contact, ENS Editions, 315-329.

Siouffi, G., Steuckardt, A. et Wionet, C. (2012). Comment enquêter sur des diachronies courtes et contemporaines ? SHS Web of Conferences. Actes du 3e congrès mondial de Linguistique française – CMLF 2012 (Lyon, 4-7 juillet 2012).

Siouffi, G. (dir. 2016). Modes langagières dans l’histoire, Honoré Champion.

Thibault, P. (2002). Regard rétrospectif sur la sociolinguistique québécoise et canadienne, Revue québécoise de linguistique, 30, 1.

Thibault, P. & Vincent, D. (1990). Un corpus de français parlé. Montréal 84 : Historique, méthodes et perspectives de recherche, Québec, Université Laval.

Weinreich, U., Labov, W. & Herzog, M. (1968). Empirical foundations for a theory of language change, in Lehmann W.P. & Malkiel Y. (éds), Directions for historical linguistics, Austin, University of Texas Press, 95-188.

 

La nasalisation en créole haïtien : entre variations et apports substratiques africains

N Renauld Govain
LangSÉ/Université d’État d’Haïti

La nasalisation est une opération par laquelle un phonème à l’origine non nasal vient à être nasalisé sous l’influence d’un phonème nasal adjacent. En français, elle n’est que régressive, alors qu’en créole haïtien (CH) elle est progressive en plus d’être régressive. Elle constitue l’un des traits caractéristiques du CH (Pompilus, 1973 et Valdman 1978, 2015) et est traitée par des auteurs dont Tinelli (1970, 1974, 1981), Cadely (2002, 2018), Hall (1950). Elle présente, en CH, une distribution relativement complexe, pouvant agir sur des domaines morphologiques simples (mais peut aussi être observée au-delà de ceux-ci, des mots plurimorphémiques, la frontière nom / déterminant enclitique) et lexicaux, où se rencontrent beaucoup de micro-variations. Régressive, elle est généralement lexicale et progressive, morphologique. Mais toute nasalisation progressive n’est pas morphologique. Le trait nasal peut se diriger :

  • à gauche comme dans /am/ > [nɑ̃m] (âme)                     /fanal/ > [fɑ̃nal] (fanal)           
  • à droite : /səme/ > [simɛ̃] (semer)                                   /ʒuʁne/ > [ʒutnɛ̃] (journée)
  • à gauche et à droite : /sone/ > [sɔ̃nɛ̃] (sonner)                /butone/ > [butɔ̃nɛ̃] (boutonner)

Le dernier exemple montre qu’une consonne nasale (C̃) peut nasaliser deux voyelles adjacentes (à gauche et à droite). Ainsi, le CH innove par rapport au français.

Cette communication étudie la nasalisation en CH à partir d’une démarche diachronique et synchronique. Elle examine (i) les facteurs empêchant la généralisation de la nasalisation de toute voyelle au contact d’une C̃, (ii) les locus de variation et (iii) le processus de phonologisation, en particulier dans ses conséquences morphologiques (sur le modèle de l’opposition bon/bonne, par. ex.). Elle analyse aussi les apports substratiques de langues du groupe gbè, notamment au niveau progressif (comme l’observe Guédou 1985 pour le fon). Parkval (2000) tente d’expliquer les apports africains aux créoles atlantiques mais, pour la nasalisation, il n’a signalé que l’existence des voyelles nasales (Ṽ) [ĩ] et [ũ] dans un nombre restreint de mots relatifs au vodou. Ces Ṽ [ĩ] et [ũ] dont parle aussi Tinelli (1981) peuvent être le résultat d’influences substratiques. [ĩ] est aussi en CH une variante régionale du sud de /jɔ̃/ ou /ɔ̃/ (un/une). Or, ces voyelles existent en fon (Brousseau et Lefebvre, 2002 ; Capo, 1991 ; Fadaïro, 2000) avec une valeur phonétique. Nous élaborerons in fine des règles en établissant les contextes dans lesquels se produit la nasalisation. Notre corpus provient du Diksyonè kreyòl Vilsen (2008) et des données d’enquêtes.

Références bibliographiques

Brousseau, A.-M. & Lefebvre, C. (2002). A Grammar of Fongbe. Berlin, De Gruyter Mouton.

Cadely, J.-R. (2018). Aspects de la phonologie du créole haïtien. Nordestedt, Éditions universitaires européennes.

__ (2002). Le statut des voyelles nasales en créole haïtien. Lingua, 112-6, 435-464.

Capo, H.B.C. (1991). A Comparative phonology of gbe. Berlin, De Gruyter Mouton.

Fadaïro, D. (2001). Parlons Fon, langue et culture du Bénin. Paris, L’Harmattan.

Guédou, A.G.G. (1985). Xó et gbé ; langue et culture chez les Fon (Bénin). Paris, CNRS, SELAF, ACCT.

Hall, R.A. (1950). Nasalization in Haitian Creole. Modern Language Notes, Vol. 65 No 7, 474-478.

Parkvall, M., 2000. Out of Africa. African influences in Atlantic Creoles. London, Battlebridge Publications.

Pompilus, P. (1973). Contribution à l’étude comparée du créole et du français. Phonologie et lexicologie. Port-au-Prince, Editions Caraïbes.

Tinelli, H.-V. (1981). Creole phonology. The Hague; New York: Mouton.

__ (1970). Generative phonology of Haitian Creole. University of Michigan, Ann Arbor, MI.

__ (1974). Generative and creolization processes: Nasality in Haitian Creole. Lingua 33, 343-66.

Valdman, A. (1978). Le créole : structure, statut et origine. Paris, Klincksieck.

__ (2015). Haitian Creole. Structure, Variation, Status, Origin. Sheffield, Bristol, Equinox.

Vilsen, F. & Ètelou, M. (2005). Diksyonè kreyòl Vilsen. Coconut Creek, Educa Vision.

 

Marquer la conséquence à Montréal :  mutation d’une variable sociolinguistique des années 1970 à aujourd’hui

Hélène Blondeau et Mireille Tremblay
University of Florida, Université de Montréal

Cette communication porte sur l’évolution de la variation des marqueurs de conséquence ça fait que, souvent réduit à fait que et prononcé [fak] ou [fɛk], donc et alors dans le français parlé à Montréal. L’étude repose sur la comparaison d’une analyse antérieure (Dessureault-Dober 1974) et d’une nouvelle analyse du sous-corpus FRAN-HOMA recueilli dans le quartier montréalais d’Hochelaga-Maisonneuve dans les années 2010 et faisant partie du corpus FRAN sur le français en Amérique du Nord (Martineau et Séguin 2016).          

L’analyse antérieure, basée sur un sous-échantillon du corpus Sankoff-Cedergren recueilli en 1971, laissait croire à une régression de alors au profit de fait que, cette dernière variante étant favorisée par les locuteurs jeunes et par la classe ouvrière. Une étude en temps réel subséquente (Thibault et Daveluy 1989) a montré que l'usage d'alors chez les locuteurs âgé était plutôt lié à la gradation d'âge.

Nous montrons qu'au cours des quarante dernières années, la forme vernaculaire fait que a connu une expansion marquée (54% à75%) et est devenue la forme privilégiée par la majorité des locuteurs, particulièrement les femmes, les jeunes et la classe ouvrière. La forme donc, marginale en 1971 (1%) a aussi connu une progression importante (19%). Cette augmentation de fait que et donc s’est faite au détriment de la variante alors, dont l’usage a chuté (44% à6%),  donc remplaçant alors comme forme de prestige.

Dans le corpus de 2010, une analyse multivariée (au moyen du logiciel Goldvarb X (Sankoff et al 2005)) des facteurs âge, genre et catégorie socioéconomique (CSE) dans l’usage de la forme fait que révèlent des dichotomies importantes. Parmi les locuteurs de 45 ans et plus, on observe que, chez les femmes, la différence sociale associée à fait que s’avère plus importante que chez les hommes. La situation est différente chez les plus jeunes. D’une part, les jeunes femmes utilisent la forme fait que de façon quasi catégorique sans qu’il y ait d’effet de CSE. En revanche, on voit un effet de la CSE chez les hommes de moins de 45 ans, bien qu’il soit quasi absent chez les hommes plus âgés.

L’augmentation de l’usage de la variante fait que chez les plus jeunes locuteurs et particulièrement chez les femmes, où l’usage de cette variante lexicale est quasi catégorique, pourrait suggérer que les marqueurs de conséquence perdent leur statut de marqueur sociolinguistique (Labov 1972). Toutefois, une analyse de la variation socio-phonétique montre une complexification de la variante fait que. À la prononciation traditionnelle [fak] s’ajoute une nouvelle prononciation [fɛk]. L’analyse en temps apparent du corpus de 2010 montre que la variante [fɛk] aurait été introduite par les jeunes femmes de la classe intermédiaire, pour se propager aux hommes de cette même classe et finalement à la classe haute. La nouvelle variante [fɛk] vient donc concurrencer la forme donc comme forme de prestige dans la communauté.

En conclusion, notre étude montre la mutation d’un marqueur sociolinguistique, qui passe de variable lexicale à variable phonologique, et met en évidence le rôle des facteurs extralinguistiques comme le genre, la CSE et l’âge dans la diffusion du changement.

Références bibliographiques

Dessureault-Dober, D. (1974). Étude sociolinguistique de /Ca fait que/ : Coordonnant logique et marqueur d’interaction. Mémoire de maîtrise, Université du Québec à Montréal.

Labov, W. (1972). Sociolinguistic patterns. Philadelphia: University of Pennsylvania Press.

Martineau, F. & Séguin, M-C. (2016). Le Corpus FRAN : réseaux et maillages en Amérique française ». Corpus 15 55-87.

Sankoff, D., G. Sankoff, S. Laberge. & M. Topham (1976). Méthodes d’échantillonnage et utilisation de l’ordinateur dans l’étude de la variation grammaticale. Cahiers de linguistique de l'Université du Québec 6 : 85-125.

Sankoff, D., Tagliamonte, S.A. & Smith, E. (2005) Goldvarb X : A variable rule application for Macintosh and Windows. Department of Linguistics, University of Toronto.

Thibault, P. & Daveluy, M. (1989). Quelques traces du passage du temps dans le parler des Montréalais. Language, Variation and Change 1 : 19-45.

 

La variation dans les interrogatives partielles du français : réactualisation des données et nouvelles perspectives de pragmatique enrichie

Gabriel Thiberge1 et Loïc Liégeois1,2
1
LLF, UMR 7110, Université Paris Diderot, Sorbonne Paris Cité, CNRS, F-75013 Paris, France, 2CLILLAC-ARP, EA 3967, Université Paris Diderot, Sorbonne Paris Cité, F-75013 Paris, France

Les structures interrogatives partielles du français présentent une variation importante, depuis les constructions dites "in situ" ("Jean voit qui ?") aux constructions "antéposées", avec ("Qui voit Jean ?") ou sans ("Qui Jean voit ?") inversion, en passant par de nombreuses autres. Cette variation a été reliée aussi bien à des contraintes syntaxiques (par exemple l'échelle de complexité dérivationnelle de Jakubowicz, 2011) qu'à des enjeux sociolinguistiques (Quillard, 2001 ; Coveney, 2011). L'approche de la variation repose souvent sur des données de corpus déjà̀ anciennes et/ou biaisées par la modalité choisie (langue écrite). Nous proposons une analyse comparative des données du projet ESLO sur deux plans. D'abord, nous confrontons ESLO 1 et ESLO 2, pour une réactualisation des données sur les usages contemporains des différentes constructions interrogatives.

Ensuite, nous comparons différents contextes d'enregistrement, pour une analyse de l'influence du type d'interaction sur la variation. Les études passées se focalisent en effet sur une vision interpersonnelle (le groupe social d'origine détermine l'idiolecte, dans une approche sociolinguistique de type "Première/Deuxième vague" ; Eckert, 2012). Elles négligent ainsi une approche intrapersonnelle plus actualisée, en termes de pragmatique enrichie et de "Social Meaning Games" ("Troisième Vague" ; Eckert, 2012 ; Burnett, 2016), où la variation est analysée en permanence au regard du contexte de l'interaction sociale en cours, et notamment des statuts et personae des participants.

Dans cet objectif, nous avons décidé de compiler les fichiers de transcription validés et disponibles sur le site du projet afin de les rendre interrogeables au moyen de l'outil TXM (Heiden, 2010 ; Heiden, Magué et Pincemin, 2010). Dans un premier temps, un ensemble de scripts de pré-traitement a été appliqué sur les fichiers d'origine, structurés au format Transcriber, afin de régler plusieurs problèmes liés notamment au chevauchement d'énoncés. Ensuite, l'ensemble des annotations non pertinentes pour notre analyse (annotation des prononciations atypiques ou des rires par exemple) ont été supprimées. En sortie, nous obtenons un ensemble de fichiers XML importables dans l'outil TXM. Au moment de l'import, un ensemble de métadonnées d'ordre sociolinguistique sont projetées pour chaque énoncé : code du locuteur, bien sûr, mais également sa tranche d'âge, son niveau d'étude ou le code INSEE de sa profession. Ainsi, la méthodologie employée permet de constituer un ensemble de sous-corpus dans TXM en s'appuyant sur ce jeu de métadonnées.

Les résultats préliminaires sont conformes aux prédictions de l'approche. D'abord, une comparaison diachronique des usages des différentes structures interrogatives, entre les données d'ESLO1 et celles d'ESLO2, confirme une évolution des tendances générales des locuteurs français (utilisation plus fréquente des constructions in situ dans ESLO2, par exemple près de 55 % pour les locuteurs de la tranche d’âge 12-25 ans, contre 30 % dans ESLO1). Ensuite, le type d'interaction influe fortement sur le type de construction interrogative employé (in situ employé dans des contextes plus relâchés, antépositions plus fréquentes dans des contextes de plus grand formalisme). La communication présentera des résultats étendus à l'ensemble des corpora.

Références bibliographiques

Coveney, A. (2011). L’interrogation directe. Travaux de linguistique, 63, 112-145.

Burnett, H. (2017). Sociolinguistic Interaction and Identity Construction: The View from Game-Theoretic Pragmatics. Journal of Sociolinguistics, 22(1), 238-271.

Eckert, P. (2012). Three Waves of Variation Study: The Emergence of Meaning in the Study of Sociolinguistic Variation. Annual Review of Anthropology, 41, 87-100.

Heiden, S. (2010). The TXM Platform: Building Open-Source Textual Analysis Software Compatible with the TEI Encoding Scheme, in Otoguro R., Ishikawa, K., Umemoto, H., Yoshimoto, K. & Harada, Y. (éds.) 24th Pacific Asia Conference on Language, Information and Computation - PACLIC24, Sendai, Institute for Digital Enhancement of Cognitive Development, Waseda University : 389-398.

Heiden, S., Magué, J.-P. & Pincemin, B. (2010). TXM : Une plateforme logicielle open-source pour la textométrie – conception et développement, in Bolasco, S., Chiari, I. & Giuliano, L. (éds.) Proc. of 10th International Conference on the Statistical Analysis of Textual Data - JADT 2010, Vol. 2, Roma, Edizioni Universitarie di Lettere Economia Diritto : 1021-1032.

Jakubowicz, C. (2011). Measuring derivational complexity: New evidence from typically developing and SLI learners of L1 French. Lingua, 121, 339-351.

Quillard, V. (2001). La diversité des formes interrogatives : comment l'interpréter ?. Langage et société, 95(1), 57-72.

 

La variation de l’emploi du pronom sujet explétif en français moderne – une analyse micro-diachronique de l’oral

Carmen Widera
Universität Konstanz

En général, le français moderne est considéré comme une langue à sujet obligatoire qui, à part quelques exceptions bien limitées, ne permet pas d’omission de pronom sujet, ni référentiel ni explétif. Cependant, de nombreux exemples de l'omission du pronom explétif il se trouvent en français parlé. Auger (1993) donne les exemples suivants de la variation entre l’emploi et l’omission du pronom sujet dans les constructions impersonnelles :

  • (Il) faut y aller
  1. (Il) me semble que c’est une bonne idée (Auger 1993:179)

Cette communication sera consacrée à la question à savoir si ce phénomène de variation du français oral contemporain a changé au cours des dernières décennies. Cette question trouvera réponse d'une façon empirique en se fondant sur une analyse du corpus oral Enquêtes SocioLinguistiques à Orléans (ESLO). Comme il s’agit d’un corpus composé de deux phases d'enregistrements d’un intervalle d’environ quarante ans, le corpus constitue une base adéquate pour analyser le développement de l'emploi du pronom sujet impersonnel à travers le temps. En outre, le corpus contient un sous-corpus de sept locuteurs qui ont été enregistrés à deux reprises, pour la première et pour la deuxième enquête ESLO.

Dans un premier temps, l’étude vérifie si la fréquence de l'omission du pronom sujet explétif il a augmenté au cours des dernières décennies. Une première analyse du corpus ESLO révèle une montée relative de l’omission de 63 % dans les constructions avec falloir entre les deux périodes de l’enquête. Une vérification de la distribution de l’omission selon l’âge des locuteurs et une analyse détaillée du sous-corpus découvrent en outre de quel type de changement selon Labov (1994) il s’agit. En plus, l’étude examine les restrictions syntaxiques de l’omission du pronom sujet impersonnel et répond à la question à savoir si ces restrictions ont changé entre les deux périodes de l’enquête ESLO. Cela inclut surtout la vérification de l’hypothèse controversée de l’asymétrie entre les propositions principales et subordonnées. Quelques auteurs affirment que l’omission du pronom sujet impersonnel est limitée aux principales (Gabriel & Müller 2008, Kaiser 2008), tandis que d’autres contestent cette hypothèse en donnant des exemples de l’absence du pronom sujet explétif dans les subordonnées (Barme 2012, Zimmermann & Kaiser 2014).

À côté des résultats de l’analyse du corpus, j’aborderai aussi le nettoyage et l’annotation semi-automatique des données à l’aide du langage de programmation Perl ainsi que l’exploitation statistique en utilisant le programme R.

En résumé, cette communication donne un exemple de l’exploitation du corpus ESLO dans une perspective diachronique en analysant la variation entre l’emploi et l’omission du pronom sujet explétif il.

Références bibliographiques

Auger, J. (1993). More evidence for verbal agreement-marking in colloquial French, in. Ashby, W. J., M. Mithun, G. Perissinotto & E. Raposo (éd.) Linguistic Perspectives on the Romance Languages. Selected Papers from the 21st Linguistic Symposium on Romance Languages, Amsterdam, Benjamins : 177-198.

Barme, S. (2012). Gesprochenes Französisch. Berlin : de Gruyter.

Gabriel, C. & Müller, N. (2013). Grundlagen der generativen Syntax. Französisch, Italienisch, Spanisch. Tübingen : Niemeyer, 2., überarbeitete und erweiterte Auflage.

Kaiser, G. A. (2008). Zur Grammatikalisierung der französischen Personalpronomina, in. Stark, E., R. Schmidt-Riese & E. Stoll (éd.) Romanische Syntax im Wandel, Tübingen, Narr : 305-325.

Labov, W. (1994). Principles of Linguistic Change. Volume 1: Internal Factors. Oxford : Blackwell.

Zimmermann, M. & Kaiser, G. A. (2014). On expletive subject pronoun drop in Colloquial French. Journal of French Language Studies, 24, 107-126.

 

Etude micro-diachronique de genre dans le corpus TCOF entre 2006 et 2017. Variations sociolinguistiques, valeurs pragmatiques et effet de mode

Virginie André
ATILF – Université de Loraine et CNRS

Les petits mots de l’oral et autres ponctuants, particules ou encore marqueurs du discours font l’objet de nombreuses études des points de vue sémantique, syntaxique, pragmatique ou interactionnel (voir par exemple Vincent 1993, Fernandez 1994, Morel & Danon-Boileau 1998, Beeching 2002, Dostie & Pusch 2007). Certains de ces petits mots, tels que bon, ben, voilà, hein, donc, quoi, tu vois ou enfin, sont fréquents et relativement constants dans les interactions. D’autres, tels que à la base, et tout, quand même ou genre, sont davantage soumis à la variation diachronique. En d’autres termes, certains petits mots sont à la mode. L’apparition et la fréquence de ces derniers sont également liées à d’autres variations sociolinguistiques, telles que l’identité des locuteurs, leurs relations, les objectifs de la communication ou encore le genre de discours auquel ils participent. Dans cette étude qui s’inscrit dans le cadre de l’analyse des interactions verbales (Kerbrat-Orecchioni 2005, André 2014), nous nous intéresserons aux usages de genre dans différents types d’échange. Nous analyserons ses conditions d’apparition ainsi que ses valeurs pragmatiques et interactionnelles en croisant ces éléments avec une donnée temporelle, pour une étude micro-diachronique. Yaguello (1998 : 18) remarquait, il y a vingt ans, que cette « nouvelle particule » se répandait « de plus en plus dans la génération de [ses] enfants ». Fleischman (1998) relevait ces apparitions dans la « langue banchée ». Ensuite, Rosier (2002) et Chauveau-Thoumelin (2016), par exemple, s’interrogeaient sur la description grammaticale et sur les emplois de genre à l’écrit. Nous poursuivrons ces analyses en examinant les occurrences de genre dans le corpus oral TCOF (Traitement de Corpus Oraux en Français, http://www.cnrtl.fr/corpus/tcof/) de Nancy. Nous comparerons les usages, valeurs et effets de mode de genre à dix ans d’intervalle, empan que nous permet ce corpus relativement récent.

Ce corpus est enrichi tous les ans depuis 2006 (André & Canut 2010). Il permet donc désormais d’accueillir des études micro-diachroniques sur une dizaine d’années, en s’inspirant de celles menées avec les corpus ESLO 1 et 2 sur quarante ans. Le corpus TCOF comprend différents genres de discours (conversations, entretiens, réunions, récits de vie, etc.). Dans le cadre de cette étude, nous avons constitué deux sous-corpus : le premier rassemble les données recueillies entre 2006 et 2009 ; le second, celles recueillies entre 2015 et 2017. Chacun des sous-corpus compte environ 20h d’enregistrement.

Dans cette communication, nous présenterons différents aspects de cette étude. D’un point de vue quantitatif, les apparitions de genre sont de plus en plus fréquentes entre 2006 et 2017. Dans le corpus le plus récent, nous rencontrons 4,5 fois plus d’occurrences de genre que dans le corpus le plus ancien. D’un point de vue qualitatif, nous examinerons les différences d’usages de genre  entre ces deux périodes de différents points de vue. Nous comparerons les variations sociolinguistiques, les places syntaxiques occupées par genre – parfois nom, adverbe, préposition, particule modale, connecteur discursif, ponctuant ou autre encore – ainsi que ses valeurs pragmatiques et interactionnelles, et nous présenterons leurs évolutions entre 2006 et 2017.

Références bibliographiques

André, V. (2014). L’énonciation conjointe : trace et ressource de la construction collaborative du discours. Congrès Mondial de Linguistique Française – CMLF 2014, p.1891-1904. Disponible sur : http://www.linguistiquefrancaise.org/articles/shsconf/pdf/2014/05/shsconf_cmlf14_01323.pdf

André, V., & Canut, E. (2010). Mise à disposition de corpus oraux interactifs : le projet TCOF (traitement de corpus oraux en français). Pratiques. (147-148), 35-51.

Beeching, K. (2002). Gender, politeness and pragmatic particles in French. Amsterdam : John Benjamins Publishing.

Chauveau-Thoumelin, P. (2016). De l’exemplification à la catégorisation approximative: étude de la construction [[X] SN genre [Y] SN]. In SHS Web of Conferences (Vol. 27, p. 12005). EDP Sciences.

Dostie, G., & Pusch, C. D. (2007). Les marqueurs discursifs. Langue française, 154, 128.

Fernandez, M. J. (1994). Les particules énonciatives dans la construction du discours. Paris : PUF.

Fleischman, S. (1998). Des jumeaux du discours. La linguistique, 31-47.

Kerbrat-Orecchioni, C. (2005). Le discours en interaction. Paris : Armand Colin.

Morel, M. A., & Danon-Boileau, L. (1998). Grammaire de l'intonation l'exemple du français. Paris : Editions OPHRYS.

Rosier, L. (2002). Genre: le nuancier de sa grammaticalisation. Travaux de linguistique, (1), 79-88.

Vincent, D. (1993). Les ponctuants de la langue et autres mots du discours. Québec: Nuit Blanche.

Yaguello, M. (1998). Petits faits de langue. Paris : Editions du Seuil.

 

Session
Construction de l’oral

 

La diamésie est-elle une variation comme les autres ?

Christophe Benzitoun
Université de Lorraine & CNRS ATILF

De nos jours, la prise en compte des dimensions diachronique, diatopique, diaphasique et diastratique est largement répandue en sociolinguistique pour l’étude des variations, même s’il n’est pas évident d’en délimiter précisément les contours (Gadet, à paraitre). Cependant, un cinquième type de variation, ajouté plus récemment, pose plus de problèmes que les autres, particulièrement en français : la diamésie. De nombreux auteurs se sont penchés sur la question des différences entre oral et écrit avec des approches très différentes et ne sont pas parvenus à un constat partagé. Pour une approche linguistique, on peut citer Moreau (1977), Béguelin (1998) et Blanche-Benveniste (2010) pour le français, Halliday (1985) pour l’anglais ; pour une approche historique et anthropologique Goody (1979) et Ong (2014) ; pour une approche neurolinguistique, Germain & Netten (2013) ; pour une approche évolutionniste, Tricot & Roussel (2016).

La plupart de ces travaux ont mis en lumière des différences profondes entre oral et écrit. Mais là où certains en tirent la conclusion d’une situation de diglossie en français (Massot & Rowlett, 2013), une majorité envisage plutôt la question sous la forme d’un continuum composé d’une pluralité de contextes de productions. C’est le cas, par exemple, de Koch & Œsterreicher (2001) qui envisagent le continuum oral/écrit sous la forme d’un axe immédiat vs distance communicative. Cela tendrait à faire disparaitre l’opposition entre oral et écrit au profit d’une définition basée sur les autres dimensions variationnelles. Et la terminologie employée montre à quel point il est difficile de cerner la question : langage écrit/parlé, usage écrit/oral, code oral/écrit, langue écrite/orale, culture de l’écrit, etc.

Dans un premier temps, nous présenterons les notions dont nous nous servons pour aborder l’étude de la diamésie. Ces notions touchent principalement à la manière de concevoir les interactions entre oral et écrit. Il en va ainsi de l’oralité secondaire chez Ong, qui se conçoit comme le résultat de la « contamination » de l’oral par des impératifs historiquement associés à l’écrit (abstraction, décontextualisation, etc.). Il en va de même des connaissances primaires/secondaires chez Tricot & Roussel, qui portent sur la nature des règles à acquérir ou apprendre. Cette dernière distinction se rapproche de la différenciation faite par Blanche-Benveniste entre grammaire première et grammaire seconde. Cela met en lumière le statut des règles de la norme scolaire et leur nécessaire apprentissage explicite.

En français, les formes linguistiques que nous utilisons à l’oral font donc l’objet d’une interaction complexe avec le domaine de l’écrit, l’influence de l’écrit et de la norme s’intensifiant dans un contexte scolaire. Si l’influence de l’écrit sur les productions orales est incontestable, on constate toutefois que, dans les corpus oraux, certaines tournures syntaxiques sont très présentes et d’autres quasi-absentes, et ce en dehors des seules conversations spontanées. Cela tendrait donc à démontrer qu’il existe des contraintes cognitives propres à l’oral, observables en dehors des situations de lecture ou de récitation. À ces facteurs cognitifs viendrait s’ajouter l’évolution des pratiques liée aux traditions discursives et aux supports (textos, chats, forums). Les rapports entre oral et écrit constitueraient donc un domaine mouvant, en perpétuelle redéfinition. À l’heure actuelle, certains humoristes écrivent dans une forme proche de l’oral. Mais est-on capable de nous exprimer oralement dans une forme proche de l’écrit sans avoir au préalable appris un texte par cœur ? Et si ce n’est pas le cas, cela induirait-il nécessairement l’existence de deux grammaires distinctes ou bien des exploitations différenciées d’une seule grammaire ?

À travers l’observation d’extraits d’interventions médiatiques non lues dans différents pays francophones (Belgique, Canada, France et Suisse), nous montrerons qu’il existe des constantes morphosyntaxiques en français parlé, y compris dans des enregistrements datant d’il y a plusieurs décennies. Ces enregistrements proviennent tous de radios et ont été transcrits et sélectionnés par nos soins. Nous prendrons également des exemples de récits produits par des enfants dans les mêmes conditions à l’oral et à l’écrit afin de ne faire varier que le paramètre du canal de production. Notre travail se concentrera en priorité sur la morphosyntaxe du français parlé.

Nous montrerons que la diamésie ne se situe pas sur le même plan que les autres variations et qu’il s’agit d’un paramètre devant être pris en compte au niveau de la conception du message. L’apparence de continuum menant à la conclusion qu’il existerait des productions intermédiaires entre oral et écrit est liée à une confusion de différents facteurs. Notre conception est binaire et particulièrement visible dans des langues comme le français (voir Wüest 2009 pour une conclusion plus nuancée à propos de l’italien).

Références bibliographiques

Béguelin, M.-J. (1998). Le rapport écrit-oral. Tendances dissimilatrices, tendances assimilatrices. Cahiers de linguistique française, 20, 229-53.

Blanche-Benveniste, C. (2010). Le français : Usages de la langue parlée. Leuven/Paris : Peeters.

Gadet, F. (à paraitre). Langue et variation, Notice de l’Encyclopédie Grammaticale du français (encyclogram.fr).

Germain, C. & Netten, J. (2013). Grammaire de l’oral et grammaire de l’écrit dans l’approche neurolinguistique (ANL). Synergies Mexique, 3, 15-29.

Goody, J. (1979). La raison graphique, la domestication de la pensée sauvage. Paris : Ed. de Minuit.

Halliday, M. (1985). Spoken and Written Language. Oxford University Press.

Koch, P. & Œsterreicher, W. (2001). Langage parlé et langage écrit, Lexikon der Romanistischen Linguistik, tome 1, Tübingen : Max Niemeyer Verlag, 584-627.

Massot, B. & Rowlett, P. (2013). L’hypothèse d’une diglossie en France. Journal of French Language Studies, 23/1, Cambridge University Press.

Moreau, M.-L. (1977). Français oral et français écrit : deux langues différentes ?. Français moderne, 45, 204-242.

Ong, W. J. (2014). Oralité et écriture. Les Belles Lettres.

Tricot, A. & Roussel, S. (2016). Quelles connaissances de la langue orale est-il nécessaire d’enseigner ? Une contribution évolutionniste. Les dossiers des sciences de l’éducation, 36, 75-94.

Wüest, J. (2009). La notion de diamésie est-elle nécessaire ?. Travaux de linguistique, 59/2, 147-162.

 

Segmentation in macrosyntactic units across different interaction types. A quantitative study on French

Biagio Ursi*, Carole Etienne*, Iris Eshkol-Taravella°, Nathalie Rossi-Gensane,* Luisa Acosta Cordoba*, Margot Lambert*
* ICAR – UMR 5191 (CNRS, Université Lyon 2, ENS de Lyon), ° MoDyCo – UMR 7114 (CNRS, Université Paris Nanterre)

Our communication takes place in the context of the French-German project SegCor (Segmentation of Oral Corpora, ANR-15-FRAL-0004), focusing on the segmentation of oral corpora. The general aim is the development of a method of segmentation for oral corpora that is adequate for the analyses of interactional data at different levels and for various communities of researchers.

The French and German datasets consist of ten excerpts of ten minutes each for each language[3], which represent the overall data diversity in terms of situation types. The following recorded interactions have been studied: radio talks, meal preparations, reading activities with a child, service encounters, telephone calls, table talks, social meetings, school lessons and panel discussions. In our paper, we will address the relationship between these interaction types and segmentation in maximal units. More particularly, the focus will be on the composition of this kind of units for the French corpus.

Several models have been proposed in previous researches and have been discussed within the SegCor project: part-of-speech tagging and chunking processes via automatic annotation (Eshkol-Taravella et al. 2014); a syntactic annotation relying on a dependency parser (Kahane et al. 2017); a macrosyntactic segmentation in illocutionary units (Benzitoun et al. 2010; Lacheret et al. 2014); the annotation of prosodic prominences and disfluencies leading to the segmentation of intonational periods (Lacheret et al. 2014); the annotation of Turn-Constructional Units (TCUs), i.e. the minimal, emergent and negotiable units through which participants build turns of talk in interaction (Sacks et al. 1974; Ochs et al. 1996; Traverso 2016).

In this paper, we will focus on the segmentation of broad units, which is grounded on the macrosyntactic model (Blanche-Benveniste et al. 1990; Blanche-Benveniste 2010a, 2010b; Lacheret et al. 2014). We rely on the following maximal macrosyntactic units:

Simple units, composed of one nucleus, which is defined as a minimal macrosyntactic component corresponding to an autonomous utterance, according to Blanche-Benveniste et al. (1990: 114);

Complex units, composed of more than one nucleus (including pre-nuclei, post-nuclei and in-nuclei, i.e. sequences beyond government);

Abandoned units, i.e. syntactically unfinished units.

The segmentation has been realized on tokenized transcripts through the EXMARaLDA Partitur Editor[4]. Our main aim is to appreciate the relevance of tokens’ number per maximal unit in our representative corpora. Thus, we propose a quantitative study that is focused on token count per maximal unit in each situation type.

For example, preliminary investigation has shown a higher rate of abandoned units when interactions are conflictual (e. g. panel discussion and radio talk), due to turn-taking specificities. Conversely, in expert talk, i.e. a conference realized by a speaker, abandoned units are very few because of the planned character of the talk.

Relying on the composition of maximal segmentation units, our contribution discusses evidence from corpus segmentation and aims at investigating variation across different interaction types. Our approach is not in contrast to previous research in the field of corpus linguistics, see for example Biber’s multi-dimensional analyses of written and oral genres (Biber 1988) and conversational text types (Biber 2004) in English, which are based on a variety of linguistic features. This contribution offers complementary dimensions for a classification of interaction types, from a quantitative perspective. We will then explore the other segmentation levels annotated in the SegCor project on syntax, prosody and interaction to study if unit characterization depends on the type of interaction and if similar trends can be observed. Statistical analyses and graphing are performed using the R software platform.

Références bibliographiques

Benzitoun, C., Dister, A., Gerdes, K., Kahane, S., Pietrandrea, P. & Sabio, F. (2010). ‘tu veux couper là faut dire pourquoi’ Propositions pour une segmentation syntaxique du français parlé, in Neveu, F., Muni Toke, V., Durand, J., Klingler, T., Mondada, L. & Prévost, S. (eds), Congrès Mondial de Linguistique Française – CMLF 2010, Les Ulis, EDP Sciences: 2075-2090.

Biber, D. (1988). Variation across Speech and Writing. Cambridge: Cambridge University Press.

Biber, D. (2004). Conversation text types: A multi-dimensional analysis, in Purnelle, G., Fairon, C. & Dister, A. (eds), Le poids des mots: Proceedings of the 7th International Conference on the Statistical Analysis of Textual Data, Louvain: Presses Universitaires de Louvain: 15-34.

Blanche-Benveniste, C. (2010a). Approches de la langue parlée en français [2nd edition]. Paris: Ophrys.

Blanche-Benveniste, C. (2010b). Le français : usages de la langue parlée. Leuven: Peeters.

Blanche-Benveniste, C., Bilger, M, Rouget, C. & Van Den Eynde, K. (1990). Le français parlé. Études grammaticales. Paris: CNRS Éditions.

Eshkol-Taravella, I., Tellier, I., Dupont, Y. & Wang, I. (2014). Peut-on bien chunker avec de mauvaises étiquettes POS ?, in Bigi, B. (ed.), 21e Traitement Automatique des Langues Naturelles – TALN 2014, Marseille: 125-136.

Kahane, S., Deulofeu, J., Gerdes, K., Nasr, A. & Valli, A. (2017). Guide d'annotation syntaxique du corpus Orfeo [http://www.projet-orfeo.fr/guide-dannotation-syntaxique-du-corpus-orfeo/].

Lacheret, A., Kahane, S., Beliao, J., Dister, A, Gerdes, K., Goldman, J.-P., Obin, N., Pietrandrea, P. & Tchobanov, A. (2014). Rhapsodie: a Prosodic-Syntactic Treebank for Spoken French, in Calzolari, N. et al. (eds), Proceedings of the 9th International Conference on Language Resources and Evaluation Conference – LREC 2014, Reykjavik: 295-301.

Ochs, E., Schegloff, E. A. & Thompson, S. (eds) (1996). Interaction and Grammar. Cambridge: Cambridge University Press.

Sacks, H., Schegloff, E. A. & Jefferson, G. (1974). A simplest systematics for the organization of turn-taking for conversation. Language, 50(4), 696-735.

Traverso, V. (2016). Décrire le français parlé en interaction. Paris: Ophrys.

 

Spoken Language and its Syntax in Various Interaction Types

Swantje Westpfahl
Institut für Deutsche Sprache, Mannheim

In many studies concerning syntactic structures, spoken language is treated as a single genre and contrasted with written language. The variability that lies within verbal interaction, however, is not accounted for. Previous research on the German spoken language has mainly focused on word choice or typical spoken language phenomena such as disruptions, self-corrections, repetitions or discourse markers (Auer 2000; Aarts 2006; Günthner 2006; Zitzen and Stein 2004; Schwitalla 2012).

Other studies have shown that specific spoken language phenomena are produced differently depending on the type of interaction they appear in (Günthner 2006). On a more theoretical level, genres of spoken language were described with respect to speakers’ actions in everyday talk (Günthner 1995) and Deppermann and Hartung (2012) suggested a parameterized system to classify interaction types.

In a corpus-based approach, Biber (2004) uses a multidimensional analysis for transcripts of oral communication. He finds that a subset of linguistic features (taken from work on written language) clusters the transcripts according to three dimensions similar to those of written language: narrative vs. non-narrative, information focused vs. interactive discourse and stance vs. context-focused discourse.

In contrast to Biber, our data provides labels for types of recorded interactions, e.g. “telephone call”, “table talk”, “panel discussion”, etc. Our aim is to analyze these interaction types considering specific syntactic structures or substructures that are shaped by typical phenomena of spoken language, such as disruptions, response signals or speech particles.

We present a corpus-based approach identifying syntactic structures rather than specific phenomena and analyze them quantitatively in order to show that they differ in various interaction types.

In our study, we sampled a corpus of various types of interaction in German and developed a segmentation and annotation scheme. We based it on syntactic analyses of topological fields, the position of the finite verb and the complexity of the depending structures. We validated the scheme and the reliability of the results with inter-annotator-agreement measures.

The analyses of these annotations show that speakers adapt their speaking style on the level of syntactic units depending on the communicative situation and context. As an example, when speakers do not need to fear that their right to speak is contested (as in oral presentations or moderated panel discussions), they significantly produce much longer and much more complex syntactic units than speakers in highly interactive contexts (as in table-talk or colloquial telephone calls) where syntactic units are significantly shorter and simpler.

Complementary to the findings of Biber (2004), the annotation and segmentation scheme we used can serve as a model for the classification of interaction types, despite relying merely on syntactic analyses.

As our results show, there are statistically significant differences with respect to the choice, the length and the complexity of syntactic units depending on the interaction type they occur in.

Références bibliographiques

Aarts, B. (2006). The handbook of English linguistics. Malden, Massachusetts : Blackwell (Blackwell handbooks in linguistics).

Auer, P. (2000). On-line-syntax-oder: was es bedeuten könnte, die Zeitlichkeit der mündlichen Sprache ernst zu nehmen. Sprache und Literatur, 31 (1), 43-56.

Biber, D. (1986). On the investigation of spoken/written differences. Studia Linguistica, 40 (1), 1–21.

Deppermann, A. & Hartung, M. (2012). Was gehört in ein nationales Gesprächskorpus? Kriterien, Probleme und Prioritäten der Stratifikation des "Forschungs- und Lehrkorpus Gesprochenes Deutsch" (FOLK) am Institut für Deutsche Sprache (Mannheim), in. Felder, E., Müller, M. & Vogel, F. (éd.) Korpuspragmatik: thematische Korpora als Basis diskurslinguistischer Analysen, Berlin, De Gruyter (Linguistik - Impulse & Tendenzen - 44) : 415–450.

Günthner, S. (1995). Gattungen in der sozialen Praxis. Die Analyse "kommunikativer Gattungen" als Textsorten mündlicher Kommunikation. Deutsche Sprache, 25, 193–218.

Günthner, S. (2006). Konstruktionen in der Interaktion. Berlin : De Gruyter (Linguistik - Impulse & Tendenzen, 20).

Schwitalla, J. (2012). Gesprochenes Deutsch. Eine Einführung. Berlin : Schmidt (ESV basics, 33).

Zitzen, M. & Stein, D. (2004). Chat and Conversation. A Case of Transmedial Stability? Linguistics, 42 (5), 983–1021.

 

Co-construction de la concession en français parlé

Thi Thu Trang DO
Université d’Orléans – LLL UMR7270

Jusqu’à ce jour, la plupart des recherches consacrées à la concession opèrent à partir d’exemples fabriqués ou de corpus écrits en sorte que les phénomènes présents à l’oral sont ignorés ou minorés. Cette étude s’en distingue en faisant porter l’analyse sur les spécificités et le fonctionnement de la concession en français parlé spontané.

La nécessité de disposer d’un corpus oral récent qui contienne un nombre suffisant d’argumentations nous avait d’abord incitée à faire des requêtes dans ESLO2 mais ce corpus, conçu dans une perspective sociolinguistique et à partir d’enquêtes, offrait peu d’occurrences pertinentes pour notre étude. Il a alors été décidé de transcrire huit émissions du Grand Bûcher de France Bleu Orléans sous Transcriber. Le corpus comprend cent soixante et onze minutes de parole et 37.443 mots.

Les linguistes sont loin d’être unanimes quand il s’agit de proposer une définition de la concession. On retiendra pour définition opératoire de la concession un énoncé à deux propositions p et q où le locuteur pose ou suppose la vérité de p ou, autrement dit, où il reconnaît la vérité ou la possibilité de la proposition p ; q est un argument contradictoire par rapport à p ; la contradiction entre p et q configure la portée de la conclusion r.

À la différence de l’écrit, plusieurs concessions à l’oral recourent à la co-construction entre les interlocuteurs, c’est-à-dire que les idées exprimées en p et en q ne viennent pas toutes d’un même locuteur mais l’une d’entre elles de l’interlocuteur.

Le propos de l’interlocuteur peut être reproduit tel quel comme dans l’exemple 1 :

  • DT : on chasse les jeunes qui boivent sur les bords de les bords de Loire mais là on veut bien attirer un bar et #1 un bar à champagne donc #
    ML : #2 c’est pas tout à fait la même chose #
    DT : ben c'est pas tout à fait la même chose c'est pas tout à fait la même clientèle effectivement mais bon moi je trouve que toujours ramener à la consommation

Le nouveau cafetier, qui veut faire du lieu un bar à champagne, vise une clientèle un peu plus chic qu'auparavant. DT a repris le propos de ML pour formuler la séquence p de la concession mais rectifie ensuit sa portée, ce qui est contraire à l’exemple 2 où la reprise a lieu en q pour insister sur l’accord du locuteur avec son interlocuteur. C’est le seul exemple de cette catégorie.

  • [DT : euh moi je suis pour la gratuité des transports ça peut être aussi une façon d'emmener des gens au centre-ville de venir consommer en centre-ville plutôt que d'aller sur les extérieurs
    JH : non mais les transports c’est jamais gratuit chère madame
    DT : les transports gratuits ça existe
    JH : c'est payé par les impôts si par les usagers c'est les impôts]
    DT : oui mais justement c'est déjà payé par les impôts

La reprise peut être une reformulation comme dans l’exemple suivant :

  • PR-M : je je n’ai pas tout à fait terminé mon propos
    YB : eh oui mais il faut que ce soit interactif tout ça

Pour YB, le principe de dialogue n'est pas un enchaînement de paroles mais il suppose une interaction, c'est-à-dire qu'il peut y avoir des chevauchements. La co-construction de cette concession se manifeste par la réponse « oui » à l’intervention de l’interlocuteur qui peut être reformulée comme suit : « c’est vrai que vous n’avez pas terminé votre propos ».

L’exemple 4 illustrera un autre phénomène où le locuteur formule une concession en donnant suite à la proposition de son interlocuteur sans reprise ni reformulation.

  • DV : il peut éventuellement peut-être il va y avoir une certaine décom- décompression
    PV : mais un retour de fait beaucoup plus difficile

On constate au total quatre possibilités de co-construction de la concession p – q :

  • p = reprise du propos de l’interlocuteur
  • q = reprise du propos de l’interlocuteur
  • p = reformulation du propos de l’interlocuteur
  • Enchaînement des idées sans reprise ni reformulation

Parmi les 124 concessions de notre corpus, on compte vingt et une co-constructions dont neuf se trouvent parmi les quarante concessions dénommées définitionnelles (concessions portent essentiellement sur la valeur des mots, ce qui est présenté comme une renégociation de leur définition). On posera la question de savoir s’il existe une corrélation entre la co-construction de la concession à l’oral et le type de concessions.

Références bibliographiques

Garnier, S. & Sitri, F. (2008). Problèmes épistémologiques en analyse du discours: le cas de l'énoncé concessif, in Komesu, F. & Baronas, R.L. (eds) Homenagem a Michel Pêcheux. 25 anos de presença na analise do discurso, Campinas, Mercado de Letras : 99-106.

Le Pesant, D. (2005). Causalité et concession, in Choi-Jonin, I., Bras, M., Dagnac, A. & Rouqier, M. (eds) Questions de classification en linguistique : méthodes et description. Mélanges offerts à Christian Molinier, Berlin, Peter Lang : 195-210.

Lerner, G. H. (2002). Turn-sharing : the choral co-production of talk-in-interaction, in Ford, C., Fox, B. & Thompson, S. (eds) The language of turn and sequence, Oxford, Oxford University Press : 225-256.

Masseron, C. (1999). La concession, de la phrase au discours. Aspects linguistiques et didactiques, Thèse de doctorat, Université de Metz.

Moeschler, J. & De Spengler, N. (1982). La concession ou la réfutation interdite. Approches argumentative et conversationnelle. Cahiers de Linguistique Française Genève, (4), 7-36.

Morel, M.-A. (1980). Étude sur les moyens grammaticaux et lexicaux propres à exprimer une concession en français contemporain, Thèse de doctorat d’État, Université de la Sorbonne Nouvelle – Paris III.

Morel, M.-A. (1996). La concession en français. Paris : Ophrys.

 

Abandons syntaxiques dans différents types d’interactions ° Syntactic Disruptions in Various Types of Talk-in-Interaction

Hanna Strub and Swantje Westpfahl
Institut für Deutsche Sprache, Mannheim

The question on how to segment spoken language has been discussed in the literature in depth since the seventies (Sacks et al. 1978). Several approaches have been put forward in order to identify units of talk-in-interaction more recently (Auer 2010; Benzitoun et al. 2012; Selting 2005; Selting et al. 2009; Rehbein et al. 2004), but none of them are designed or were evaluated as tools for the usage in large scale corpora of spoken language. When it comes to consistent and exhaustive segmentation of transcripts of spoken language, either new ways have to be found or old ones have to be adapted with respect to the differences in the variety of talk-in-interaction and typical spoken language phenomena such as disruptions or self-corrections (Deppermann and Proske 2015).

In order to develop a tool for the large scale segmentation of a corpus of spoken German, here FOLK (Schmidt 2014), we created a subset of the data, i. e. a sampling of transcripts of various types of interactions. This comprises e.g. private interactions, public interactions, informal and formal interactions. All in all, this pilot corpus contains eleven types of interactions in thirteen transcripts with an average length of ten minutes.

We segmented and annotated this pilot corpus in various experiments with different linguistic approaches. One of the most promising ones for a possible future automation is the segmentation according to syntactic structures. Our syntactic segmentation is based on the identification of topological fields (Drach 1937; Pittner and Berman 2013; Wöllstein 2010), a widely known approach for the syntactic analysis of the German written language.

However, the segmentation of transcripts of German spoken language proves to be difficult for some typical spoken language phenomena, especially for disrupted talk. Hence it seems to be imperative to take a closer look into phenomena of disruption; more specifically, if and how they can be described in syntactic terms. Understanding the mechanisms of disruptions and their structures is a key to a consistent and reliable way of segmenting the data. The results of an inter-annotator agreement show that for the analysis of abandoned structures, the topological field model is in many cases insufficient. More specifically, we identified three main problems which pose a particular challenge for syntactic segmentation: (1) one-word-projections and disruptions on the word level (2) repetitions, self-corrections and changes of the syntactic structure, and (3) the lack of infinite and modal verbs. We will show the discrepancy between syntactic analyses and analyses from an interactional point of view.

We also analyzed the correlation of certain disrupted structures with the various types of interaction. This gives us an overview on the distribution of disruption phenomena for each type of interaction.

Results show that abandoned syntactic structures seem to be less frequent in expert talks and panel discussions than for example in table talk conversations, but also much more complex in terms of syntactic structures.

We expect that these findings allow us to draw conclusions with respect to the nature of disruptions in talk in general, where and in which types of interactions they occur, and how they can be represented in a syntactic segmentation and annotation approach based on the analysis of topological fields.

Références bibliographiques

Auer, P. (2010). Zum Segmentierungsproblem in der Gesprochenen Sprache. InLiSt - Interaction and Linguistic Structures, 49, 1-19.

Benzitoun, C., Sabio, F., Pietrandrea, P. & Kahane, S. (2012). Protocole de codage macrosyntaxique. Rhapsodie - corpus prosodique de référance en francais parlé.

Deppermann, A. & Proske, N. (2015). Grundeinheiten der Sprache und des Sprechens, in. Dürscheid, C. & Schneider, J. G. (éd.): Handbuch Satz, Äußerung, Schema, Berlin, De Gruyter : 17–47.

Drach, E. (1937). Grundgedanken der deutschen Satzlehre, Frankfurt am Main : Diesterweg.

Rehbein, J.; Schmidt, T.; Meyer, B.; Watzke, F. & Herkenrath, A. (2004). Handbuch für das computergestützte Transkribieren nach HIAT. Arbeiten zur Mehrsprachigkeit, 56.

Pittner, K. & Berman, J. (2013). Deutsche Syntax. Ein Arbeitsbuch. Tübingen : Narr.

Sacks, H.; Schegloff, E. A. & Jefferson, G. (1974). A Simplest Systematics for the Organization of Turn Taking for Conversation. Language, 50 (4), 696–735.

Schmidt, T. (2014). The Research and Teaching Corpus of Spoken German – FOLK. Proceedings of the Ninth conference on International Language Resources and Evaluation (LREC’14), 383-387.

Selting, M. (2005). Syntax and prosody as methods for the construction and identification of turn-constructional units in conversation, in. Hakulinen, A. & Selting, M. (éd.): Syntax and lexis in conversation: studies on the use of linguistic resources in talk-in-interaction, Amsterdam, Benjamins: 17–44.

Selting, M., Auer, P., Barth-Weingarten, D., Bergmann, J., Bergmann, P., Birkner, K. et al. (2009). Gesprächsanalytisches Transkriptionssystem 2 (GAT 2). Gesprächsforschung, 10, 353–402.

Wöllstein, A. (2010). Topologisches Satzmodell. Heidelberg : Winter.

 

Disfluences : réflexion autour de cas critiques pour la segmentation syntaxique et macrosyntaxique

Nathalie Rossi-Gensane*, Biagio Ursi**, Luisa Acosta Cordoba*, Margot Lambert*
ICAR – UMR 5191 (*Université Lyon 2 ; **ENS de Lyon)

La notion de disfluence, courante dans la description de la langue parlée, recouvre plusieurs phénomènes communément vus comme des « accidents de performance » (voir par exemple Deulofeu 2009) et caractérisés notamment par la perturbation de la progression syntagmatique, telles les amorces (des unités, majoritairement lexicales, sont produites à l’état de fragments, qui, parfois modifiés – le chimpanz- le chat – ou laissés inachevés – le chimpanz- –, sont le plus souvent complétés – le chimpanz- le chimpanzé) et les bribes (des unités, cette fois majoritairement grammaticales, sont répétées – le le le chat).

Le cadre aixois de micro et macrosyntaxe entend « traiter de la même façon des phénomènes apparemment involontaires comme bredouillages, hésitations, maladresses, reprises, et d’autres qui semblent intentionnels comme répétitions intensives, variations stylistiques et autres » (Blanche-Benveniste et al. 1990 : 20). À la suite de ses travaux, les disfluences ont été rangées, au sein du projet Rhapsodie[5] (voir Gerdes & Kahane 2009, Kahane & Pietrandrea 2012), dans les rapports d’entassements paradigmatiques concernant notamment des éléments « occup[ant] la même position régie » (Lacheret et al. 2011 : 4). En revanche, les disfluences sont exclues d’autres relations syntaxiques pouvant être vues comme étant également d’ordre paradigmatique (voir Rossi-Gensane 2017), dites d’équivalence dans le cadre théorique de la linguistique fonctionnelle, et s’établissant entre des éléments « qui se trouvent dans un même type de rapport vis-à-vis de leur point d’incidence » (Feuillard-Aymard 1989 : 122). Outre le statut parfois submorphémique des éléments impliqués, ceux-ci, même dans les cas où ils entretiennent sans conteste une même relation par rapport à un élément tiers, cf. le le le chat, ne peuvent en effet être analysés comme entretenant des relations entre eux : *le et le et le chat. Il est d’ailleurs à noter que, dans le cadre du projet ORFÉO[6], au contraire du projet Rhapsodie, « on ne met pas d’indication de liste en cas d’amorce de mot (des voya-) ou de répétitions (des des) » (Valli & Deulofeu 2014).

Nous souhaitons présenter une réflexion en cours, menée au sein du projet franco-allemand SegCor[7], dont l’objet est la segmentation multiniveau (en unités prosodiques, morphosyntaxiques mineures – chunks –, syntaxiques, macrosyntaxiques et interactionnelles) de corpus oraux en français et en allemand. Plus particulièrement, notre contribution porte sur la relation, pour le français, entre disfluences (ici, à l’intérieur d’un tour de parole) et segmentation syntaxique et, le cas échéant, macrosyntaxique[8]. Cette réflexion s’appuie sur une partie du corpus test, c’est-à-dire une sélection de données hébergées dans la plateforme CLAPI (Corpus de LAngue Parlée en Interaction)[9] du laboratoire ICAR à Lyon. Privilégiant une conception dite par Deulofeu (2009) de « linguistique du rattachement », qui « considère de bonne méthode d[e] limiter précisément le domaine [des abandons et des ruptures de constructions] » (2009 : 230), nous proposerons différents critères caractérisant les tours de parole disfluents : présence ou non d’un élément constructeur, présence d’éléments dans le contexte antérieur ou postérieur pouvant être mis en commun sur un plan syntaxique ou macrosyntaxique, présence d’un élément (par exemple, reformulatif) susceptible de matérialiser une frontière, etc. Ces critères permettront d’opter, selon les cas, pour un rattachement à ce qui suit, ou non, des disfluences (qu’il y ait, ou pas, répétition à l’identique). Sur un plan pratique, les décisions prises participeront de l’élaboration d’un guide d’annotation syntaxique au sein du projet franco-allemand SegCor.

Références bibliographiques

Apothéloz, D. (2008). Reformulations réparatrices à l’oral, in. Le Bot, M.-C., Schuwer, M. & Richard, É. (éds) La reformulation. Marqueurs linguistiques. Stratégies énonciatives, Rennes, Presses Universitaires de Rennes : 155-168.

Auer, P. & Pfänder, S. (2007). Multiple retractions in spoken French and spoken German. A contrastive study in oral performance styles. Cahiers de praxématique, 48, 58-84.

Blanche-Benveniste, C., Bilger, M., Rouget, C. & Van Den Eynde, K. (1990). Le français parlé. Études grammaticales. Paris : CNRS Éditions.

Candea, M. (2000). Typologie des pauses à travers le processus de formulation/auto-reformulation en français oral spontané, in. Anderson, P., Chauvin-Vileno, A. & Madini, M. (éds) Répétition, Altération, Reformulation, Actes du Colloque international 22-24 juin 1998, Besançon, Presses Universitaires Franc-Comtoises : 119-129.

Clinquart, A.-M. (2000). La répétition, une figure de reformulation à revisiter, in. Anderson, P., Chauvin-Vileno, A. & Madini, M. (éds) Répétition, Altération, Reformulation, Actes du Colloque international 22-24 juin 1998, Besançon, Presses Universitaires Franc-Comtoises : 323-349.

Deulofeu, J. (2009). Pour une linguistique du « rattachement », in. Apothéloz, D., Combettes, B. & Neveu, F. (éds) Les linguistiques du détachement, Actes du Colloque international de Nancy 7-9 juin 2006, Berne, Peter Lang : 229-250.

Feuillard-Aymard, C. (1989). La syntaxe fonctionnelle dans le cadre des théories linguistiques contemporaines. Thèse d’État, Université Paris V.

Fox, A. & Jasperson, R. (1995). A syntactic exploration of repair in English conversation, in. Davis, P. W. (éd.) Alternative Linguistics. Descriptive and Theoretical Modes, Amsterdam, John Benjamins : 77-134.

Gerdes, K. & Kahane, S. (2009). Speaking in piles. Paradigmatic annotation of a spoken French corpus. Proceedings of the 5th Corpus Linguistics Conference, Liverpool.

Henry, S. & Pallaud, B. (2004). Amorces de mots et répétitions dans les énoncés oraux. Recherches sur le français parlé, 18, 201-229.

Kahane, S. & Pietrandrea, P. (2012). La typologie des entassements en français, in. Neveu, F., Muni Toke, V., Blumenthal, P., Klinger, T., Ligas, P., Prévost, S. & Teston-Bonnard, S. (éds) Actes du 3ème Congrès Mondial de Linguistique Française – CMLF 2012 : 1809-1828.

Lacheret, A., Kahane, S., Pietrandrea, P., Avanzi, M. & Victorri, B. (2011). Oui mais elle est où la coupure là ? Quand syntaxe et prosodie s’entraident ou se complètent. Langue française, 170, 61-80.

Le Goffic, P. (2008). Phrase, séquence, période, in. van Raemdonck, D. (éd.) Actes du Colloque international Modèles syntaxiques, Bruxelles, 2003, Bruxelles, Peter Lang : 329-356.

Martinie, B. (2001). Remarques sur la syntaxe des énoncés réparés en français parlé. Recherches sur le français parlé, 16, 189-206.

Morel, M.-A. & Danon-Boileau, L. (1998). Grammaire de l’intonation : l’exemple du français oral. Paris : Ophrys.

Pallaud, B. (2003). Achoppements dans les énoncés de français oral et sujets syntaxiques, in. Merle, J.-M. (éd.) Le sujet, Paris, Ophrys : 91-104.

Pfeiffer, M. (2015). Selbstreparaturen im Deutschen. Syntaktische und interaktionale Analysen. Berlin, Boston : De Gruyter.

Rossi-Gensane, N. (2017). Syntaxe et paradigme(s) : outre les relations de dépendance, les relations d’équivalence. Signata, 8, 65-99.

Schegloff, E. A. (1979). The relevance of repair to syntax-for-conversation. Syntax and Semantics, 12, 261-286.

Valli, A. & Deulofeu, J. (2014). Guide de segmentation pour ORFÉO [http://www.projet-orfeo.fr/guides/].

[1] Les résultats du projet de recherche présentés ici, sont produits du projet : « Caracterización lingüística y sociolingüística del habla de Medellín », financé par le Comité para el Desarrollo de la Investigación (CODI) de l’Université d’Antioquia. Projet du Grupo de Estudios Sociolingüísticos, Acta CODI 714 novembre 2015, sous le code 2015-3965. Chef du projet : Dr. María Claudia González-Rátiva.

[2] Le corpus de TUFS est un corpus de conversations informelles entre étudiants, réalisé par Tokyo University of Foreign Studies, dans le cadre de deux projets de COE et d’un projet de KAKEN financés par le gouvernement japonais. Il contient actuellement au total 151 séances d’enregistrement, soit 130 heures de conversations à Aix-en-Provence, à Bordeaux et à Paris, dont 94 séances (75.5 heures) ont été transcrites.

[3] The French excerpts are issued from two databases: CLAPI (http://clapi.icar.cnrs.fr) and ESLO (http://eslo.huma-num.fr). On the German side, a similar study is realized on excerpts issued from FOLK (http://agd.ids-mannheim.de/folk.shtml).

[4] http://exmaralda.org/en/

[5] Corpus prosodique de référence du français parlé (ANR-07-CORP-030-01), 2008-2012, coordonné par A. Lacheret.

[6] Outils et Recherches sur le Français Écrit et Oral (ANR-12-CORP-0005), 2013-2017, coordonné par J.-M. Debaisieux.

[7] SEGmentation de CORpus oraux (ANR-15-FRAL-0004), 2016-2019, coordonné par V. Traverso (ICAR, Lyon) et T. Schmidt (IDS, Mannheim).

[8] Une recherche de la même sorte est conduite en parallèle du côté allemand.

[9] http://clapi.icar.cnrs.fr