NaijaSynCor

A CORPUS-BASED MACRO-SYNTACTIC STUDY OF NAIJA (NIGERIAN PIDGIN)

Financed by the Agence Nationale pour la Recherche (ANR), for 42 months (Starting : February 1st, 2017).
Principal Investigator: Bernard CARON (bernard.caron@cnrs.fr)

Aim of the project

NaijaSynCor (A Corpus-based Macro-Syntactic Study of Naija, aka Nigerian Pidgin) takes an exhaustive and in-depth look at the structure of Naija (Nigerian Pidgin) in Nigeria today. Spoken by educated Nigerians, it has been proved to develop in Lagos as a discrete language, separate from Nigerian English. This study proposes to assess whether this holds true for the rest of Nigeria where Naija is spoken by over 75 million speakers. It examines diachronic, diatopic, diaphasic, diastratic, and genre variation.

The project is a collaborative effort of two Nigerian leading experts on Naija (F. Egbokhare & C. Ofulue) and two research units that have proved their expertise in corpus annotation in previous programmes: Llacan, on lesser-described languages; Modyco, on the interaction of prosody and syntax in French and the development of large treebanks, and. The macrosyntactic framework developed in the ANR Rhapsodie project (Lacheret, Pietrandrea & Tchobanov 2014) has proved to be particularly efficient in dealing with the specificities of oral corpora, e.g. piles stacking, disfluencies, repetitions, discourse markers, overlaps, co-enunciation, false starts, self-repairs and truncations. This method is data-driven, inductive (the relevant units are identified through annotation) and modular.

The tools developed by the research team in these previous corpus study programs are robust and mature enough to focus on the linguistic problem posed by Naija: in its geographical and functional expansion, does Naija maintain its status as a discrete language, separate from Nigerian English, or does it undergo decreolization? While answering this question, the research programme aims at overcoming two remaining technological challenges, (i) automatic identification of illocutionary units based on intonation data as a parameter; (ii) building a parser integrating intonation data as a parameter.

Through the creation of a deeply annotated 500 Kw corpus, the project documents the emergence of Naija as a language at the national level, challenging existing theories of the development of creoles and languages in contact. Capitalizing on the latest developments in the area of corpus annotation, this innovative approach to the dynamics of contact and change in the areas of human behaviour and sociology of language will powerfully impact the methodology and technology of research on emerging languages.


Objectif du projet

NaijaSynCor, propose une étude exhaustive et approfondie la structure du naija (Nigerian Pidgin) parlé aujourd'hui au Nigéria. Il a été prouvé par Deuber (2005) que cette langue adoptée les Nigérians éduqués, s’est développée à Lagos comme une langue autonome, distincte de la variété d’anglais parlée au Nigéria. Ce projet se propose de déterminer par une étude diachronique, diatopique, diaphasique et diastratique si cela est vrai pour le reste du Nigeria où le naija est parlé par plus 75 millions de locuteurs. NaijaSynCor est le résultat de la collaboration entre deux éminents experts nigérians du naija (F. Egbokhare & C. Ofulue) et deux unités de recherche qui ont prouvé leur savoir-faire dans l’annotation de corpus dans de précédents programmes : le Llacan, dans l’étude de corpus de langues peu décrites ; le Modyco, dans l’étude de l’interaction de la prosodie et de la syntaxe en Français, et dans le développement de grands treebanks.

Le cadre macrosyntaxique développé dans un précédent projet financé par l’ANR (Rhapsodie, Lacheret, Pietrandrea & Tchobanov 2014) s’est avérée particulièrement efficace dans le traitement des spécificités des corpus oraux, par exemple les empilements, répétitions, marqueurs de discours, chevauchements, co-énonciation, disfluences, faux-départs, et troncations. Cette méthode est inductive, déterminée par les données (les unités pertinentes sont identifiées grâce à l’annotation) et modulaire. Les outils développés par les équipes de recherche dans de précédents projets sont suffisamment robustes et aboutis pour permettre à NaijaSynCor de se concentrer sur les problèmes linguistiques posés par le naija: dans son expansion géographique et fonctionnelle, maintient-il son statut de langue discrète, distincte de l’anglais du Nigéria, ou bien subit-il un processus de décréolisation ? Tout en répondant à cette question, le programme de recherche vise à surmonter deux défis technologiques : d’une part l’identification automatique des unités illocutoire en s’appuyant sur les paramètres prosodiques ; d’autre part la construction d’un parser intégrant les données prosodiques comme paramètre.

Grâce à la création d’un corpus finement annoté de 500 000 mots, le projet documentera l’émergence du naija comme une langue au niveau national, remettant ainsi en questions les théories existantes du développement des créoles et des langues en contact. Capitalisant sur les derniers développements dans le domaine de l’annotation de corpus, cette approche novatrice de la dynamique du contact et du changement dans les domaines du comportement humain et de la sociologie du langage impactera puissamment la méthodologie et la technologie de la recherche sur les langages émergentes.