ACQUIRING AND EXPLORING AN ORAL CONTEMPORARY SPOKEN ROMANIAN CORPUS FOR LINGUISTIC PURPOSE
(Alcătuirea și explorarea unui corpus oral de română contemporană vorbită din perspectivă lingvistică)
ROC-lingv
PN-III-P1-1.1-PD-2019-1029
2020 – 2022
Project financed by UEFISCDI. Contract number PD 173 ⁄ 2020
The aim of our project, “Acquiring and exploring an oral contemporary spoken Romanian corpus for linguistic purpose” (ROC-lingv), is to develop and explore new methods of acoustic analysis so as to innovate Romanian phonetics, an understudied domain within the national linguistic research program (Romanian is still not represented within the IPA illustrations). The ROC-lingv project aims to fill in this gap by providing an open access high quality oral corpus of contemporary standard Romanian. The proposal is twofold. The first part of the project focuses on recording, transcribing and aligning an oral speech corpus of contemporary standard Romanian for linguistic purpose. Both controlled (read speech) and spontaneous speech (monologues) will be accounted for. Data collection will be carried out at the phonetic laboratory within the “Iorgu Iordan – Al. Rosetti” Linguistic Institute. The second part of the project is dedicated to proposing a typology of relevant phonetic variation in Romanian. We will be looking at inter- and intra- speaker variability with respect to various reduction processes found in connected speech. This analysis opens up numerous discussions with respect to modelling gradient phonetic and phonological phenomena, leading to an in-depth study of linguistic variation and sound change. By making the corpus available to the general audience, one of the main scientific contribution of the ROC-lingv project is to provide modern resources for the study of Romanian, thus allowing linguistic comparisons with other Romance languages and opening new paths of research. This project can narrow the gap between advanced laboratory experiments conducted in foreign research facilities and what is currently done in Romanian phonetics by facilitating the start of modern analyses based on large corpora analysis.
The most representative result obtained in the ROC-lingv postdoctoral research project is the development of an open-access standard Romanian speech corpus, where the orthographic and phonological transcriptions are aligned to the audio recordings via TextGrids in Praat. This linguistic material represents an important resource for the study of the Romanian language in the context of Romance linguistics.
Proiectul “Alcătuirea și explorarea unui corpus oral de română contemporană vorbită din perspectivă lingvistică” (ROC-lingv) are ca scop dezvoltarea și explorarea unor metode noi de analiză acustică îndreptate către modernizarea cercetărilor fonetice din România (un domeniu slab reprezentat la nivel național, limba română nefiind încă inclusă în ilustrațiile IPA). Propunerea este structurată în două etape. Prima etapă este orientată către înregistrarea, transcrierea și alinierea corpusului oral. Vor fi captate atât pasaje de vorbire controlată, cât și spontană. Colectarea datelor va fi realizată în laboratorul de fonetică din cadrul Institutului de Lingvistică al Academiei Române „Iorgu Iordan – Al. Rosetti”. A doua etapă a proiectului este dedicată realizării unei tipologii a fenomenelor de variație fonetică din limba română contemporană. Variația inter- și intra- vorbitor va fi analizată în raport cu diferite mecanisme de reducere prezente în discursul spontan. Acest tip de analiză generează numeroase dezbateri în raport cu modelarea gradientă a transformărilor fonetice și fonologice, conducând la un studiu asupra variației lingvistice. Principala contribuție științifică a proiectului ROC-lingv constă în crearea și distribuirea unor resurse moderne dedicate studiului limbii române, facilitând astfel comparații lingvistice cu alte limbi romanice. Acest proiect poate reduce decalajul dintre cercetările fonetice experimentale efectuate în străinătate și ceea ce este realizat momentan în România. Acţiunea vizează creșterea aportului României la progresul Spaţiului European al Cercetării (ERA). Considerăm că dezvoltarea foneticii şi fonologiei va contribui la recuperarea şi depășirea decalajelor faţă de UE în sectorul de cercetare, dezvoltare şi inovare.
Cel mai semnificativ rezultat obținut în cadrul proiectului postdoctoral ROC-lingv este dezvoltarea și punerea la dispoziție în regim deschis a unui corpus oral de română standard, unde transcrierile ortografice și fonologice sunt aliniate la nivelul înregistrărilor audio prin intermediul TextGridurilor din Praat. Acest material lingvistic reprezintă o resursă importantă pentru studiul limbii române în contextul limbilor romanice.