PN-III-P4-ID-PCE-2016-0826 – Rezumat

După lansarea cu succes, în acest an, a primei baze de date lexicale și a interfeței de redactare pentru Dicționarului limbii române informatizat (DLRi), a devenit imperios necesară crearea unui corpus lingvistic de mari dimensiuni în scopul rafinării sensurilor și pentru extragerea citatelor necesare articolelor din dicționar. Astfel, DLRi urmează să devină primul mare dicționar electronic al limbii române, deschis publicului, la 110 ani de la începuturile elaborării sale. ROMTEXT, un corpus electronic de texte al limbii române din secolele XVI-XXI, își propune, așadar, să răspundă atât nevoii de publicare pe Web a unui corpus adnotat, datat și evolutiv pentru limba române (operă încă inexistentă în cultura noastră), cu multiple utilizări în diverse arii ale lingvisticii tradiționale și computaționale, cât și nevoii de sprijin pentru lexicografii angajați în redactarea DLRi. ROMTEXT reunește rezultatele din proiectul CNR. Corpus de referință al limbii române pentru constituirea de dicționare academice, proiect finanțat de CNCSIS între 2007-2008 și condus de Monica Mihaela Busuioc. Mai mult, ROMTEXT va disponibiliza publicului și cercetătorilor, pe parcursul derulării proiectului, cel puțin 500 de opere de referință ale literaturii române. Astfel, sperăm să atingem un număr semnificativ de ocurențe ale formelor de bază pentru a realiza, pentru prima oară la noi, analize de frecvențe aplicate marilor corpusuri. În plus, vom aplica corpusului un sistem de datare, dar și de clasificare a operelor, permițând cercetătorilor, prin interfața DLRi, să relaționeze un anumit citat cu contextul de unde acesta provine. ROMTEXT nu va lua în considerație operele lexicografice care integrează deja un alt corpus complementar: CLRE. Corpus lexicografic românesc esențial. 100 de dicționare din Bibliografia DLR aliniate la nivel de intrare și la nivel de sens, elaborat de Institutul de Filologie Română „Al. Philippide” din Iași.