Ambiciozni projekt: Sprema se dinamični rječnik hrvatskog jezika koji će svima olakšati pisanje

Dobro smo upoznati da prevođenje nekog stranog jezika na hrvatski, i obrnuto, s Google prevoditeljem nije baš najpouzdanije. Rezultati često znaju biti loši, netočni, pa čak i apsurdni, dok prevođenje s njemačkog na engleski već daje pristojniji prijevod. Razlog za to je razvijenost dinamičkih rječnika spomenutih jezika koji u ovisnosti o kontekstu daju pravopisno i gramatički točan prijevod koji bez problema prenosi željenu poruku. Na osječkom Odjelu za matematiku, u suradnji s profesorom Mariom Essertom sa zagrebačkog FSB-a, radi se na izradi hrvatskog dinamičkog rječnika koji bi postavio hrvatski jezik rame uz rame ostalim europskim, ali i svjetskim jezicima. 

Odjel za matematiku je jedna od STEM sastavnica Sveučilišta J. J. Strossmayera u Osijeku te osim znanja iz matematike, stavlja naglasak na programiranje i primijenjenu matematiku. Takva vrsta pristupa uključuje matematičko modeliranje problema s kojima se svakodnevno susrećemo te nudi njihova potencijalna rješenja. 

Na jedan od takvih problema su naišli u društveno-humanističkim znanostima, a tiče se očuvanja hrvatskog jezika u računalnom svijetu izradom digitalnog rječnika. Svi veći svjetski jezici već imaju razrađene digitalne rječnike što se vidi iz spomenutog primjera s Google prevoditeljem, ali i brojnih drugih edukativnih sadržaja koje možemo pronaći na internetu. 

Ideja krenula pokretanjem kolegija Računalno jezikoslovlje

Nove hrvatske riječi zapozorje, oznak i bilješkinja: Pada li vam na pamet što znače?

Hrvatski digitalni rječnik je ideja profesora Maria Esserta s Fakulteta strojarstva i brodogradnje, Sveučilišta u Zagrebu, koji je vanjski suradnik Odjela za matematiku. Od 2017. na FSB-u je nositelj kolegija Računalno jezikoslovlje koji se upravo bavi primjenom matematičkih i statističkih znanja u računalnoj obradi hrvatskog jezika. Prve korake u izradi digitalnog rječnika je već napravio doktorand Marko Orešković s varaždinskog FOI-a u svom doktorskom radu, a na Odjelu za matematiku je trenutno u planu nadogradnja tog rječnika s oko 740.000 riječi. 

Uz suradnike iz Zagreba i Varaždina, Odjel za matematiku nije sam u tom poslu, već su ideju prepoznali i financirali osječko Sveučilište u obliku internog projekta “Računalom upravljano korpusno jezikoslovlje”  te Adris zaklada za projekt “Hrvatski jezik u računalnome oblaku svijeta”. Oba projekta pokrivaju različite aspekte izrade digitalnog rječnika koji će omogućiti sveobuhvatniju obradu hrvatskog jezika. 

 Hrvatski jezik je morfološki bogat jezik – svaka riječ ima niz različitih oblika zbog promjene po padežima ili vremenima. Također, ista riječ u različitom kontekstu može značiti različitu stvar, npr. Ona usta s klupe. U njegova usta ugradili su silikone. Dinamički rječnik može bez problema razabirati značenje riječi ovisno o kontekstu, objašnjava Domagoj Ševerdija, predavač na Odjelu za matematiku. 

Suradnja informatičara i jezikoslovaca u digitalnom analiziranju rečenica

Šeflja, kaciola i grabilica: Riječi s najviše sinonima u hrvatskome jeziku

Takav rječnik bi doveo do boljeg prepoznavanja fraza, ali i homonima, u hrvatskom jeziku, pogotovo kada radimo prijevod na neki strani jezik. Naime, tzv. strojno prevođenje ne bi gledalo svaku riječ zasebno, već bi analiziralo i susjedne riječi što bi znatno poboljšalo kvalitetu prijevoda. Trenutno, neke od popularnijih fraza na engleskom jeziku poput „piece of cake“ prevoditelji prepoznaju u nekim slučajevima, ali ako im zadamo cijele rečenice ili složenije izraze kao „it’s raining cats and dogs“ dobivamo doslovne, netočne prijevode. 

Osim prevođenja, digitalni rječnik bi omogućio detaljne analize riječi i rečenica. Primjerice, prepoznavanje vrsta zavisnih rečenica, pronalaska metonimija i metafora u tekstu te određivanje subjekta, predikata i objekta u rečenici. Za sve to, informatičari će trebati pomoć stručnjaka iz područja jezikoslovlja što služi kao dobra prilika za interdisciplinarnu suradnju. 

– Kad se tekst učita u sustav, korisnik dobiva informacije o greškama u sintaksi, vremenima, padežima. Sve greške mogu se automatski ispraviti. Sustav može složenu rečenicu rastaviti na zavisne i razumjeti njihove odnose. U prijevodu – sustav zna gdje treba ići zarez, u čemu svi često griješimoporučuje profesor Ševerdija, te se nada kako će se ovakav sustav moći iskoristiti i u razvoju novih i boljih edukativnih sadržaja. Npr. vježbe iz hrvatskog jezika gdje učenici moraju upisati pravilan oblik riječi ili spojiti parove riječi moći će dobiti svoj pouzdan interaktivan oblik. 

Trenutno je na redu velik posao nadogradnje digitalnog rječnika, a sredinom veljače su Sveučilište u Osijeku i Odjel za matematiku održali znanstveno-stručni skup „Hrvatski jezik u računalnome jezikoslovlju“ na kojem se dao pregled zanimljivih tema iz obrade hrvatskog jezika s aspekta jezikoslovaca i informatičara. Napredak ovog projekta možete pratiti, ali i isprobati na sljedećem linku.

Odgovori