Pretraga

Zagrebački FER izvozi znanje: Za pravopisnu aplikaciju oštro ‘zagrizli’ Francuzi

A- A+

Mrežni pravopisni provjernik Hascheck već 20 godina je u javnoj uporabi, a interes za korištenjem te aplikacije uopće ne opada, štoviše uskoro će mu se proširiti broj konzumenata. Naime, djelo znanstvenika i studenata sa zagrebačkog Fakulteta elektrotehnike i računarstva zamijetile su dvije francuske znanstvene institucije te iskazale želju za suradnjom na novom projektu, gdje bi oni uložili svoju strojnoprevodilačku platformu te ju upotpunili Hascheckovom bogatom bazom podataka. Kakvu korist od toga imaju Francuzi, a kakvu vlasnici hrvatskog pravopisnog provjernika, otkriva nam profesor s FER-a i jedan od Hascheckovih tvoraca Šandor Dembitz.

Screenshot: Hascheck

Mrežni pravopisni provjernik Hascheck je aplikacija koja je već 20 godina u javnoj uporabi, a brojka od osam tisuća tekstova, koliko otprilike obradi dnevno, mogla bi rasti. Naime za ovaj projekt znanstvenika i studenata FER-a, zainteresirali su se GETALP (Groupe d’Etude pour la Traduction Automatique et le Traitement Automatisé des Langues et de la Parole) sa Sveučilišta Joseph Fourier u Grenobleu i INaLCO (Institut National des Langues et Civilisations Orientales) iz Pariza. Naime trenutno je provjernikom Hascheck, moguće ispravljati pravopisne pogreške iz hrvatskih i engleskih tekstova, a Francuzi bi htjeli tome dvojcu priključiti i svoj jezik. Ulažu svoju strojnoprevodilačku infrastrukturu, a trebaju bogatu i stalno dopunjavanu bazu hrvatskih riječi i sintagmi.

Izdvojeni članak

Najčešće pravopisne pogreške


Princip funkcioniranja Haschecka i njegovo stalno unaprijeđivanje

Osim bogatog početnog korpusa riječi i sintagmi hrvatskog jezika unutar ove aplikacije, kvaliteta Haschecka je i u njegovoj stanoj nadogradnji. – Mrežni pravopisni provjernik Hascheck napravljen je početkom 90-godina prošlog stoljeća. U javnoj je uporabi od 21. ožujka 1994. i namijenjen je svima koji žele provjeriti svoje tekstove prije objavljivanja. Za razliku od konvencionalnih pravopisnih provjernika, Hascheck uči nove riječi, odnosno njihove oblike iz tekstova svojih korisnika. Jedan od oblika učenja je i kreiranje hrvatskog n-gramskog sustava, to jest statističkog opisa kako se riječi iz Hascheckova rječnika slažu u nizove duljine n. Osnovni n-gramski sustav (n = 1, 2, …, 5) prikuplja se od svibnja 2007. i trenutno obaseže 1,3 milijarde zapisa, što ne treba čuditi budući da Hascheckov rječnik sadrži preko 2 milijuna različnica, a korpus iz kojega je osnovni sustav izveden premašuje 2 milijarde pojavnica. Pored osnovnoga sustava, od siječnja 2013. prikupljamo i n-gramski sustav višega reda (n = 4, 5, …, 7), koji počiva na korpusu od milijardu pojavnica i obaseže 735 milijuna zapisa. Ova infrastruktura nužna je podatkovna podloga za razvoj najsloženijih jezičnotehnoloških aplikacija kao što su prepoznavanje govora i strojno prevođenje, rekao nam je profesor Dembitz.

Kakvu korist od udruživanja imaju Francuzi, a kakvu mi?

Naglasimo još jednom da je i nakon dva desetljeća javnog korištenja, vrijedna aplikacija Hascheck još uvijek besplatna. Profesor Dembitz nam pojašnjava da sitan iznos trebaju izdvojiti ljudi koji se njome koriste u profesionalne svrhe.

Stapanje znanja s dvjema uglednim francuskim institucijama, već je izvjesno te su trenutno u tijeku pripremne faze, a u punom pogonu zajednički projekt trebao bi započeti u siječnju naredne godine. No i nakon udruživanja aplikacija će isprva biti besplatna.

GETALP (Groupe d’Etude pour la Traduction Automatique et le Traitement Automatisé des Langues et de la Parole) sa Sveučilišta Joseph Fourier u Grenobleu i INaLCO (Institut National des Langues et Civilisations Orientales) iz Pariza, prepoznali su vrijednost hrvatske n-gramske infrastrukture i predložili su da je iskoristimo za brzi razvoj visokokvalitetnog sustava za strojno prevođenje s francuskog na hrvatski i obrnuto.

Oni u projekt ulažu svoj višedecenijski know-how u području strojnoga prevođenja i to je ponuda koja se ne odbija. Zamišljeno je da projekt traje dvije godine, odnosno 2015. i 2016. čisto volonterski, da vidimo što se u tom roku dade napraviti. Francuzima je u interesu da promoviraju svoj jezik putem tehnologije, dok je nama u interesu da podignemo razinu strojne prevodivosti hrvatskog s jednim od svjetskih jezika u paru. U osnovi se radi o pilot-projektu, koji, ako se pokaže uspješnim, može voditi prema komercijalnim rješenjima, pojašnjava nam Šandor Dembitz.

Izdvojeni članak

Nakon brojnih putovanja svijetom grupa prijatelja patentirala uređaj koji pritiskom na gumb prevodi s 25 jezika svijeta

Pravopisne pogreške koje najviše muče Hrvate

Profesor Dembitz nam govori i neke statističke podatke o funkcioniranju Haschecka. Naime, dnevno se oko osam tisuća tekstova obradi u aplikaciji, odnosno korpus od preko dva milijuna pojavnica.

Najčešći korisnici su novinari iz uredništava s kojima vlasnici imaju ugovore o suradnji.

Korisnike standardno muče -ije-/-je-, odnosno –č-/-ć- dvojbe. Pojedinačno gledano pak najčešće se griješi u pisanju pridjeva ‘sljedeći’, u koji se ubacuje dugi jat, odnosno u pisanju broja ‘četiri’, koji se često pojavljuje napisan onako kako se izgovara ‘četri’.

Naveli smo da su na ovoj korisnoj aplikaciji osim profesora, točnije Šandora Dembitza, Gorana Gledeca i Hrvoja Mihalića, radili i studenti. Neki su se svojim doprinosom ipak istaknuli od drugih.

– Brojni su studenti sudjelovali u razvoju Haschecka i svega što se oko njega događa kroz projekte, završne i diplomske radove. Ako već moram neke isticati, spomenut ću Renata Šoića kao ‘oca’ HascheckVoicea, sustava za strojnu tvorbu hrvatskoga govora, i Darija Baju kao ključnu osobu u razvoju sustava za strojno prepoznavanje hrvatskoga govora. Obojica su danas uspješni inženjeri u respektabilnim tvrtkama, zaključuje profesor Dembitz.