O-STA

Prva aplikacija za oceno težavnosti besedila v slovenskem jeziku

V okviru projekta Za kakovost slovenskih učbenikov (KaUč - https://kauc.splet.arnes.si/) je nastala prva aplikacijo za oceno težavnosti besedil v slovenskem jeziku (https://orodja.cjvt.si/berljivost). Aplikacija je brezplačno dostopna javnosti, še zlasti je namenjena učiteljem, urednikom, novinarjem in drugim uporabnikom, ki se pri svojem delu srečujejo z oblikovanjem besedil za različne ciljne skupine. Aplikacija omogoča preverjanje in preurejanje besedil v obsegu do 5.000 znakov.

Predstavitev

Predstavitev aplikacije bo v petek, 16. 10. 2020, ob 10. uri v predavalnici 3 na Fakulteti za računalništvo in informatiko Univerze v Ljubljeni (Večna pot 113), do največ 10 udeležencev (!), istočasno pa bo dogodek potekal prek konference Zoom, na povezavi https://uni-lj-si.zoom.us/j/93937528914?pwd=QjVzbFhzZEdoZVVIdEwrdUxwSWowdz09

Kako deluje aplikacija?

Spletna aplikacija omogoča uporabniku, da vanjo prilepi svoje besedilo, ki ga aplikacija analizira in opozori na potencialne slabosti, ki bi lahko prispevale k manjši berljivosti besedila. Aplikacija uporablja v svetu pogosto uporabljene formule berljivosti, nekaj statistik vnesenega besedila in v svetu povsem nov pristop, ki temelji na zadnji generaciji metod umetne inteligence za razumevanje naravnega jezika. Večina uporabljenih formul za merjenje berljivosti je bila zasnovana za besedila v angleškem jeziku, na katerih je tudi umerjeno njihovo delovanje.

V projektu smo za slovenščino prilagodili deset v svetu najpogosteje uporabljanih mer berljivosti (npr. avtomatski indeks berljivosti ARI, LIX, indeks Coleman-Liau, mero Gobbledygook, Fleschova enostavnost branja itd.). Uspešnost desetih mer berljivosti ter osmih dodatnih kriterijev berljivosti smo prilagodili slovenščini tako, da smo jih najprej ocenili na veliki količini besedil iz petih skupin: otroških revijah, splošnih revijah, časopisih, tehničnih revijah in zapisnikih sej državnega zbora. Te skupine besedil imajo različne ciljne publike, zaradi česar uporabljajo različne stile pisanja, ki jih formule in kriteriji berljivosti zaznajo in ločijo. Dodatno smo mere in kriterije berljivosti umerili tudi na zbirki besedil iz več kot stotih trenutno veljavnih učbenikov in beril ter učbeniških gradiv iz korpusa Gigafida.

Razvili smo tudi več povsem novih mer berljivosti, ki temeljijo na zadnji generaciji globokih nevronskih mrež. Te so najprej naučene na ogromnih množicah besedil (več milijard besed, npr. celotna Wikipedija in besedila s spleta). Prednost nekaterih od razvitih metod je, da ne potrebujejo ročno pripravljenih množic za njihovo umerjanje, ampak delujejo tudi v jezikih z manj jezikovnimi viri, kjer takšne množice ne obstajajo. Na angleščini in slovenščini smo pokazali, da novo razvite mere v povprečju delujejo boljše od vseh obstoječih in da jih je enostavno prilagajati za nove jezike. Testirali smo več lastnosti novo razvitih mer in pokazali prednosti pred obstoječimi metodami. Predlagan pristop je povsem nov in je v postopku objave v kakovostni znanstveni reviji, istočasno pa je tudi že objavljen na prosto dostopnem portalu znanstvenih predobjav ArXiv.

Kje dostopati do aplikacije?

Razvito orodje za analizo berljivosti je prosto dostopno na strežniku Centra za jezikovne vire in tehnologije Univerze v Ljubljani na naslovu https://orodja.cjvt.si/berljivost. V nadaljevanju projekta bomo aplikacijo, glede na povratne informacije uporabnikov, še dopolnjevali in prilagajali potrebam in izsledkom novih raziskav.

Kdo je razvil aplikacijo?

Pri pripravi aplikacije je sodelovala interdisciplinarna skupina strokovnjakov iz Univerze v Ljubljani (Fakultete za računalništvo in informatiko, Pedagoške fakultete, Center za jezikovne viri in tehnologije), Inštituta Jožef Stefan in Univerze v Mariboru (Pedagoške fakultete). Razvoj aplikacije je vodil prof. dr. Marko Robnik-Šikonja s Fakultete za računalništvo in informatiko Univerze v Ljubljani.

Dodatne informacije in kontakt:

dr. Marko Robnik Šikonja, Univerza v Ljubljani, Fakulteta za računalništvo in informatiko, Marko.Robnik@fri.uni-lj.si

dr. Gregor Torkar, Univerza v Ljubljani, Pedagoška fakulteta, gregor.torkar@pef.uni-lj.si