Rëndësia e drejtshkrimit
Së shpejti, në drejtshkruaj.com, do të mund të shkruani shqip, pa gabime. Aplikacioni që do të na mundësojë ta drejtshkruajmë* shqipen është rezultat i një pune disavjeçare. Tani për tani, ky aplikacion përmban rreth 2 milionë fjalë-përdorime të ndryshme morfo-sintaksore me mbi 700 mijë fjalëforma të veçanta. Për të dhënë përgjigje sa më të qëlluara, ky aplikacion ndihmohet po ashtu edhe nga modele të tjera kompjuterike, të cilat janë të trajnuara me inteligjencë artificiale në një korpus të larmishëm me rreth 2.5 milionë fjali të përzgjedhura.
Megjithatë, ende mbetet punë për t'u bërë.
Nëse mendoni se mund të na ndihmoni,
ju lutem na
shkruani!
    Para disa viteve, pasi pata mbaruar studimet për gjuhësi të përgjithshme në Departamentin e
Gjuhës Angleze, fillova studimet e doktoratës për gjuhësi në Universitetin e Prishtinës. Studimet
dëshiroja
t’i thelloja në dy fusha të tjera për të cilat isha i interesuar asokohe: neurogjuhësi dhe
gjuhësi
kompjuterike. Mirëpo, për shkak të kushteve dhe rrethanave në vendin tonë, entuziazmi që
kisha për këto fusha shpejt m'u kthye në zhgënjim.
    Gjërat filluan të ndryshonin për të
mirë kur m'u dha mundësia t’i vazhdoja studimet në Humboldt të Berlinit. Porsa mbërrita në
kryeqytetin gjerman, zgjodha lëndët dhe profesorët më të njohur të fushave në fjalë, të merrem
me
shqipen nuk është se më kishte shkuar mendja ndonjëherë deri në këtë pikë. Mirëpo, e tëra filloi
të
ndryshojë një ditë kur pasi përfundova ushtrimet e gjuhësisë kompjuterike në shkollën “Mendja
dhe
truri”, m'u desh të merrja trenin për të mbërritur te ligjërata tjetër që do të mbahej fill më
pas,
ajo e psikogjuhësisë. Sapo arrita në vendin ku do të mbahej ligjërata, kuptova që ajo ishte
zhvendosur për më vonë në një vend tjetër për shkak të punimeve që kishin filluar në atë
ndërtesë.
Në atë kohë, në Institutin e Sllavistikës në Berlin, po mbahej një seminar për korpusin e
gjuhëve
ballkanike ku ishte përfshirë edhe shqipja, dhe meqë ishte shumë afër, hëpërhë vendosa të shkoj.
    Me të mbërritur në hyrjen e sallës ku po mbahej seminari, vura re që tryezës në formë të
shkronjës
U, çuditërisht i ishin populluar vetëm krahët, kurse harku i kishte mbetur i zbrazët.
Pjesëmarrësit
e seminarit ishin përfaqësues të fakulteteve të gjuhëve nga Serbia, Bosnja dhe Hercegovina, Mali i Zi, Shqipëria dhe
Kosova,
disa prej të cilëve edhe i njihja. Meqë zyrtarisht nuk isha pjesë e atij seminari, vendosa të
ulem në
mes të harkut të tryezës U, aty ku s’ishte ulur njeri. Seminari filloi me prezantimin e
pjesëmarrësve. Më vonë, gjatë paraqitjeve të të arriturave akademike e profesionale, fillova të
kuptoj që për shqipen nuk kishte çfarë të flitej e paraqitej aty, ani pse disa nga pjesëmarrësit u
munduan në të tyren. Mua, si shqiptar shqipfolës që u gjenda aty papandehur, më kaploi një lloj
sikleti i papërshkrueshëm, jo aq shumë nga paraqitjet e të arriturave për shqipen, sa nga pëshpëritjet përqeshëse që dëgjoja nga krahu tjetër i tryezës.
Ishte
ky çast dhe ditët në vazhdim të atij seminari kur unë vendosa përfundimisht që gjithë
përkushtimin
tim aty e tutje do t’ia kushtoja shqipes, kësaj gjuhe të lënë pas dore.
    Shqipja, shpejt kuptova, ishte dhe vazhdon të jetë një nga gjuhët e Evropës me më së paku vegla
dhe
resurse në fushën e teknologjisë së gjuhës. Gjendja është e pakënaqshme për disa arsye.
Zhvillimet e
pakta që bëhen në këtë fushë janë dhe kanë mbetur krejtësisht vetjake dhe të paqasshme, dhe
gjithashtu ndër të tjera, mungesa e studiuesve të mirëfilltë që merren me këtë lëmi.
    Këto dhe shumë mungesa e pengesa të tjera më detyruan që shumicën e veglave dhe
resurseve teknologjike t’i zhvilloj nga e para. Kjo sigurisht që doli të jetë shumë më e
vështirë sesa e hamendësoja në fillim.
    Edhe pse shqipja është pjesë e familjes indoevropiane të gjuhëve dhe në
Mesataren Standarde Evropiane (SAE) hyn në mesin e tetë gjuhëve themelore, morfologjia e saj e
pasur dhe disa tipare të tjera dalluese e bëjnë atë të veçantë në vete. Po ashtu, kur marrim parasysh faktin që çdo zhvillim i
teknologjisë gjuhësore në vete kërkon kompromise, çështja ndërlikohet edhe më. Zgjidhjet
kompjuterike që mund të ofrohen duhet të jenë të ekuilibruara midis përshkrimit gramatikor
tradicional, sistemit të tanishëm gjuhësor, çfarë është kompjuterisht e mundur, kërkesave të
përgjithshme të standardit përkatës dhe zgjidhjeve të gjetura tashmë për gjuhët e tjera.
    Për të kapërcyer pengesa të kësaj natyre, si parim themelor kam ndjekur një algoritëm të
thjeshtë
dyjor (binar): nëse kam gjetur hulumtime dhe ngjashmëri për ndonjë çështje të caktuar në gjuhë të
tjera të zhvilluara tashmë; kam përshtatur, nëse nuk kishte asgjë të ngjashme, e që ka ndodhur
shumë
më shpesh; kam krijuar (shpikur zgjidhje).
    Për krijimin e veglave fillestare kam përshtatur specifikat e projektit ‘MULTEXT-East’, i cili
ofron
një themel të përshtatshëm me dokumentim të bollshëm dhe numër të madh të shembujve të
zgjidhjeve
nga gjuhë të ndryshme me tipare të ndryshme morfologjike.
Veçoritë morfo-sintaksore të këtyre gjuhëve, pjesë të projektit MULTEXT-East, ku tani bën pjesë
edhe shqipja, mund t’i shihni këtu:
https://github.com/clarinsi/mte-msd/tree/master/tables
Pas një pune jo aq të lehtë, në versionin e parë të publikuar tashmë, shqipja duket të ketë mbi
980 veçori(etiketa) morfo-sintaksore, numër i cili mund të ndryshojë në publikimet e radhës.
Shih: https://github.com/clarinsi/mte-msd/blob/master/tables/msd-human-sq.tbl
Nëse dëshironi të lexoni më tepër rreth projektit ‘MULTEXT-East’, vizitoni:
MULTEXT-East, Version 6 MULTEXT-East
Morphosyntactic Specifications
    Aplikacioni i drejtshkrimit të gjuhës shqipe është rrjedhim i mëvonshëm i punës së lartcekur.
Përpos leksikut të prodhuar sipas projektit MULTEXT-East, që tani për tani për shqipen numëron
rreth 2 milionë fjalë-përdorime të ndryshme morfo-sintaksore me mbi 700 mijë fjalëforma unike, për të dhënë përgjigje sa më të qëlluara, ky aplikacion ndihmohet po ashtu edhe nga modele të tjera kompjuterike, të cilat janë të trajnuara me inteligjencë artificiale në një korpus të larmishëm me rreth 2.5 milionë fjali të përzgjedhura.
    Përdorimi i këtij aplikacioni do të jetë shumë i thjeshtë. Mjafton të shkruhet
çfarëdo teksti shqip në kuti, dhe pasi të shtypet “Përmirëso” që ndodhet poshtë kutisë, do të
mund të gjenden gabime të mundshme drejtshkrimore. Si rrjedhojë, fjalët që nënvizohen me
ngjyrë të kuqe, janë fjalë që nuk janë pjesë e leksikut të gjuhës shqipe. Ta zëmë; s'ka mbiemër
'drejtëshkrimor' por ka 'drejtshkrimor'. Besueshmëria e modeleve kompjuterike për të gjetur
gabime të tilla është mjaft e lartë, mbi 98%. Ndërsa, kur fjalët nënvizohen me ngjyrë rozë i bie
që ato fjalë janë pjesë e leksikut të shqipes, por me gjasë gabime gramatikore. P.sh.; jo “ai do
të punoj” por “ai do të punojë”, megjithatë, sikurse ‘punoj’ ashtu dhe ‘punojë’ janë pjesë e
leksikut. Besueshmëria e tanishme e këtyre rasteve është e kënaqshme, mbi 78%. Kur fjalët i
gjeni të nënvizuara me ngjyrë të verdhë, kjo nënkupton se ka mëdyshje të modeleve kompjuterike
për të vendosur nëse fjala e nënvizuar është gabim gramatikor apo jo, besueshmëria është rreth
64%. Arsyeja e rënies së saktësisë në gjetjen e gabimeve të tilla gramatikore, sidomos në rastet
e nënvizuara me ngjyrë të verdhë, ka të bëjë me trashëgimin e gabimeve nga të dhënat mbi të
cilat janë trajnuar këto modele kompjuterike. Edhe pse është treguar kujdes i veçantë në
përzgjedhjen e këtyre të dhënave, prapëseprapë në internet dhe gjithandej, tani për tani, ka më
tepër tekst digjital me gabime drejtshkrimore sesa pa to. Gjendja synohet të përmirësohet me
hyrjen në përdorim të këtij aplikacioni.
    Poshtë kutisë së tekstit, po ashtu, mund të gjendet
edhe tasti apo butoni ‘Shqipëro’. Pasi të shtypet ‘Shqipëro’, të nënvizuara me ngjyrë të kaltër
do të gjenden fjalët e huaja apo barbarizmat, e që në shumicën e rasteve mund të jenë tërësisht
të zëvendësueshme me ndonjë fjalë shqipe që sugjerohet nga modeli. Dhe për fund, për ata që
dëshirojnë të mësojnë më tepër rreth zbërthimit morfo-sintaksor të fjalëve në fjalitë e dhëna në
kuti, mjafton të shtypet ‘Shpjego’, dhe më pas do të mund të klikohet mbi çdo fjalë për të parë
shpjegimin morfo-sintaksor në kontekstin e dhënë, të bazuar në specifikat e projektit
‘MULText-East’. Edhe mbrapa kësaj veçorie qëndron një model i trajnuar me inteligjencë
artificiale besueshmëria e të cilit kalon mbi 91%.
    Qëllimi përfundimtar është që ky aplikacion të përparohet edhe më, dhe pastaj të lëshohet në përdorim fillimisht si aplikacion në ueb, ku do të ofrohet pa pagesë për të gjithë ata që shqipen duan ta shkruajnë me sa më pak gabime, me një kufizim të arsyeshëm ditor të numrit të fjalëve që mund të përmirësohen, e pastaj edhe në platforma të tjera.
    Së fundmi, këtij qëllimi i janë bashkuar edhe profesionistë të tjerët të fushës së gjuhësisë dhe shkencave kompjuterike, por ende mbetet punë për t'u bërë.
    Nëse mendoni se mund të na ndihmoni në çfarëdo mënyre, ju lutem na shkruani!