Latviešu rokrakstu manuskriptu pētniecībai un digitalizācijai platformā Transkribus tapis pirmais atvērtais teksta atpazīšanas modelis, kas būs noderīgs ikvienam, kurš strādā ar 19. gadsimta latviešu rokrakstu manuskriptiem.

Modeļa trenēšanā izmantoti Rīgas Latviešu biedrības Zinību komisijas krājuma materiāli, kas glabājas Latvijas Universitātes (LU) Literatūras, folkloras un mākslas institūta (LFMI) Latviešu folkloras krātuvē (LFK). Šis ir senākais un plašākais LFK krājums, kurā atrodami unikāli rokraksti, kas aptver dažādus folkloras žanrus, etnogrāfiskas ziņas, valodas materiālus, vietvārdu pierakstus, vārdu skaidrojumus un citas liecības par tradicionālo kultūru, dialektiem un Latvijas kultūrvēsturi. 

Modelis trenēts, izmantojot mākslīgā intelekta tehnoloģijas un iepriekš sagatavotus manuskriptu atšifrējumus, ko veikusi LFK brīvprātīgo līdzstrādnieku kopiena. Platformā Transkribus publicētā modeļa rakstzīmju kļūdu līmenis jeb CER ir 4,83%. Tas trenēts, izmantojot 2671 lappusi teksta, aptverot vairāk nekā 367 000 vārdu un 132 000 teksta rindu. 

Modelis tapis LU finansētā projektā ȬPEN jeb “Atvērtās zināšanu ekosistēmas sabiedriskās zinātnes attīstībai” (ZDA-LIP 2025/2). Tā izstrādē sadarbojas LU Humanitāro zinātņu fakultātes (HZF) Digitālo humanitāro zinātņu centrs, Latvijas Universitātes bibliotēka, Transkribus un LU LFMI Latviešu folkloras krātuve. 

“Šis modelis ir nozīmīgs solis latviešu rokrakstu mantojuma pieejamības paplašināšanā. Tas ne tikai paātrina manuskriptu atšifrēšanu, bet arī paver jaunas iespējas pētniecībai, digitālo kolekciju veidošanai un sabiedrības līdzdalībai kultūras mantojuma izzināšanā. Īpaši svarīgi, ka modelis ir relatīvi atvērts – ikviens reģistrētais Transkribus lietotājs to var izmantot savos projektos un turpināt uzlabot,” uzsver projekta vadītāja un LU HZF Digitālo humanitāro zinātņu centra vadītāja, asoc. prof. Sanita Reinsone

Darbs projektā turpinās ar 20. gadsimta latviešu rokrakstu teksta atpazīšanas modeļa izstrādi, kas vēl vairāk paplašinās automatizētas latviešu valodas rokrakstu atpazīšanas iespējas. 

Modelis ir pieejams platformā Transkribus ar nosaukumu “Latvian 19th century”. 

Vairāk par ȬPEN projektu 

Share