PROPREAU: tuntemattoman tekijän metsästys

Reima Välimäki

Vuoden alusta, ja toden teolla tänä syksynä, alkoi yksi Suomen Akatemian Digitaalisten Ihmistieteiden akatemiaohjelman rahoittamista konsortioista. Turun yliopiston kulttuurihistorian ja IT-laitoksen yhteishankkeessa tunnistetaan ja profiloidaan anonyymejä kirjoittajia tai kirjoittajaryhmiä antiikin ja keskiajan teksteistä.

Projektissa on kolme alahanketta, joissa tarkastellaan antiikin kielioppitekstejä, paavillisen kuurian dokumentteja sydänkeskiajalla sekä myöhäiskeskiaikaisia poleemisia tekstejä. Yhteistyötä tehdään ennen kaikkea Zürichin yliopiston Corpus Corporum -tietokannan, Monumenta Germaniae Historican sekä Wuppertalin yliopiston kanssa.

Tietokoneavusteisia menetelmiä hyödyntävä tekijäntunnistus on vakiintunut nykyajan tekstien, esimerkiksi verkkokeskustelujen tutkimukseen, ja sillä on myös rikosteknisiä ja tiedustelusovelluksia. Esimodernien tekstien tunnistuksessa menetelmät tekevät vasta tuloaan, ja ensimmäiset merkittävät tulokset ovat ilmestyneet aivan viime vuosina. Keskustelua käydään pääasiassa digital humanities -julkaisuissa.

Yksi Propreau-hankkeen tavoitteista onkin kuroa umpeen kuilua digitaalisten menetelmien ja alan vakiintuneiden julkaisukanavien välillä. Tarkoituksena on tehdä tietokoneavusteisista menetelmistä yksi väline lisää tutkijan työkalupakkiin, täydentämään kodikologian, paleografian ja sisältöanalyysin tuloksia.

Projektin toiminta-ajatuksena on, ettei kaikkien tarvitse osata kaikkea, eli hyvin toimivassa tutkimusryhmässä kukin voi keskittyä omaan erikoisalaansa. Kielen ja historian asiantuntijoiden ei välttämättä tarvitse alkaa opetella ohjelmointia, vaan projektin jäsenten taidot täydentävät toisiaan. Perinteisestä humanistisesta tutkimuksesta poiketen käytännössä kaikkea tehdään ryhmässä, ei yksin puurtaen.

Toinen ajattelun käänne, joka meidän humanistien pitää tehdä, on että meille rakkaista teksteistä tulee merkkijonoja. Me olemme tottuneet analysoimaan sisältöä, mutta usein koneoppimista hyödyntävässä tekijäntunnistuksessa kaikki sisältö häivytetään: sisältösanoista kuten substantiiveista, adjektiiveista tai verbeistä tulee vain sanaluokkien ja sijojen nimiä kantavia tageja. Kone ei opi mistä puhutaan vaan miten puhutaan. Kuulostaa hurjalta, mutta se mahdollistaa eri aiheita käsittelevien tekstien vertaamisen.

Humanistien tehtäväksi jää tehdä tulkinnat ja palauttaa kaikki mielenkiintoinen sisältö ja konteksti teoksiin ja tekijöihin.

Lisää:
DIGIHUM Akatemiaohjelma
PROPREAU -blogi
Turku BioNLP Group
Digin – Digitaalisen vuorovaikutuksen tutkijaverkosto