Rapport från KTH om nationell talresursbank

Inventeringen har funnit 18 talresurser av olika slag som speciellt lämpliga för ett första steg i skapandet av en nationell resurs för talteknologi. Resurserna finns för närvarande utspridda på universitet, bibliotek, arkiv och andra myndigheter. Ingen av dem är direkt tillgänglig för talteknologiska standardmetoder, och den utveckling de kräver varierar i tidsåtgång från dagar till månader. Ett förslag om insamling och upprättande av processer som ett första steg presenteras tillsammans med ett förslag på långsiktig lösning.

De inledande resultaten av inventeringen var nedslående. De förväntade problemen med rättigheter och integritetshänsyn visade sig olösliga utan ny lagstiftning eller beslut på myndighetsnivå om att dela ut material utan att vara säkra på det juridiska läget i avsikt att tvinga fram förtydliganden. Genom fortsatta diskussioner med resursförvaltare och jämförelser med andra områden där man tacklat liknande problem kom ett antal dellösningar fram. De har gemensamt att de kringgår problematiken genom att inte tillgängliggöra rådata, utan olika former av derivat – till exempel analyser, modeller, och statistik – som är användbara inom talteknologi men ursprungliga datat i större eller mindre grad.  

Genom att processa taldatat kan man säkerställa att identiteten hos deltagarna skyddas, och genom att tillgängliggöra statistik och modeller baserat på datat kan man dra nytta av det utan att bryta mot upphovsrätten. På myndigheter som hanterar resurser som är relevanta ur ett talteknologiskt perspektiv kan man lägga till steg i de befintliga processerna som gör det möjligt att dynamiskt och fortlöpande dela information till en liten kostnad. Och genom att tillhandahålla verktyg som hjälper de som arbetar med taldata kan man dra nytta av att verktygen genererar data som en sidoeffekt. Av de 18 resurser som pekats ut handlar 9 om befintliga data, 1 om ett dataset som troligen kommer spelas in, och 8 om integrering i processer.

I enlighet med uppdraget presenteras dels en kort plan för hur KTH kan genomföra ett fortsättningsprojekt som inleder arbetet med att skapa talresursbanken, dels en rekommendation för talresursbankens framtida form. Till de viktiga observationerna hör att det finns en risk att talresursbanken får ett för stort fokus på den teknik som finns idag och tappar bort den exploderande teknikutveckling på området som förutspås av svenska och utländska regeringsutredningar, konjunkturinstitut, och branschföreningar. Det är av stor vikt att en nationell talresursbank stödjer framtida utveckling. Utöver att tillgängliggöra befintliga, statiska resurser behöver den därför tillhandahålla de mer varierande och omfattande dynamiska uppdaterade och aktuella taldata som krävs.