Geautomatiseerde handschriftherkenning, tools en archieven – Een verslag
Om historische tekstbronnen geschikt te maken voor digitaal gebruik, kan niet worden volstaan met het maken van een scan. Pas nadat de tekst op de scan machine-leesbaar is gemaakt, kun je er ook werkelijk iets mee; erdoor heen zoeken, de tekst analyseren, woorden classificeren of andere bewerkingen.
De strategieën om van digitale plaatje naar machineleesbare tekst te geraken zijn divers, variërend van volautomatische oplossingen (bijv. met behulp van Optical Character Recognition-software) tot het inzetten van een bataljon vrijwilligers om handmatig over te tikken. Automatisch vergt machinetijd, kent een hoog foutgehalte, maar is relatief goedkoop. Handmatig levert vaak kwalitatief hoogwaardige resultaten op, maar is relatief duur. De mix, zo zal in deze workshop blijken, biedt in sommige omstandigheden ook perspectieven.
Interactief en voorspellend
OCR-technologie wordt inmiddels op grote schaal toegepast bij het nader toegankelijk maken van gedrukte bronnen. Diensten als Delpher (www.delpher.nl) en Google Books (books.google.com) maken het inmiddels mogelijk om full-tekst door miljoenen kranten-, tijdschriften- en boekpagina’s te zoeken. Voor archiefmateriaal is dit anders: het gaat vaak om lastig, weinig eenduidig materiaal. Voor handgeschreven teksten –de Nederlandse archieven liggen hier vol mee – volstaat OCR-technologie niet.
Binnen het EU-project Transcriptorium (met als partners onder andere het Huygens ING, de Universiteit van Innsbruck en het Instituut voor Nederlandse Lexicologie) is drie jaar geëxperimenteerd met Handwritten Text Recognition (HTR). Deze technologie probeert interactief en voorspellend handgeschreven gedigitaliseerde teksten in machineleesbare teksten om te zetten. Op een workshop, gehouden op 27 november te Den Haag, werden de eindresultaten besproken én uitgeprobeerd, in een hands-on sessie rondom de transcriptietool Transkribus.
Resoluties
Véronica Romero (Universitat Politècnica de València) introduceert het Transcriptorium-project. Het doel was om innovatieve, efficiënte en kosteneffectieve oplossingen te ontwikkelen voor het indexeren, doorzoeken en transcriberen van historische handgeschreven tekstbronnen. HTR-technologie is ingezet om bij wijze van experiment tests te doen met handgeschreven materiaal van de Engelse filosoof Jeremy Bentham en auteur Jane Austen. De resultaten laten zien dat er al veel kan worden bereikt met HTR-technologie door het inzetten van prior knowledge methods, zoals layout-analyse, tekstregeldetectie en –extractie en “lexical and language modelling*.
Daarna worden door Ronald Sluiter (Huygens ING) de Resoluties van de Staten-Generaal geïntroduceerd. De Resoluties zijn een belangrijke bron voor historici die zich bezighouden met het politieke leven in de vroegmoderne Nederlanden. Een deel van de Resoluties omvat handgeschreven tekst, een ander deel is gedrukt. Voor het handgeschreven deel, zo legt Jesse de Does (Instituut voor Nederlandse Lexicografie) uit, is er binnen het Transcriptorium-project een pilot uitgevoerd om uit te vinden hoe dit soort materiaal middels HTR-technologie in machineleesbare tekst kan worden omgezet.
Schrikbarend
Het uitgangspunt was om na te gaan hoe deze set zich verhoudt tot de resultaten van andere sets, variërend van een word error rate (WER, percentage foutief omgezette woorden) van 33% tot 48%. De eerste resultaten waren schrikbarend: 68% van de woorden was incorrect! Na finetuning van de software, onder andere door de inzet van een trainingset, slaagde men erin de WER terug te brengen tot 40,4%. Het INL ziet nog allerlei mogelijkheden tot verbetering, bijvoorbeeld door het voeren van de HTR-software met allerlei “language modelling”-data.

Walter Ravenek (Huygens ING) vertelt hoe hij verschillende tools heeft uitgeprobeerd bij het nader ontsluiten van de gedigitaliseerde gedrukte Resoluties van Staten-Generaal. Een experiment met de Resoluties van de Staten-Generaal van 1725 laat zien hoe je volautomatisch, door toepassing van tools van onder meer de Stanford Natural Language Processing Group, gedigitaliseerde corpora beter toegankelijk kunt maken op onder meer datum, geografische locatie en personen.
Gedeeld platform
Günther Mühlberger (Universiteit van Innsbruck) introduceert de opvolger van het Transcriptorium-project: READ. READ staat voor “Recognition and Enrichment of Archival Documents”. Het drie-en-een half jaar durende Europese Horizon2020 project, met een budget van 8,2 miljoen euro, omvat een consortium van dertien universiteiten en archieven (waaronder de nationale archieven van Finland en Zwitserland). Het zal zich nog meer dan Transcriptorium richten op de toepassing van HTR-technologie bij het digitaal toegankelijk maken van archiefcollecties. Het gaat niet alleen om handgeschreven documenten, maar alle soorten documenten die men zoal in archieven aantreft. Het project richt zich nadrukkelijk op oplossingen die toepasbaar zijn voor grote hoeveelheden documenten. De bedoeling is om uiteindelijk een platform te bouwen dat als onderdeel van een gedeelde infrastructuur voor archieven, bibliotheken, onderzoekers en het publiek het mogelijk maakt om historische documenten te machineleesbaar te maken, te transcriberen en te verrijken.
READ gaat op basis van de Transkribus-tool verder bouwen aan een cloud-service waarin diensten worden aangeboden op het gebied van HTR, lay-out analyse, document understanding en language modelling. Spannend is dat er ook geëxperimenteerd gaat worden met automatische handschriftherkenning (“Famous Hands”). Gaan we op deze manier nog onontdekte Shakespeare-stukken terugvinden in de archieven? Tien archieven uit Europa en Australië hebben inmiddels al toegezegd testsets uit hun collecties in het project in te brengen.
Potentie
De workshop Automated Handwritten Text Recognition ging zo uiteindelijk over heel veel meer dan alleen het vol- of semiautomatisch toegankelijk maken van handgeschreven gedigitaliseerde bronnen. De slimme technologie om archieven beter te ontsluiten staat nog in de kinderschoenen, maar heeft wel de potentie in zich om de toegankelijkheid tot archieven en collecties revolutionair te verbeteren. Een van de grote uitdagingen is om oplossingen te ontwikkelen die relatief goedkoop zijn en kunnen worden geïntegreerd in het productieproces van massadigitaliseringsstraten. Steeds meer archieven hebben hun beschrijvingen – vaak op collectie- of subcollectieniveau – digitaal beschikbaar gemaakt, maar zelden reikt de toegang tot op het niveau van de individuele documenten, laat staan het doorzoekbaar maken van de content. Als er gedigitaliseerd is (naar schatting 8% van de archieven) dan gaat het vaak alleen om het online voorschotelen van een scan.
vaak alleen om het online voorschotelen van een scan.
Als we het aandurven om de beperkingen van de huidige technologie te accepteren, is het mogelijk om relatief kleine investeringen een enorme sprong te maken in het toegankelijk maken van de archieven. Het is een goed teken dat de experts op de workshops zich vooral bekommeren om de word error rate. Maar 40% fout kun je net zo goed zien als 60% goed.
Edwin Klijn (Nederlands Instituut voor Oorlogsdocumentatie)