Historici.nl

Gepubliceerd op 16-01-2012

Blog: Early Dutch Books Online: een pleidooi voor slordig en veel

Dit voorjaar werd de website Early Dutch Books Online gelanceerd, een initiatief om publicaties uit de vroegmoderne tijd digitaal te ontsluiten. Ruim 11.000 boeken werden op deze wijze beschikbaar gemaakt, zowel als plaatjes als als tekst.

 

Maar eind december verraste de Koninklijke Bibliotheek ons met het volgende persbericht:

 

“Zoals u wellicht weet, is er nogal wat kritiek geuit op de OCR (o.a. in een artikel in de NRC door Karel Berkhout). Nu is besloten het resterende projectgeld grotendeels te besteden aan de verbetering van de OCR en verder aan het oplossen van enkele bugs in de website. Het handmatig verbeteren van de OCR is erg arbeidsintensief en dus kostbaar. Er zal slechts een paar procent van alle boeken onder handen genomen kunnen worden. Er moet dus geselecteerd worden.”

 

 

De eerste vraag die opkomt is waarom de Koninklijke Bibliotheek zo paniekerig reageert op een krantenartikel. Als iemand volgende week in NRC Handelsblad schrijft dat alle boeken in sepia gepresenteerd moeten worden, is dat dan ook aanleiding voor de KB om het roer helemaal om te gooien?

 

Het presenteren van ‘vuile’ OCR (d.w.z. niet-gecorrigeerde, automatische karakterherkenning) hoeft namelijk helemaal niet zo’n probleem te zijn. In het aangehaalde NRC-artikel zegt iemand dat “één fout per tien pagina’s acceptabel is”. Maar hoewel het streven naar een dergelijke accuratesse de bibliothecaris een goed gevoel mag geven, is hij voor de onderzoeker maar heel beperkt van belang. Een voorbeeld is Google Books, dat wat betreft OCR-kwaliteit behoorlijk achterblijft bij het KB-project, maar waar inmiddels geen digitaal werkende historicus meer zonder kan.

 

Historische onderzoekers hebben vooral belang bij veel materiaal, of anders gezegd: een zo compleet mogelijk beeld van de literatuur uit een bepaalde tijd. Zo is de manier waarop de KB de digitale ontsluiting van kranten heeft opgezet methodologisch lastig, omdat er mondjesmaat nieuw materiaal wordt toegevoegd. Als onderzoeker kun je dus nooit een claim leggen op de compleetheid of de representativiteit van het corpus.

 

Daar komt bij dat veel van de problemen van ‘vuile’ OCR kunnen worden opgelost via slimme zoekfuncties. Een zogenaamde ‘fuzzy search’ neemt niet alleen het zoekbegrip, maar vult dat aan met soortgelijke woorden. Als de gebruiker zoekt op ‘hagepreek’ wordt ook het woord ‘liagepreek’ (het verwisselen van ‘h’ met ‘li’ is een veel voorkomende OCR-fout) gevonden. Als er dan toch geld bij het scannen van nieuw materiaal moet worden weggehaald, besteed het dan aan dergelijke technieken.

 

De enige manier waarop Early Dutch Books online echt nuttig kan zijn is door het nastreven van een zo groot mogelijke omvang van het corpus. Laat ons, de onderzoekers, de kwaliteit van het materiaal inschatten. En zolang het geheel redelijk doorzoekbaar is en we de oorspronkelijke pagina’s kunnen zien en lezen, is er niet echt een probleem.

 

Met andere woorden: luister naar onderzoekers, maak het in de eerste plaats een nuttig project, vermijd idealistische scherpslijperij en toon moed tegenover een pers die kennelijk ook niet altijd begrijpt waar dit type projecten voor dient. KB, toon ballen.

 

Ilja Nieuwland, Huygens Instituut voor Nederlandse Geschiedenis

Historici.nl
Het KNHG is de grootste organisatie van professionele historici in Nederland. Het biedt een platform aan de ruim 1100 leden en aan de historische gemeenschap als geheel. Word lid van het KNHG.
Historici.nl
Het Huygens Instituut beoogt de Nederlandse geschiedenis en cultuur inclusiever maken. Het ontsluit historische bronnen en literaire teksten en ontwikkelt innovatieve methoden, tools en duurzame digitale infrastructuur.