Verslag: Historische kranten als ‘big data’
Iedere historicus kent het digitale krantenarchief van de Koninklijke Bibliotheek Den Haag. Snel opzoeken wanneer een term voor het eerst in de kranten kwam, even kijken wat de dagbladen over een bepaald onderwerp schreven. De negen miljoen digitale krantenpagina’s uit de laatste vier eeuwen zijn een luxe voor Nederlandse historici. Zeker als je de via het Delpher-portaal beschikbare digitale boeken, tijdschriften, ANP-transcripties en handelingen van de Staten Generaal erbij optelt.
Dit soort enorme tekstuele datasets nodigen uit om ook op andere manieren te gebruiken dan om er alleen virtueel doorheen te bladeren. Geïnspireerd door methodes uit onder andere de corpuslinguïstiek en informatica heeft zich het vakgebied van de Digital Humanities ontwikkeld. Historici die daarin actief zijn proberen bijvoorbeeld via specifiek woordgebruik de verzuiling van de dagbladen in kaart te brengen, de invloed van de Verenigde Staten op Nederlandse publieke debatten te onderzoeken, of de veranderende betekenis van woorden door de tijd heen zichtbaar te maken. Daarbij ligt de focus niet op individuele artikelen, maar op de patronen die zichtbaar worden als de onderzoeker als het ware een stapje terug doet en honderden of duizenden documenten tegelijkertijd analyseert. ‘Big data’ wordt het genoemd met een modeterm die ook al is doorgedrongen tot de geschiedwetenschap. Of, net zo gangbaar in de Digital Humanities: ‘distant reading’.
De voorbeelden stammen van het symposium met de toepasselijke titel ‘historische kranten als “big data”‘, dat de KB op 24 maart had georganiseerd. Het symposium moest een onderonsje worden van de handvol onderzoeksgroepen die in Nederland werken met de datasets van de KB (naast de genoemde waren er nog vijf andere project-presentaties, zie hier voor een overzicht). Het werd een bijeenkomst die zonder veel moeite 150 belangstellenden trok. Dat zegt wel wat over de conjunctuur die digitaal geesteswetenschappelijk onderzoek momenteel bezit.
Het zegt ook wat over de centrale positie van de KB daarbinnen, die overigens zelf ruimhartig inging op de moeilijkheden rond het digitale krantenarchief. Iedereen die digitale analyses toepast op het krantencorpus loopt uiteindelijk tegen dezelfde problemen aan. De beperkingen van het corpus bijvoorbeeld: hoeveel zijn de patronen die je vindt echt waard, als je weet dat de foutmarge in de tekstherkenning (OCR) gemiddeld 20 procent is, of dat de representativiteit van het corpus bij acht procent van alle ooit verschenen kranten ligt. Denk daar maar eens over na als je de KB ngram viewer gebruikt.
Deze cijfers komen van de presentaties die KB-medewerkers zelf gaven over onder andere OCR-kwaliteit, copyrightkwesties en selectie van het corpus. Dat trouwens uit steeds meer historische kranten zal bestaan, zoals organisator en collectiespecialist Geschiedenis Huibert Crijns aankondigde. De komende jaren worden drie miljoen pagina’s aan het corpus toegevoegd, waaronder het naoorlogse archief van het Algemeen Handelsblad/NRC Handelsblad.
Voor de KB zelf diende de bijeenkomst zo eveneens een duidelijk doel. Voor de bibliotheek is voeling met onderzoekers van cruciaal belang: het wetenschappelijke gebruik van digitale collecties vormt een belangrijke rechtvaardiging voor de miljoenen die grootschalige digitalisering kost. Dan is het goed om te weten in welke data onderzoekers geïnteresseerd zijn, of welke functionaliteiten zij van portalen als Delpher verwachten.
De bijeenkomst paste daarmee in de steeds duidelijkere koers richting digitalisering die de KB de afgelopen jaren heeft ingezet. Er is een medewerker aangesteld die de contacten onderhoudt met wetenschappelijke gebruikers van KB-data (mede-organisator Steven Claeyssens), er is een onderzoeksafdeling – inclusief virtueel lab – waarmee vaak samen met onderzoekers wordt gewerkt aan verrijking of analyse van data. Sinds dit jaar biedt die afdeling plek aan een gastonderzoeker om gezamenlijk aan een specifiek digitaal onderzoek te werken. Daar maakt schrijver dezes momenteel dankbaar gebruik van.
Blijft alleen die titel van het symposium. Volgens de gangbare definitie van Mayer-Schönberger en Cukier spreek je nu juist pas van big data als je zoveel data hebt dat de (OCR-, representativiteits-) ruis er niet meer toe doet. Maar als we het toch zo veel over die ruis hebben – wat me ook heel nuttig lijkt – kunnen we dat ge-‘big data’ dan niet weer afschaffen?
Pim Huijnen (Universiteit Utrecht)
Zie hier een overzicht van alle sprekers en presentaties.