Historici.nl

Gepubliceerd op 27-05-2015
Door Henk Looijesteijn
Avatar photo

Biografische Data Online

Als historicus doe ik vaak onderzoek naar personen in het verleden, zoals stichters van hofjes en andere liefdadige individuen, en ben ik een grootgebruiker van online biografische databestanden. Vandaar dat ik op 9 april 2015 als toehoorder aanwezig was bij de workshop Biographical Data in a Digital World, georganiseerd door het op de Vrije Universiteit gehuisveste biografische data-project. Historici, computationele taalkundigen en IT-deskundigen praatten daar over hun ervaringen en toonden hun projecten, hetzij door presentaties, hetzij door posters tijdens de lunchpauze. Opvallend vertegenwoordigd waren zware delegaties van de Zweedse en Zwitserse redacties van nationale biografische woordenboeken met respectievelijk vijf en drie aanwezigen.

Opening van de workshop

 

Biografische woordenboeken online

De presentaties vielen ruwweg uiteen in twee groepen: enerzijds ‘inhoudelijke’ presentaties van projecten die biografische informatie online beschikbaar maken, anderzijds ‘technische’ presentaties van datamining en visualiseringstechnieken. Zo werden bijvoorbeeld de Deutsche Biographie en Germania Sacra gepresenteerd. Grote en oude databestanden, waar generaties aan is gewerkt door historici en die nu geleidelijk aan online beschikbaar komen. Makers van biografische woordenboeken zijn uiteraard zeer geïnteresseerd in het online beschikbaar maken van hun materiaal, waarmee de reikwijdte van de lemmata aanzienlijk toeneemt, zowel onder onderzoekers als het grote publiek.

Het beste voorbeeld daarvan is de Oxford Dictionary of National Biography, aldus de keynote-spreker, de Australische professor Paul Arthur, onder andere verantwoordelijk  voor de digitalisering van het Australian Dictionary of Biography. De Oxford DNB is niet alleen een veelgebruikt wetenschappelijk hulpmiddel maar wordt ook veelvuldig geraadpleegd door het grote publiek, dat de biografieën blijkbaar voor de lol leest. Digitalisering van de DNB, zo legde Arthur uit, laat bovendien het leggen van allerlei verbanden toe, zoals het geven van thematische trefwoorden aan lemmata, waarmee belangstellenden worden gewezen op andere biografieën in categorieën die ze interessant vinden. In het concrete geval van de ADB zijn allerlei verbanden gelegd tussen de lemmata, bijvoorbeeld stambomen die lemmata van aan elkaar verwante Australiërs verbinden. Uiteraard maakt digitalisering het ook veel makkelijker om teksten te verbeteren en aan te passen. De ADB kijkt nadrukkelijk naar de Oxford DNB als voorbeeld, aldus Arthur. En de ADB zou weer goed kunnen dienen als voorbeeld voor andere biografische woordenboekprojecten, zou ik daaraan toe willen voegen.

Paul Arthur geeft zijn keynote speech

 

Nieuwe technieken

Andere presentaties betroffen vooral ‘technische’ onderwerpen, in het bijzonder technieken met betrekking tot datamining en tot visualisering van biografische gegevens. Zo presenteerden de Zweden Firas Dib en Simon Lindberg een techniek waarmee ze hopen career profile extraction, oftewel het verzamelen van data over hoe loopbanen zich ontwikkelen, mogelijk te maken. Daarbij gaan ze vooralsnog uit van de biografische lemmata op Wikipedia, waarbij ze hun programma willen laten zoeken naar woorden die verband houden met loopbanen, bijvoorbeeld woorden als werk of carrière.

Wat betreft visualisering werd een fraai voorbeeld gegeven door VU-promovenda Lonneke Geerlings, die liet zien hoe zij de onderlinge verbanden tussen de correspondenten van haar proefschriftonderwerp Rosey Pool (1905-1971), ooit lerares Engels van Anne Frank, visualiseert met gebruik van het programma Gephi. Die visualisering staat overigens ten dienste van de social network analysis die zij toepast op Pool’s netwerk van correspondenten.

Lonneke Geerlings visualiseert het netwerk van Rosey Pool

 

Kanttekeningen

De workshop was een zeer interessant kijkje in een onderzoeksveld dat volop in beweging is, maar als grootgebruiker van biografische data wil ik drie kanttekeningen plaatsen. Ten eerste viel mij op dat veel van deze technieken nog erg in ontwikkeling zijn: optische tekenherkenningstechnieken zijn nog niet altijd even betrouwbaar, en dus kun je nog niet blind varen op datamining in gedigitaliseerde oude drukken. Ik vraag me bovendien af of bijvoorbeeld het gebruik van Wikipedia wel zo geschikt is voor career profile extraction. Al zouden de resultaten statistisch betrouwbaar zijn, de bron blijft uit de aard der zaak voortdurend in beweging. En dan hebben we het nog niet eens over de vraag: welke Wikipedia? De Duitstalige Wikipedia is uitgebreider als het gaat om Duitse gegevens, de Engelstalige als het gaat om de Engelstalige wereld, terwijl andere taalgebieden soms nogal pover afsteken bij de grote cultuurtalen.

Ten tweede vroeg ik me af of deze technieken nu zoveel radicaal nieuws bieden. Visualiseringstechnieken laten prachtige plaatjes zien, en verduidelijken veel, maar voegt deze techniek iets toe aan de fundamentele kennisopbouw? Wellicht wel wanneer het om heel grote bestanden gaat, die menselijkerwijs niet meer te overzien zijn. Maar meestal blijft het historische handwerk, zoals het maken van een bestand van correspondenten van een bepaalde persoon, toch de hoofdmoot uitmaken. Visualisering werkt prachtig tijdens een presentatie of op een website, maar het is geen fundamenteel andere wijze van onderzoek doen. Oude wijn in nieuwe zakken, zo zou men kunnen zeggen – mooie zakken, daar niet van.

Ten derde vraag ik me af of in de digital humanities de nadruk niet erg eenzijdig ligt op het ontwikkelen van deze technieken, op de tools die ons in staat stellen bestaande databestanden op een nieuwe manier te ontsluiten. Ik zie graag dat grote tekstbestanden, zowel in druk als in handschrift, ontsloten worden via woordherkenning, en vind het prachtig om gegevens van een database te plotten op kaarten of andere visualisaties (wanneer deze technieken betrouwbaar zijn geworden). Maar vergeten lijkt te worden dat de historische, of in dit geval biografische, content moet worden ontsloten: al die aandacht op de gereedschappen is mooi, maar nieuwe data worden er niet mee verzameld.

Biografisch Portaal: oude wijn, nieuwe zakken

Nemen we het Biografisch Portaal als voorbeeld, dan zien we dat het daar grotendeels gaat om al eerder, en op een ‘non-digitale’ manier verzameld materiaal. Wederom oude wijn dus, in fraaie nieuwe zakken. Nu ben ik een warm voorstander en veelvuldig gebruiker van het Biografisch Portaal, maar is het materiaal dat daar nu in staat voldoende voor hedendaagse onderzoekers die op deze bestanden datamining technieken willen loslaten? Neem nu het Nieuw Nederlandsch Biografisch Woordenboek: begonnen in 1912 en afgesloten in 1937 biedt het een schat aan informatie. Maar vooroorlogse historici hadden vaak heel andere ideeën over wie het waard was om daarin te worden opgenomen dan moderne historici, en ook zijn de lemmata verre van systematisch ingericht en van zeer wisselende kwaliteit. Heel veel lemmata zwaar verouderd. Soms is er nu veel meer bekend over een bepaalde persoon (Spinoza), soms hebben de opvattingen over de betekenis van een persoon zich grondig gewijzigd (Jan Pietersz Coen). Tal van personen waar historici nadien onderzoek naar hebben gedaan staan er niet in. Denk aan Hermanus Verbeeck, die nu dankzij zijn autobiografie de ‘gewone man van de Gouden Eeuw’ bij uitstek mag heten, en die vaak wordt opgevoerd door sociale historici, maar die niet terug te vinden is in het Biografisch Portaal.

Kortom, wie werkt met de NNBW werkt met verouderd en onvolledig biografisch materiaal. Dat probleem kan alleen worden opgelost als men die tekortschietingen van de NNBW verhelpt door nieuwe biografische data te verzamelen. Een goed voorbeeld is het Digitaal Vrouwenlexicon, waarin in elk geval de onevenwichtigheid in man-vrouwverhoudingen van het NNBW is aangepakt. Het project was zo succesvol dat er zelfs een ouderwets boek van is gemaakt.

Het Vrouwenlexicon in gedrukte vorm

 

Gelukkig is er in Nederland nog voldoende materiaal voor het aanvullen van het Biografisch Portaal, en kan de wijnkelder nog aanzienlijk worden uitgebreid. Zo is er bijvoorbeeld de database met Nederlandse ondernemers in de 19de en 20ste eeuw, die nu nog alleen in te zien op de website van het IISG, maar zeker gelinkt moet worden aan het Portaal. Er zijn provinciale biografische woordenboeken die wachten op digitalisering en opname in het Portaal (bijvoorbeeld de in de jaren 1960-1970 gepubliceerde reeks Dit wienen ek Friezen), en er is de belofte van nieuw materiaal, zoals de database van hervormde predikanten van Fred van Lieburg die in het Portaal wordt geïncorporeerd.

Het gaat absoluut de goede kant op met het digitale aanbod van eerder verzamelde biografische content in Nederland. Hoewel een totale make-over van het NNBW in het voetspoor van het ADB en het Oxford DNB waarschijnlijk niet realistisch  is, zijn ze wel een lichtend voorbeeld zijn van hoe het ook kan. Het lijkt me niet onbelangrijk dat ook Nederlandse historici weer de wijngaard ingaan om de lacunes van het bestaande biografische materiaal op te vullen, en de nieuwe zakken ook eens nieuwe wijn kunnen bevatten.

 

Proceedings van de workshop zullen op 6 juli a.s. online worden gepubliceerd op http://www.biographynet.nl/. Men kan de conferentie ook zelf bekijken op Youtube: https://www.youtube.com/watch?v=vAypbzoUEw0&app=desktop.

Historici.nl
Het KNHG is de grootste organisatie van professionele historici in Nederland. Het biedt een platform aan de ruim 1100 leden en aan de historische gemeenschap als geheel. Word lid van het KNHG.
Historici.nl
Het Huygens Instituut beoogt de Nederlandse geschiedenis en cultuur inclusiever maken. Het ontsluit historische bronnen en literaire teksten en ontwikkelt innovatieve methoden, tools en duurzame digitale infrastructuur.