Historici.nl

Gepubliceerd op 02-11-2015
Door Max Kemman
Avatar photo

Comprehensive corpora en text mining: nieuwe kritieken

In September was ik in Utrecht voor de workshop Beyond Methods of Mining, georganiseerd door het Asymenc project. Interessant aan deze workshop was dat het poogde de stap voorbij de methoden van Digital History te zetten, en te discussiëren wat nu de kwalitatieve uitkomsten zijn na data mining en big data. In deze blogpost ga ik in op een aantal van de problemen die aangekaart werden, en hoe data mining het vakgebied eigenlijk verandert.

Voor een volledig overzicht van de workshop, zie het verslag van Tessa Hauswedell.

Comprehensive corpora

Een belangrijke vraag die altijd bij discussies omtrent Digital History komt, is ten eerste wat de toegevoegde waarde nou precies is. Ian Gregory, die zijn werk omtrent het visualiseren van historische gegevens op kaarten toonde, kreeg de vraag waarom hij niet met een sample werkte wat handmatig verwerkt zou kunnen worden. Zijn antwoord hierop was kort maar krachtig: hij zou dan minder vertrouwen hebben in het resultaat. Het gebruik van een compleet corpus heeft als voordeel dat het comprehensive is.

De volgende vraag is dan natuurlijk hoe comprehensive zo’n comprehensive corpus dan is. Veel presentaties richten zich op corpora van kranten. Zo is de kranten database van de KB, beschikbaar via www.delpher.nl bijvoorbeeld een geliefd corpus, waar ook Ngram analyse op kan worden gedaan. Los van hoeveel er dan al gedigitaliseerd is en wat voor selectiemethode hier aan voorafgaat, kwam in de presentatie van Paul van Trigt de vraag in hoeverre kranten een representatie en onderdeel van het verleden zijn. Is het verleden niet meer dan wat journalisten publiceren? Wat voor soort bronnen zouden nog meegenomen moeten worden om meer comprehensive te zijn?

Comprehensive onderzoeksresultaten

Een groter probleem bleek echter het taalkundige aspect. Tijdens de verschillende discussies bleek dat een groot probleem van longue durée onderzoek met big data (zoals zo aardig voorgesteld in The History Manifesto) de vraag is in hoeverre taal verandert in de loop der jaren. Betekent een term in een krant in de jaren 50 hetzelfde als dezelfde term in de jaren 90? En zijn er niet andere termen die naar hetzelfde fenomeen verwijzen langsgekomen in de decennia? Dit maakt onderzoek op grote datasets over langere tijd zeer lastig, en hoewel de dataset zelf dan wellicht comprehensive is, geldt dit wellicht niet voor de resultaten van een specifieke analyse. Dit leidde ook tot een discussie over de rol van positivisme en structuralisme in Digital History, wat in blogposts van Seth Largo (die de workshop volgde op Twitter) en James Baker ongetwijfeld beter is uitgewerkt dan ik hier zou kunnen doen.

Hermione Giffard gaf in haar afsluitende presentatie als laatste nog een probleem: dat de informatica-waarde van simpele oplossingen historisch onderzoek te veel zou beïnvloeden. Om een tool zo simpel en bruikbaar mogelijk te maken, wordt de werking van de tool verborgen voor de gebruiker, een zogenaamde black box, waardoor de gebruiker niet meer vat heeft op hoe resultaten gegenereerd worden. Het probleem hiervan was volgens haar dat dan geanalyseerd wordt wat de computer kan analyseren, waardoor de informatica als het ware de onderzoeksagenda voor historici vast legt.

Nieuwe methoden, oude problemen?

Al met al lijken er dus nog aardig wat haken en ogen aan Digital History te zitten. Maar zijn deze problemen nieuw? Henk van Looijesteijn noemde digitale databases eerder op deze site “oude wijn in nieuwe zakken“. Ook Jane Winters, die de keynote verzorgde, gaf toe dat Digital History voortborduurd op cliometrics van de jaren 70. Zoals de mogelijkheden en methoden van Digital History wellicht niet allemaal even nieuw zijn, zo werd duidelijk dat in ieder geval de problemen niet nieuw zijn. Hoewel wellicht de claims van een comprehensive corpus met comprehensive resultaten nog niet waargemaakt kunnen worden, is dit geen nieuw probleem;  bronnenkritiek was en blijft essentieel voor historisch onderzoek. Dat bij zoekmachines en visualisatietools het niet altijd inzichtelijk is hoe deze werken is wellicht ook geen nieuw probleem; het denkwerk van de archivaris blijft eveneens meestal verborgen voor de historicus. Het voordeel is wel dat dergelijke tools makkelijker open te breken zijn dan de hoofden van archivarissen, en dit vraagt dan ook om een nieuwe vorm van kritiek naast de bronnenkritiek: algoritmische kritiek.

Digitale competentie?
Door Ilja Nieuwland
Digitaal is normaal
Door Wouter Daemen
Historici en onderzoekscommissies: een gelukkig huwelijk?
Door Anne-Marie Mreijen
Historici.nl
Het KNHG is de grootste organisatie van professionele historici in Nederland. Het biedt een platform aan de ruim 1100 leden en aan de historische gemeenschap als geheel. Word lid van het KNHG.
Historici.nl
Het Huygens Instituut beoogt de Nederlandse geschiedenis en cultuur inclusiever maken. Het ontsluit historische bronnen en literaire teksten en ontwikkelt innovatieve methoden, tools en duurzame digitale infrastructuur.