WikiLeaks en de journalistieke flessenhals

Druppel voor druppel vloeit via de journalistieke flessenhals nieuws uit de Wikileaks-documenten. Door de ontwikkeling van gebruiksvriendelijke online middelen voor text analytics zal dat journalistieke privilege op afzienbare termijn ten einde komen, voorspelt hoogleraar Antal van den Bosch. Dan zal elke geïnteresseerde aan de slag kunnen gaan met dit soort onderzoeksjournalistiek.

De WikiLeaks-organisatie, inmiddels goed voor een vast aandeel in het dagelijkse nieuws, heeft in de laatste paar maanden drastisch de koers omgegooid. Door de documentenkraan bijna dicht te draaien en innige verhoudingen aan te gaan met de gevestigde journalistiek is de organisatie van klokkenluidersite veranderd in een persbureau.

Die koerswijziging heeft geleid tot een enorm mediasucces, ook in Nederland. Het puikje van de nationale media kreeg de exclusieve beschikking over alle ambtsberichten van de Amerikaanse ambassade in Den Haag uit de grote zak Cablegate-documenten, en zette deze berichten op computers in een kamer die van internet is afgesloten.

Journalisten mogen in die ruimte hun onderzoekswerk doen, en er items of artikelen uit brouwen, druppel voor druppel. Dat die Hilversumse kamer is afgesloten van internet is veelzeggend. De documenten zijn nu in de veilige handen van de journalistiek. Het mes snijdt aan twee kanten. Met de documenten achter slot en grendel kunnen zaken gecheckt en personen beschermd worden met journalistieke zorgvuldigheid. De druppelsgewijze vrijgave op een NOS-website via de journalistieke flessenhals zorgt vervolgens voor een kleine maar verslavende dagelijkse dosis aandacht voor WikiLeaks-nieuws.

Teveel tekst
In de publieke opinie lijken de Iraqi War Logs en de Afghan War Logs, de andere twee grote stunts van WikiLeaks in 2010, alweer vergeten te zijn. Dat is tegen de verhoudingen in. Van het veelbesproken Cablegate zijn nog geen drieduizend documenten vrijgegeven. Tegelijk staan er meer dan honderd keer zoveel oorlogsberichten uit Irak en Afghanistan op de WikiLeaks website, 466.743 om precies te zijn. Dit zijn hoeveelheden die niet meer te bevatten zijn voor een gemiddelde lezer of zelfs de geoefende onderzoeksjournalist. Het is simpelweg teveel tekst. Met een gemiddelde lengte van zo’n honderd woorden per oorlogsbericht bevat het WikiLeaks-oorlogsarchief genoeg tekst om drie jaar de krant van voor tot achter te vullen.

Toen Wikileaks tegelijk met de Afghaanse oorlogsdocumenten ook een video vrijgaf waarin een groep burgers en journalisten werd beschoten vanuit Amerikaanse legerhelikopters, trokken die beelden alle aandacht. De berichtgeving naar aanleiding van de vrijgave van de honderdduizenden berichten beperkte zich vooral tot het geven van globale statistieken, en het herhaald tonen van de video. WikiLeaks voorzag de documenten van categorieën als ‘sectarisch geweld’ en ‘bermbom’, en de pers slaagde er zelden in om meer te produceren dan strakke infographics, gebaseerd op deze categorieën, die lieten zien dat verreweg de meeste doden in Irak burgerslachtoffers waren, en dat het dodelijk geweld in Irak piekte in 2006 en 2007.

Text analytics
De staafdiagrammen en hun analyses zijn typische voorbeelden van een belangrijke nieuwe trend in de onderzoeksjournalistiek: data journalism. In het gebruik van het woord data schuilt een probleem: veel van de beschikbare data is tekst, en tekst is veel minder makkelijk behandelbaar dan cijfers of categorieën. Om te beginnen kan de tekst in het Chinees of Arabisch zijn. Maar ook als de tekst Nederlands of Engels is, staat de vraag nog wijd open hoe je in al die tekst naar een verhaal kunt zoeken.

De journalist die precies wil weten hoeveel dodelijke kinderslachtoffers er gevallen zijn onder de burgerdoden in Irak zal meer moeten doen dan googelen op ‘child’, want dat levert alle duizenden artikelen op waarin kinderen genoemd worden, en niet noodzakelijk als dodelijk slachtoffer. Wat eigenlijk nodig is, is een informatielaag over iedere tekst heen, die in algemene termen weergeeft wat er aan belangrijke zaken in de tekst staan, ongeacht hoe dat in woorden werd gevat. Hoe macaber ook, oorlogsincidenten zijn net als weerberichten: ze zijn te vatten in een vast en klein aantal kenmerken zoals plaats, tijd, en het aantal doden en gewonden, eventueel uit te splitsen naar soldaten, politiemannen of burgers: mannen, vrouwen, of kinderen.

De technologie waarmee een tekst kan worden voorzien van een algemene informatielaag bestaat al enige decennia, de laatste jaren onder de naam text analytics. Ook in Nederland wordt er op verschillende universiteiten gewerkt aan deze technologie, en er is een bedrijfstak ontstaan die andere bedrijven helpt met het omzetten van grote hoeveelheden documenten naar hanteerbare en doorzoekbare databases. Ook grote mediabedrijven zetten text analytics in, maar net als bij WikiLeaks wordt de druppelmethode gehanteerd; met het oog op de mogelijke nieuwswaarde en concurrentiepositie worden belangrijke gegevens achtergehouden, en pas naar buiten gebracht als er artikelen over zijn geschreven.

Doe-het-zelf
Iedere wannabe journalist of blogger die op eigen houtje op zoek wil naar de geheimen van WikiLeaks moet op dit moment wel een dosis computervaardigheden en liefst ook wat vakkennis meenemen. Toch zal het naar verwachting snel gaan met de ontwikkeling van gebruiksvriendelijke online hulpmiddelen die de crowd, de duizenden geïnteresseerde leken die allemaal een beetje vrije tijd willen steken in wat graafwerk, in staat zal stellen om de enorme bergen informatie door te ploegen (zie bijvoorbeeld Dataists.com en Datablog van The Guardian). Onderzoeksjournalisten doen mee met deze trend, maar zullen niet meer de enigen zijn. De strijd tussen gecontroleerd druppelen uit de flessenhals en met z’n allen goudzoeken in grote gegevensstromen is losgebarsten.

Antal van den Bosch

Antal van den Bosch is hoogleraar 'geheugen, taal en betekenis' aan Tilburg University. Zijn onderzoek bevindt zich op het snijvlak van de kunstmatige intelligentie en de taalkunde. Zijn specialisatie is automatisch lerende systemen en taaltechnologie.

Alle artikelen van Antal van den Bosch op De Nieuwe Reporter.

  • Jeroen Bosman

    Interesant stuk. Twee vragen:

    Dataists.com waarnaar u verwijst schrijft juist dat de Afghan War Logs al gestructureerde informatie is. daar is dus die extra informatielaag niet nodig, toch?

    Kunt u voorbelden geven van succesvolle en betaalbare software voor die text analysis die al decennia bestaat?

  • Jeroen,

    De Iraqi en Afghan War Logs hebben een metadata-laag die Wikileaks heeft overgenomen, en die op grove categorieen de boel structureert. Het gaat bv. om het type incident, aantal slachtoffers, plaats en tijd. Verder bestaan de logs uit de volledige tekst van ooggetuigen (soldaten doorgaans) die niet is geanalyseerd op voorkomende namen van personen, locaties, organisaties en hun relaties. In die tekst schuilen belangrijke details.

    Software voor text analytics: er is meer dan ik hier kan opsommen, zie http://www.kdnuggets.com/software/text.html (scroll naar beneden voor goede open source text mining software), of google op “text analytics software” of “text mining software”. Wij gebruiken of testen geen commerciele software. We ontwikkelen zelf in Tilburg het een en ander (zie bv. http://ilk.uvt.nl/tadpole), maar dat zijn halfproducten die achtergrondkennis en knutselkennis vereisen.

  • hans willems

    L.s.,
    Beter is om nu alle reguliere newsproviders, nieuwsdiensten, actualiteitenrubrieken etc. op te doeken en verder te gaan op basis van WikiLeaks, immers de geschiedenis dient herschreven en het liefst niet door historici.
    hans willems

  • @Antal van den Bosch: Interessant, Antal, die text analytics! Lijkt me wel een vervolgverhaal waard. Een soort “how to” voor geïnteresseerde leken en journalisten … ?