Druppel voor druppel vloeit via de journalistieke flessenhals nieuws uit de Wikileaks-documenten. Door de ontwikkeling van gebruiksvriendelijke online middelen voor text analytics zal dat journalistieke privilege op afzienbare termijn ten einde komen, voorspelt hoogleraar Antal van den Bosch. Dan zal elke geïnteresseerde aan de slag kunnen gaan met dit soort onderzoeksjournalistiek.

De WikiLeaks-organisatie, inmiddels goed voor een vast aandeel in het dagelijkse nieuws, heeft in de laatste paar maanden drastisch de koers omgegooid. Door de documentenkraan bijna dicht te draaien en innige verhoudingen aan te gaan met de gevestigde journalistiek is de organisatie van klokkenluidersite veranderd in een persbureau.

Die koerswijziging heeft geleid tot een enorm mediasucces, ook in Nederland. Het puikje van de nationale media kreeg de exclusieve beschikking over alle ambtsberichten van de Amerikaanse ambassade in Den Haag uit de grote zak Cablegate-documenten, en zette deze berichten op computers in een kamer die van internet is afgesloten.

Journalisten mogen in die ruimte hun onderzoekswerk doen, en er items of artikelen uit brouwen, druppel voor druppel. Dat die Hilversumse kamer is afgesloten van internet is veelzeggend. De documenten zijn nu in de veilige handen van de journalistiek. Het mes snijdt aan twee kanten. Met de documenten achter slot en grendel kunnen zaken gecheckt en personen beschermd worden met journalistieke zorgvuldigheid. De druppelsgewijze vrijgave op een NOS-website via de journalistieke flessenhals zorgt vervolgens voor een kleine maar verslavende dagelijkse dosis aandacht voor WikiLeaks-nieuws.

Teveel tekst
In de publieke opinie lijken de Iraqi War Logs en de Afghan War Logs, de andere twee grote stunts van WikiLeaks in 2010, alweer vergeten te zijn. Dat is tegen de verhoudingen in. Van het veelbesproken Cablegate zijn nog geen drieduizend documenten vrijgegeven. Tegelijk staan er meer dan honderd keer zoveel oorlogsberichten uit Irak en Afghanistan op de WikiLeaks website, 466.743 om precies te zijn. Dit zijn hoeveelheden die niet meer te bevatten zijn voor een gemiddelde lezer of zelfs de geoefende onderzoeksjournalist. Het is simpelweg teveel tekst. Met een gemiddelde lengte van zo’n honderd woorden per oorlogsbericht bevat het WikiLeaks-oorlogsarchief genoeg tekst om drie jaar de krant van voor tot achter te vullen.

Toen Wikileaks tegelijk met de Afghaanse oorlogsdocumenten ook een video vrijgaf waarin een groep burgers en journalisten werd beschoten vanuit Amerikaanse legerhelikopters, trokken die beelden alle aandacht. De berichtgeving naar aanleiding van de vrijgave van de honderdduizenden berichten beperkte zich vooral tot het geven van globale statistieken, en het herhaald tonen van de video. WikiLeaks voorzag de documenten van categorieën als ‘sectarisch geweld’ en ‘bermbom’, en de pers slaagde er zelden in om meer te produceren dan strakke infographics, gebaseerd op deze categorieën, die lieten zien dat verreweg de meeste doden in Irak burgerslachtoffers waren, en dat het dodelijk geweld in Irak piekte in 2006 en 2007.

Text analytics
De staafdiagrammen en hun analyses zijn typische voorbeelden van een belangrijke nieuwe trend in de onderzoeksjournalistiek: data journalism. In het gebruik van het woord data schuilt een probleem: veel van de beschikbare data is tekst, en tekst is veel minder makkelijk behandelbaar dan cijfers of categorieën. Om te beginnen kan de tekst in het Chinees of Arabisch zijn. Maar ook als de tekst Nederlands of Engels is, staat de vraag nog wijd open hoe je in al die tekst naar een verhaal kunt zoeken.

De journalist die precies wil weten hoeveel dodelijke kinderslachtoffers er gevallen zijn onder de burgerdoden in Irak zal meer moeten doen dan googelen op ‘child’, want dat levert alle duizenden artikelen op waarin kinderen genoemd worden, en niet noodzakelijk als dodelijk slachtoffer. Wat eigenlijk nodig is, is een informatielaag over iedere tekst heen, die in algemene termen weergeeft wat er aan belangrijke zaken in de tekst staan, ongeacht hoe dat in woorden werd gevat. Hoe macaber ook, oorlogsincidenten zijn net als weerberichten: ze zijn te vatten in een vast en klein aantal kenmerken zoals plaats, tijd, en het aantal doden en gewonden, eventueel uit te splitsen naar soldaten, politiemannen of burgers: mannen, vrouwen, of kinderen.

De technologie waarmee een tekst kan worden voorzien van een algemene informatielaag bestaat al enige decennia, de laatste jaren onder de naam text analytics. Ook in Nederland wordt er op verschillende universiteiten gewerkt aan deze technologie, en er is een bedrijfstak ontstaan die andere bedrijven helpt met het omzetten van grote hoeveelheden documenten naar hanteerbare en doorzoekbare databases. Ook grote mediabedrijven zetten text analytics in, maar net als bij WikiLeaks wordt de druppelmethode gehanteerd; met het oog op de mogelijke nieuwswaarde en concurrentiepositie worden belangrijke gegevens achtergehouden, en pas naar buiten gebracht als er artikelen over zijn geschreven.

Doe-het-zelf
Iedere wannabe journalist of blogger die op eigen houtje op zoek wil naar de geheimen van WikiLeaks moet op dit moment wel een dosis computervaardigheden en liefst ook wat vakkennis meenemen. Toch zal het naar verwachting snel gaan met de ontwikkeling van gebruiksvriendelijke online hulpmiddelen die de crowd, de duizenden geïnteresseerde leken die allemaal een beetje vrije tijd willen steken in wat graafwerk, in staat zal stellen om de enorme bergen informatie door te ploegen (zie bijvoorbeeld Dataists.com en Datablog van The Guardian). Onderzoeksjournalisten doen mee met deze trend, maar zullen niet meer de enigen zijn. De strijd tussen gecontroleerd druppelen uit de flessenhals en met z’n allen goudzoeken in grote gegevensstromen is losgebarsten.

Al 4 reacties — discussieer mee!