Handboek Datajournalistiek

Hink-stap-sprong voor datajournalisten

Datajournalistiek is een combinatie van verhalende journalistiek en verifiërende wetenschap. Phillip Meijer, die al in 1969 een boek schreef over datajournalistiek, omschreef het in de Hedy Lamarr Lecture als volgt:

“..in the second half of the 20th century, (when) journalists began experimenting with two new ways of making the quest for truth more manageable. Precision journalism borrowed the tools of science. Narrative journalism was based on art. In their early stages, these two approaches seemed to be in conflict. My argument today is that, in the 21st century, we should consider the possibility that we need both”.

Heel mooi, maar deze combinatie heeft flink wat problemen. Zonder nuance en kort door de bocht: journalisten zijn slecht in rekenen en wetenschappers schrijven nogal saai. Hoe breng je dat samen? Henk van Ess en Hille van der Kaa, doen in het Handboek Datajournalistiek een geslaagde poging.

Verhaal

Datajournalistiek is en blijft journalistiek. Het gaat om het verhaal. De cijfers, tabellen en grafieken zijn het resultaat van een lange speurtocht. Misschien is het wel nieuws. Maar je gooit niet een stapel cijfers in de krant. Prachtig is natuurlijk het voorbeeld van The Guardian: de analyse van de relatie tussen armoede en de onlusten in London verleden jaar. Verhalende journalistiek gaat hand in hand met aan data getoetste uitspraken.

Onmogelijk is het dus het niet, maar om zo  hoog te komen is een hele klim. Van Ess en Van der Kaa doen dat stap voor stap. Eerst het vinden van de data in databases of op het web. Daarna de verwerking en analyse in een spreadsheet en de visualisering daarvan in grafieken en kaarten. Tenslotte het verhaal en de twijfel; want zit het echt wel zo?

De praktijk leert nog iets anders. Na een lange WOB procedure  beschikt een redactie over een prachtig Excel sheet met wapenvergunningen. Wat blijkt daar nu uit? Geen idee, want dat hangt af van je wilt weten! Anders gezegd: alle datajournalistiek begint met een idee, vraag of een hypothese: wat wil je weten? Alleen vanuit dat perspectief zeggen data iets. En bovendien, hoe wordt het gemeten? Dit essentiele onderdeel blijft wat onderbelicht en had een apart hoofdstuk waard geweest, in plaats van de tips op het eind van het boek.

Zoektrucs

Welke data kun je vinden? Al lezend zie je bijna hoe Henk van Ess de doos zoektrucks opentrekt en het resultaat van de ene na de andere zoekopdracht op het scherm tovert. Soms zitten data niet in een mooi bestand of formulier, maar staan op web, op verschillende pagina’s. Scrapen dus. De paragraaf over Outwit Hub is wat summier en de verwijzing brengt me bij een artikel van het Poynter Institute over scraping, met uiteindelijk de raad: lees de handleiding.

De moeder van alle datajournalistiek is een spreadsheet, meestal Excel. Dat is lastig als je alleen een tekstverwerker gewend bent. De instap bij dit hoofdstuk is hoog; we beginnen gelijk met het opschonen van de data  in Excel om daarna direct door te gaan met draaitabellen. Alles aan de hand van data die op website van het boek te vinden zijn. Dat werkt prima maar je moet de basics wel onder de knie hebben.

Wanneer we ons door de cijferbrei van Excel hebben heen geworsteld, dan kan de journalistieke pret beginnen. Het presenteren van de data en het vertellen van het verhaal via visualisaties. ManyEyes, Tableau en Fusion Tables passeren de revue. Maar probeer zelf eens een kaart te maken met Fusion Tables door middel van geo-coding van je data: precies, het aantal fouten is nogal groot. Wat is dan eigenlijk de waarde van Fusion Tables?

Rokende Pistolen

Aan het eind van het boek volgt  de analyse van data en discussie over de juistheid. Dit onderdeel met veel tips is nuttig en bovendien leuk om te lezen.  Maar het is ook een beetje een allegaartje: van schijn verbanden tussen variabelen (elaboratie), gemiddelde en modus, causaliteit (post hoc, proper hoc) tot betrouwbaarheid van steekproeven (overigens kon ik in het hele boek niets vinden over enquêtes).  Of zomaar een verbazingwekkende uitspraak: “Met uitschieters is vaak iets bijzonders aan de hand.Wetenschappers proberen uitschieters in een dataset meestal weg te moffelen… journalisten zijn er dol op…” (p.178). O ja?

Het Handboek Datajournalistiek wordt zo een soort hink-stap-sprong naar allerlei onderwerpen uit de methodologie en statistiek. Al die tips zijn best nuttig, maar het verband ontbreekt. Wanneer de journalistiek gebruik wil maken van het gereedschap van de wetenschapper, dan is enig begrip van de systematiek van het onderzoek van belang, en dat is meer dan nuttige tips.

Henk van Ess en Hille van der Kaa (2012), Handboek datajournalistiek, Boom Lemma, Den Haag. 220 p.  Euro  32,50 ISBN 978-90-5931-885-4.

Deze recensie is ook verschenen op Persinnovatie.nl.

Peter Verweij –

Peter Verweij (1949), studeerde sociologie en filosofie aan de Universiteit van Nijmegen. Tot 2011 was hij werkzaam aan de School voor de Journalistiek te Utrecht als docent op het gebied van online journalistiek en computer assisted research and reporting (CAR). Momenteel werkt hij als trainer en consultant in zijn bedrijf D3-Media.

Alle artikelen van Peter Verweij op De Nieuwe Reporter.

  • Henk van Ess

    Over de structuur van het boek is nagedacht: eerst vinden van data , dan verwerken van data , dan presenteren ervan steeds vanuit de dagelijkse journalistieke mogelijkheden. Het is bij uitstek een tips en trucs boek en gaat daarom minder op het gereedschap van de wetenschapper in. Daarvoor bestaan al geweldige uitgaven zoals we in een overzicht voor de Guardian recent gemaakt hebben:

    http://www.guardian.co.uk/news/datablog/2012/may/11/data-journalism-book

    Vreemd dat je niets gelezen hebt over enquêtes, we ruimen vanaf pagina 200 maar liefst zes pagina’s over in.

  • http://www.gerardsmit.eu Gerard Smit

    Peters opmerking dat alle datajournalistiek “begint vanuit een idee”, en Henks commentaar dat alles wordt gedaan “vanuit de dagelijkse journalistieke praktijk” liggen niet ver uit elkaar. Al zie je wel het verschil tussen een principiele en een praktische denker. Wat volgens mij wel nog om verduidelijking vraagt is welk soort journalistieke vragen je met data kunt beantwoorden, en welke vorm het best past bij welk soort vragen. Als je met data wilt informeren, waarover kun je dan informeren? (Over veranderingen in tijd en ruimte; over hoeveelheden en getalsmatige verhoudingen ). Als je een inzicht wilt geven, waarover dan? (samenhang, oorzaak-gevolg relaties, procesontwikkeling).

  • Henk van Ess

    Hey Gerard,

    Data geven mij nooit een antwoord op de Waarom-vraag. Ze helpen me vooral aan een lead. Ik gebruik data om nieuwe, onverwachte verbanden te vinden, soms via serendipiteit (rommelfase noemen we dat in het boek), soms via beredeneerd vragen (hypotheses). Doorgaans gaat het een in het ander over. Op de @vvoj cafe -avond over datajournalistiek kwamen twee stromingen naar boven: kom je nu aan een verhaal door een goede vraag te stellen of helpen goede data je vanzelf aan een goed thema? Beide is natuurlijk waar.

    In vrijwel alle gevallen zijn de succesvolle stukken ontstaan doordat je met behulp van data jezelf een lead creëert: waarom missen er operatiecijfers van open ruggetjes bij dat kinderziekenhuis (uiteindelijke oorzaak: WKZ hield cijfers achter om problemen te verhullen), waarom mis ik tussentijden bij de sportuitslag (oorzaak fraude), waarom zijn er in Flevoland gaslekken ontstaan vanwege achterstallig onderhoud (open data, zie boek)?

    Met behulp van data ontstaan er waarom vragen en daarmee ontdek je nieuwe leads. Het eigenlijke werk moet dan nog beginnen.

    Dat is tegelijkertijd mijn kritiek op de aanhangers van ‘kaartjes’ en stroomdiagrammen in datajournalistiek. Wie het accent legt op de technische aspecten, loopt het risico de journalistiek uit het oog te verliezen. Ik zie dikwijls kaartjes waarin een probleem niet wordt verklaard, maar in het gunstigste geval wordt getoond.

    Het gaat ons veel meer om de onderzoeks journalistieke gedachte; hoe haal je een verantwoord verhaal uit relevante data? Tools zijn daarbij ‘slechts’ tools, terwijl zij daarbij tegelijkertijd uiteraard onmisbaar zijn. Met die gedachte ben zijn we aan het boek begonnen. Meer aandacht voor de soorten data en analyse en een mogelijke journalistieke uitkomst, minder op een uitgebreide uitleg van de tools (daar zijn online tutorials veel geschikter voor – aan alleen een uitleg van Google Refine kun je al gemakkelijk 220 pagina’s wijden).

    Nu naar je vraag: ik zie weinig beperkingen wanneer je data als beginpunt neemt en niet als eindpunt. Dus ja het kan gaan over veranderingen in tijd en ruimte; over hoeveelheden en getalsmatige verhoudingen, samenhang, oorzaak-gevolg relaties, procesontwikkeling etc.

    Maar ik geloof niet dat data je de waarom vraag doet beantwoorden, het helpt je die vooral te ontdekken.

  • http://d3-media.blogspot.nl/ Peter Verweij

    In de praktijk van de datajournalistiek (zowel bij eigen onderzoek als bij trainingen) doe ik ook vaak de hinkstapsprong. In die zin heeft Gerard Smit gelijk. Je kunt immers moeilijk een compleet research design maken, waarin alle details en stappen staan uitgewerkt. Toch blijft ook in de journalistieke praktijk de systematiek van groot belang. Een beetje springen van een methodisch naar een statistisch probleem is niet erg, als je maar weet wat je doet en waarom je iets doet. De vraagstelling van het onderzoek is daarbij richtinggevend.

    Datajournalistiek is journalistiek; het gaat om het verhaal en niet om een lijstje of een kaartje; dat ben ik met Henk van Ess eens. Het lastige is dat de (bewerkte) data die ten grondslag liggen aan het verhaal, toegankelijk moeten zijn voor het publiek. Significante cijfers en het wetenschappelijke jargon moeten dan vertaald worden. Ook dat veronderstelt een breder begrip van onderzoek.

    Dit principiele overwegingen en vragen verdwijnen in de praktijk vaak naar de achtergrond. De journalisten-onderzoekers zijn dan druk bezig allerlei tools te leren beheersen(draaitabelen, grafieken, data aan kaarten koppelen etc). Prachtig als er wat uitkomt; maar neem even afstand. Ga terug naar je onderzoeksdesign: wat ben ik aan het doen, wat was mijn vraag, wat heb ik precies gevonden en wat betekent dat in de alledaagse wereld?

    In het ideale geval is datajournalistiek, denk ik, teamwork. Een samenwerking van groep journalisten, elk met een specialisatie(bijvoorbeeld de schrijver, researcher/onderzoeker, hacker/coder, designer). Om te kunnen samenwerken moeten ze wel een gemeenschappelijk kader hebben. Precies!: dat is een begrip van hoe je onderzoek doet, van begin tot eind.

  • Henk van Ess

    In het boek proberen we vooral de volgende vragen te beantwoorden:

    Hoe ga je om met grote hoeveelheden informatie: cijfers & documenten?

    Wat is het journalistieke nut van ‘een bak met cijfers’? Hoe ontdek je de rokende pistolen (30 pagina’s…)

    Welke kennis is nodig voor het toegankelijk maken van data?

    Waarom is datajournalistiek af en toe alleen relevant voor een klein publiek?

    Waarom is de uitkomst van veel goede datajournalistiek niet bij voorbaat een verhaal met cijfers of kaartjes?

    Dat zijn behoorlijk strategische keuzes.

    Peter schrijft terecht dat het toegankelijk maken van data een lastige klus is. Datajournalistiek is nog volop in beweging. Mijn poging tot een definitie staat op Wikipedia:

    A more results driven definition comes from data reporter and web strategist Henk van Ess (2012).[4] “Data-driven journalism enables reporters to tell untold stories, find new angles or complete stories via a workflow of finding, processing and presenting significant amounts of data (in any given form) with or without open source tools.” Van Ess claims that some of the data-driven workflow leads to products that “are not in orbit with the laws of good story telling” because the result emphazes on showing the problem, not explaining the problem. “A good data driven production has different layers. It allows you to find personalized details that are only important for you, by drilling down to relevant details but also enables you to zoom out to get the big picture”.

    En ja, dat achter goede projecten vaak een team zit (al dan niet virtueel samengesteld), is me uit het hart gegrepen Peter. Voor Netzwerk Recherche, een vereniging van Duitse onderzoeksjournalisten, heb ik het teamwork in datajournalistieke projecten geanalyseerd bij Europese media en eens op een rijtje gezet wat er kan gebeuren als binnen zo’n team de journalist, programmeur of de vormgever teveel invloed krijgt. Misschien leerzaam ;)

    The Gory Details Of Datajournalism: what went wrong and who was responsible

    Data driven stories are made by people. By designers. By reporters. By coders. Or even better, by all of them together in a team.
    Henk van Ess did al lot of data journalism projects with people he never met in person, through Skype and Go To Meeting. He also worked together in small teams in company. What is better? To do it in-house or outsource it? And what kind of person do you need? A fine researcher? A smooth talker? A good number cruncher? A great story teller? A brilliant designer/ GUI specialist? Fantastic communicator? All?

    In this deadly honest presentation Van Ess gives you all the gory details about what will happen if things go wrong. Who was responsible and why? What can we learn?

    http://www.slideshare.net/searchbistro/the-gory-details-of-datajournalism-what-went-wrong-and-who-was-responsible-by-henk-van-ess

    Disclaimer: Peter en ik kennen elkaar al jaren en geven momenteel beide cursussen datajournalistiek bij De Persgroep.

  • http://www.gerardsmit.eu Gerard Smit

    Het wordt steeds duidelijker hoe het werkt. Journalistiek onderzoek doen is een iteratief proces. Je kunt bij de data beginnen, bij de verhaalvorm, of bij een journalistieke vraag. Waar je begint maakt niet uit. Als er uiteindelijke maar een coherent geheel ontstaat waarbij de kwaliteitsvragen zijn: (1) wordt er een relevante journalistieke vraag gesteld of beantwoord? (2) wordt die vraag ondersteund door de gepresenteerde data? (3) is er gekozen voor een presentatie die past bij de data en de journalistieke vraag?
    Ik benadruk het belang van het journalistieke doel, omdat inzicht in die doelen je kan helpen de zinvolle vragen over de data te stellen. In die zin is het zinvol om los van de data aandacht te besteden aan mogelijke journalistieke doelen.
    Overigens gebeurt dat ook in het Handboek datajournalistiek. Maar terloops en verspreid in het boek. Onder andere op bladzijde 141, waar de kieswijzer wordt getoond. Het gaat dan om de vraag: Wat wil je laten zien? Relaties, vergelijking, distributie of compositie. Een volgende stap zou zijn om die elementen te vertalen in journalistieke vragen. Als het bijvoorbeeld over relaties gaat, om wat voor een journalistieke vragen gaat het dan? Bijvoorbeeld: Wie hebben het voor het zeggen? Wie hebben de macht in handen? (hierarchische relaties). Of: wie oefent invloed uit op wie? (Netwerkanalyse, zoals Het Parool dat onlangs deed over de invloedrijke netwerken bij Groen Links).
    De vragen die in het boek staan op bladzijde 125 (Wat is het verhaal?) zouden systematische kunnen en gekoppeld kunnen worden aan het net genoemde schema.
    Dit laat onverlet dat het Handboek datajournalistiek een prachtig boek is. Uniek in zijn soort. Vooral ook door de begeleidende website: forreporters.com. Ik heb voor jaren onderwijsmateriaal. Dank.

  • Henk van Ess

    Gerard, dank voor je mooie woorden – de eerste over dit boek :)

  • http://www.jerryvermanen.nl Jerry Vermanen

    Mooie discussie, dus ik haak graag even aan. Volgens mij wordt er namelijk een onderscheid gemaakt dat enkel in theorie aanwezig is.

    Wat Henk van Ess zegt:

    Dat is tegelijkertijd mijn kritiek op de aanhangers van ‘kaartjes’ en stroomdiagrammen in datajournalistiek. Wie het accent legt op de technische aspecten, loopt het risico de journalistiek uit het oog te verliezen. Ik zie dikwijls kaartjes waarin een probleem niet wordt verklaard, maar in het gunstigste geval wordt getoond.

    Het lijkt nu net alsof er in datajournalistiek (wat opzich al een vreemde term is) verschillende kampen zijn. Aanhangers van onderzoek, aanhangers van visualisaties, etc.

    Dat beeld ontstaat zodra je een definitie van een beroep in ontwikkeling wilt geven. Ik kan niet eenvoudig uitleggen wat mijn werk precies omvat, omdat het zoeken is naar de juiste ingrediënten. De ene dag is het voornamelijk visualisatie, de andere dag(en) onderzoek. Soms kaarten voorbereiden voor verkiezingen, daarna duizenden rijen in Excel kneden tot een mooi nieuwsbericht. Zo werkt het in ieder geval bij mij. En de (helaas nog) weinige Nederlandse en in grotere getalen aanwezige buitenlandse datajournalisten werken – voor zover ik kan inschatten – net zo. Niet te moeilijk doen over een definitie of bij welke stroming je hoort. Nee, gewoon werken en het vak zijn eigen richting laten vinden.

    Soms is het nieuws er al en maak je er een visualisatie bij om complexe processen inzichtelijk te maken. Soms maak je zelf nieuws met data-onderzoek. En regelmatig gaan die twee dingen met elkaar samen. Bij NYT en The Guardian zie je diezelfde mix terug.

    Ik heb overigens geen idee waar het beeld van de twee kampen vandaan komt. Goed (data)onderzoek, journalistiek werk en verhalen vertellen (tekst, beeld, audio, visualisatie) sluiten elkaar niet onderling uit. Alleen vergt een kaartje maken wat technische kennis. Een video monteren eveneens. Sommige datajournalisten neigen qua voorkeur wellicht naar de visualisatiekant en anderen naar de onderzoekskant, maar als je ziet wat ze in de dagelijkse praktijk doen, is dat vaak dezelfde routine.

    En ja, daarna is alles wat Henk, Peter en Gerard over het vak zeggen waar. Data vormen de aanleiding voor een onderzoek. Na Excel moet je in de telefoon klimmen om te achterhalen Hoe en Wat.

    Mooi vak, he?