De Zen van het datamartelen

“Excel is een onmisbaar martelwerktuig voor datajournalisten”

Op 3 april verzorgde Stephan Okhuijsen (Sargasso) een presentatie over datamartelen bij Centrum voor Communicatie & Journalistiek in Utrecht. De ruim 80 aanwezigen kregen handenvol tips om grote hoeveelheden data op de pijnbank te leggen en er nuttige journalistieke informatie uit te halen. Waar zitten de verhalen, de markante afwijkingen en de leuke patronen in zo’n gegevensverzameling? En hoe ga je om met tijd, wat zijn relevante sleutels tot de oplossing en hoe vind je de uitzonderingen? Na afloop van deze avond hield Goof van de Winkel een interview met Stephan Okhuijsen. “Elke datajournalist moet investeren in een goede Excel-cursus”

Datasets moeten we kritisch bekijken is je motto. We moeten ze pijn doen. Wat is er vaak mis met een dataset die je krijgt of vindt?

“Op drie punten vragen de datasets aandacht. Ten eerste zitten er vaak gegevens in die in de aangeboden vorm niet direct bruikbaar zijn. Om er iets nuttigs mee te kunnen doen moet je durven  die te mishandelen, bijvoorbeeld door ze uitelkaar te trekken in losse onderdelen. Ten tweede hebben datasets regelmatig last van inconsistentie in bijvoorbeeld coderingen. Denk aan het gebruik van zowel een F als een V als code voor een vrouwelijk persoon. Ook dat moet je hard aanpakken anders haal je niet de gewenste waarheid uit je gegevens. Last but not least ontbreekt er regelmatig een stukje van de puzzel. De beschikbare data gaan alleen maar spreken als je er nog een bron aan koppelt of de juiste sleutel.”

Wat zijn belangrijke tools om goed te kunnen martelen?

“In de basis niet eens zo heel veel. Fantasie is heel belangrijk natuurlijk. En ook een goede code-editor en Excel zijn als martelwerktuig goed inzetbaar. Eentje die men vaak over het hoofd ziet is een goed scherm. Minimaal 30 inch, of anders twee keer minimaal 21 inch. Dan ontsnapt er weinig aan je aandacht.”

Je liet een medische dataset zien tijdens de sessie met een veelvoud aan kolommen. Puur op basis van de kolommen over bijvoorbeeld prijzen, postcodes, leeftijden, productnummers en geslacht, liet je de aanwezigen een aantal vragen formuleren die mogelijk uit de dataset te halen zijn. Is dat ook hoe jij te werk gaat? Vragen stellen en op basis van de data een antwoord proberen te vinden?

“Ja, vooraf vragen formuleren is heel belangrijk. Wat zou ik willen weten waarvan ik vermoed dat deze dataset het antwoord bevat. Die vragen kunnen natuurlijk ook gedurende het martelen alsnog opkomen. Of soms juist als je de data even laat rusten en wat anders gaat doen. In mijn ervaring komt het slechts 1 op de 10 keer voor dat je per ongeluk iets ontdekt waar je van te voren geen vraag over had bedacht.”

Je liet voorbeelden zien van datasets waarbij in eerste instantie een antwoord voor de hand lag. Maar bij verder spitten of na wat telefoontjes ontstond er een genuanceerder beeld. Hoe goed moet je in de materie zitten om te snelle conclusies te voorkomen?

“Het is van groot belang dat je begrijpt wat de context is van waar de data vandaan komt. Je moet je kunnen inleven in de situatie om het te kunnen plaatsen. Voor mij is dit een regel die te vergelijken is met de regel dat je als journalist minimaal twee bronnen nodig hebt voor iets ook maar een beetje voor waar aangenomen kan worden. Het vraagt dus een investering in tijd om goed te begrijpen waar de data over gaat. Anders ga je nat bij het publiceren. Mensen met de juiste kennis prikken dan zo die ballon leeg.”

In je presentatie gaf je aan af en toe een ‘Zen-momentje’ in te moeten lassen. Waarvoor gebruik je deze momenten?

“Juist als je even afstand neemt van de details komen de beste ideeën en vragen naar boven. Ook helpt het soms de juiste bewerking te bedenken om de data net zo te mishandelen dat ze ineens veel bruikbaarder worden.”

Belangrijke tip van jou: reductie, reductie, reductie, deductie. In iedere volgende stap moet je data weggooien. Hoe weet je wat je moet weggooien? Is dit een kwestie van ervaring, een bepaalde kijk op de materie of gewoon aan de slag gaan en uitproberen?

“Ja, het is een combinatie van ervaring – noem het data-gevoel – en uitproberen. Ook ik heb nog regelmatig dat ik vloekend moet terugvallen op een eerdere backup omdat ik iets teveel heb weggegooid. Maar reductie is nodig om zicht te houden op de relevante data en sneller antwoord te krijgen op de vragen.”

Je doet 95% van je datawerk in Excel. Wat is de kracht van dit programma?

“Het is een combinatie van de eenvoud en de diepte. Het programma wordt al zo’n 20 jaar over de hele wereld gebruikt door heel veel mensen, organisaties en bedrijven. Het is steeds mee gegroeid met de tijd. Er zit ontzettend veel in. Pas als je specialistischer bezig gaat, met bijvoorbeeld mathematische modellen of zwaardere statistische analyses, zijn er andere tools beter geschikt. En uiteraard als je met meerdere datasets werkt die gecombineerd moeten worden, dan zijn database-achtige tools beter bruikbaar. Maar 90% van de zaken lukt gewoon in Excel.”

Wat wilde je eigenlijk bereiken met de sessie? Wat was je doel?

“In gesprekken met andere datajournalisten bleek dat ik, mede door mijn IT-achtergrond, inmiddels de nodige ervaring had opgebouwd die nuttig zou kunnen zijn voor anderen. Mijn doel was dan ook een deel daarvan over te brengen naar anderen. En als het dan niet direct zou lukken de ervaring zelf over te brengen, dan toch in ieder geval de inspiratie te geven over de mogelijkheden.”

Welke drie tips wil je meegeven aan een beginnende datajournalist?

“De eerste is makkelijk. Investeer even in een goede Excel-cursus. Dat levert veel tijd op en je zult veel minder een beroep hoeven te doen op programmeurs of iets dergelijks. De tweede tip is: wees speels. Knijp, rek en draai de data om te zien wat er dan gebeurt. Die handelingen zul je steeds sneller gaan doen en dat helpt je weer sneller antwoorden te vinden. En ten derde, durf weg te gooien.”

Data zijn geduldig. Hoe geduldig ben jij?

“Heel erg geduldig. Er staan bijvoorbeeld nog twee datasets op mijn harde schijf waar ik al meer dan twee jaar naar zit te turen. Maar ook als ik actief ben met een grote, complexe set data, kan ik er gerust dagen, soms weken, mee zoet zijn”.

De genoemde sessie over datamartelen werd georganiseerd door Centrum voor Communicatie & Journalistiek en De Nieuwe Reporter.

Goof van de Winkel –

Goof van de Winkel is opleidingscoördinator journalistiek bij Centrum voor Communicatie & Journalistiek (CCJ), het contractonderwijs van de Hogeschool Utrecht.Samen met DNR organiseert hij namens CCJ diverse discussiesessies over de journalistiek.

Alle artikelen van Goof van de Winkel op De Nieuwe Reporter.

  • http://www.ccj.hu.nl Jona

    Toffe avond, leuk artikel, en briljante laatste vraag! Complimenten Goof.