Journalisten kiezen vaak voor hun vak omdat ze van taal houden, niet van cijfertjes of berekeningen. Is dat effe pech: het belang van data blijft groeien. Afstuderend journalist Jasmijn Kwaks onderzocht hoe je je dataset even kritisch behandelt als ander bronnen.

Wiskunde zit niet in het eisenpakket van de meeste opleidingen journalistiek. Veel journalisten kiezen voor hun vak omdat ze houden van woorden, niet van getallen. Laatstgenoemde is mijn eigen aanname en op z’n minst toepasbaar op mezelf: na het jarenlang volgen van bijlessen rondde ik wiskunde dan wel af met een acht, maar ik wilde stoppen op dat hoogtepunt en me alleen nog op geschreven letters storten. Ik startte aan de Fontys Hogeschool voor Journalistiek.

Inmiddels rond ik die opleiding bijna af en heb ik, tegen mijn verwachting in, toch cijfer-gerelateerd onderzoek gedaan. Ik realiseerde me namelijk dat ik geen journalist kan worden zonder gebruik te maken van data, want cijferverzamelingen zijn nieuws. Percentages, peilingen, beursindexen, maar ook voortdurende en gedetailleerde registraties (neem Google als voorbeeld) – big data – geven ontwikkelingen in de samenleving aan. Met de toename van databases groeit ook het aanbod van journalistieke bronnen en hulpmiddelen.

Je kunt niet alles meten

Zelf schreef ik een verhaal op basis van de Global Youth Wellbeing Index, een ranglijst van landen gebaseerd op onderwijs-, economie- en gezondheidszorgscores. Getallen zijn door diverse nationale statistische bureaus aangeleverd en moeten een totaalbeeld geven van het welzijn van jongeren in alle landen van de wereld.

Interessant, want hoe meet je welzijn? Speelt welbevinden (hoe iemand dénkt over zijn welzijn) mee, of bepalen objectieve metingen hoe goed het met iemand gaat? En hoe betrouwbaar zijn de resultaten als de cijferverstrekkende partij niet op de laatste plaats van de index wil eindigen?

Betrouwbaarheid van cijfers

Deze vragen vormden aanleiding voor mijn herboren aversie tegen cijfers. Ik besefte allereerst dat ze in nieuwsverhalen uitgebreide context behoeven, en ten tweede dat ze, ondanks dat ze een goede indicatie kunnen geven, lang niet altijd betrouwbaar zijn.

Journalisten werken er desondanks mee, hangen er hun verhalen of visualisaties aan op. En geef ze ongelijk: dat ze een interviewkandidaat stevig aan de tand voelen, is vanzelfsprekender dan dat ze een dataset confronteren met tegenstrijdigheden of onwaarheden.

Maar dat laatste is wel nodig. Een dataset ontstaat na menselijke keuzes: wat wordt gemeten en hoe (goed) dat wordt gemeten is door iemand bepaald. Of diegene kwaadaardige bedoelingen heeft of niet, fouten kunnen worden gemaakt. Tel- of typefouten, technische fouten, methodologische fouten.

Het is de taak van journalisten om de waarheid naar buiten te brengen, het publiek van niet-misleidende informatie te voorzien, en daarom heb ik een checklist gemaakt van hoe die fouten in data te achterhalen zijn. Omdat ook de journalisten die nog schrikken van data, te maken (gaan) krijgen met deze kwantitatieve verzamelingen.

De checklist

Voor je een dataset gebruikt, is het nodig een inschatting te maken van de algemene betrouwbaarheid ervan. En nadat je ruwe data hebt gefactcheckt, is ook je eigen presentatie belangrijk. Het datajournalistieke proces is daarom ingedeeld in drieën.

Vergeet trouwens niet: ook misleidende data kunnen een verhaal opleveren. Zoals dit verhaal van OneWorld over het gebrek aan betrouwbare cijfers over de hoeveelheid olie die door lekkende pijpleidingen de Nigerdelta is ingestroomd.

Het op waarde schatten van een dataset

1. Wie is de bron en wat is zijn doel?

Vraag je af of de dataverstrekkende organisatie zelf heeft geregistreerd of gegevens heeft doorgeplaatst. Zijn er metingen gedaan voor een opdrachtgever of is het onderzoek gesponsord? Een hoog aangeschreven universiteit voelt te vertrouwen, maar werken de onderzoekers in opdracht van een commerciële partij, dan moeten de uitkomsten kritischer bekeken worden.

Als je hebt bepaald welke bronnen betrokken zijn bij het samenstellen en verspreiden van een dataset, kun je inschatten welke belangen een rol spelen. Een automatisch automerk dat cijfers publiceert over ongelukken onder handbakken, wil vermoedelijk reclame maken voor zichzelf. Een landelijk statistisch bureau dat data aanlevert, houdt waarschijnlijk rekening met de reputatie van het land. En humanitaire organisaties kunnen misleidende cijfers vrijgeven om meer financiering te krijgen.

Als het lijkt alsof de bron vooral aan een goed imago wil werken of geld wil ontvangen, kun je grote vraagtekens zetten bij de betrouwbaarheid van de gepresenteerde resultaten.

2. Wat is er gemeten?

Sommige onderwerpen zijn lastig te meten. Zie de zomerserie die Sanne Blauw en Maite Vermeulen voor De Correspondent schreven: er werd uitgelegd dat armoede nauwelijks samen te vatten is in een getal. Ook gevoelige onderwerpen als misbruik, seks of drugs zijn niet altijd in kaart te brengen: het is de vraag hoe eerlijk respondenten hierover zijn. Een vraag als ‘wil iedereen die verkracht is zijn hand opsteken?’, levert vast geen kloppende registratie op. Lees het verhaal maar uit 360 Magazine over Congo, de ‘verkrachtingshoofdstad van de wereld’ (via Blendle).

Het is tot slot belangrijk de exacte definitie van het gemeten onderwerp te weten: het aantal asielzoekers is iets anders dan het aantal asielaanvragen.

3. Hoe kun je dat onderwerp het beste meten?

Vraag je dus af of het data-onderwerp wel echt in cijfers uit te drukken is en hoe iets in dat geval gemeten moet worden. Zo kun je een indicatie maken: in hoeverre lijken de gebruikte methode en de ideale werkwijze op elkaar?

4. Is de gebruikte methode betrouwbaar?

Als een bron deugt en een onderwerp tel- of meetbaar is, garandeert dat nog geen betrouwbare dataset. Het Centraal Bureau voor de Statistiek hanteert over het algemeen zuivere werkwijzen, maar cijfers over bijvoorbeeld het gewicht van pasgeboren baby’s zijn doorgegeven door ouders. Daar kan best wat mee gesjoemeld zijn. Daarom moet een aantal dingen opgemaakt worden uit de methodologie of onderzoeksverantwoording van een meting.

Bekijk hoe data verzameld zijn. Zijn ze door verschillende partijen aangeleverd, door middel van enquêtes vastgesteld of zijn er apparaten gebruikt (bijvoorbeeld om een waterstand of snelheid te meten)? Iedere manier kan valkuilen met zich meebrengen. Partijen kunnen belangen hebben, enquêtes kunnen sturend zijn en apparaten kunnen niet goed werken.

In het geval van een registratie van menselijk gedrag, vaak verkregen door een peiling of enquête, moet de steekproef kloppen en groot genoeg zijn. Een onderzochte groep moet representatief zijn voor de groep waarop de uitkomst betrekking heeft. Een simpel voorbeeld: als de Volkskrant een online poll plaatst, zeggen de uitkomsten alleen iets over Volkskrantlezers met een internetverbinding, niet over de hele bevolking van Nederland.

Er moet daarbij rekening gehouden worden met non-respons. Een bepaalde groep die niet reageert kan ondervertegenwoordigd zijn. Als mensen die nog niet weten op welke partij ze gaan stemmen, niet deelnemen aan een verkiezingspeiling, zijn de mensen die het wèl weten oververtegenwoordigd.

Wat is er gedaan met ontbrekende cijfers? Soms gebruikt een organisatie imputatietechnieken; er worden dan geschatte waarden ingevuld.

Een methodologie moet verder uitwijzen of een resultaat een toevalstreffer is (het significantieniveau wijst dat aan), want een toevallige meting duidt geen effect of verband aan.

Ook moet vermeld worden wat er is gedaan met mismetingen, bijvoorbeeld als een apparaat niet naar behoren heeft gewerkt. Hoe vaker een meting gedaan is, hoe betrouwbaarder het resultaat.

Het analyseren van data

5. Is de dataset compleet of zijn er nietszeggende nullen en gaten?

Als een dataset niet compleet is, moet er opgepast worden met het bepalen van bijvoorbeeld een gemiddelde. Er kunnen nullen zijn ingevoerd als gegevens onbekend zijn, maar deze zijn verder betekenisloos. Trek daar dus geen conclusies over. Omgekeerd is het ook belangrijk te controleren of er geen gegevens dubbel zijn geregistreerd: ook extra data kunnen een vertekend beeld geven.

6. Wat betekenen de uitschieters in een dataset?

Stel vast wat de hoogste en laagste waarden zijn. Deze uitschieters kunnen aanleiding zijn voor je verhaal, of wijzen op een fout. Door een tikfout zou de waarde 10 per ongeluk als 100 kunnen worden opgeschreven. Controleer de uitschieters dus voor je ze meeneemt in je verhaal; tel ze na of leg ze aan een (interne) deskundige voor. Onder uitschieters kunnen ook de beste en slechtste scores vallen of de meest- en minst voorkomende getallen.

7. Duidt een steekproef op kloppende getallen?

Ook data die er logischer uitzien, kunnen onjuist zijn. Bijvoorbeeld als er tel-, type- of technische fouten zijn gemaakt; een 1 kan een 100 worden of een kolom in een Excel-bestand kan verspringen. Probeer random cijfers na te tellen/meten of vergelijk ze met soortgelijke registraties. Zo krijg je een beeld van de accuraatheid van de data.

8. Komen de data overeen met andere, eerder gepubliceerde gegevens?

Vaak kun je vergelijkingen maken met soortgelijke resultaten van andere instituten. Komen ze overeen? Zijn losse gegevens ergens anders nageteld? En vinden experts de getallen aannemelijk?

Het presenteren van data

9. Kloppen de conclusies uit je data-analyse?

Tot slot kun je jouw conclusies een aantal keer opnieuw berekenen, zodat je zeker weet dat ze kloppen. Leg ze voor aan een interne en/of externe deskundige, want als zij een gesignaleerd nieuwsfeit ongeloofwaardig vinden, is misschien nieuwe controle nodig.

10. Klopt de context waarin je ze presenteert?

Cijfers hebben een context nodig. Houd dus rekening met je presentatie: twee gesignaleerde ontwikkelingen hoeven bijvoorbeeld geen oorzakelijk verband met elkaar te hebben. Wellicht is het nodig andere data te betrekken.

Als het aantal autobezitters van 18 jaar en ouder toeneemt, hoeft dat niet te betekenen dat een groter deel van de bevolking een auto koopt. Het zou ook kunnen wijzen op een grotere groep 18-plussers, omdat er bijvoorbeeld een geboortegolf is geweest.

Nog geen reactie — begin de discussie!