Data. Ze worden steeds belangrijker. Ze worden steeds meer gebruikt. Ook in de journalistiek. Maar wat vertellen data wel, en wat zeggen ze niet?  Stellen we data-analyses en visualisaties wel genoeg ter discussie, of zijn we een dergelijke manier van denken over data nog niet gewend? Jelte Timmer roept op tot ‘data-scepticisme’.

We vertrouwen graag op de kracht van data. Data maken dingen inzichtelijk en overtuigen veelal beter dan verhalen.  En met de opkomst van goedkope sensor-technologie is er over steeds meer dingen data beschikbaar. Hoewel ik ook graag een verhaal kracht bij zet met mooie gegevens en gek ben op visualisaties, vraag ik me ook af waar data hun autoriteit vandaan halen. En of we er soms niet te makkelijk op vertrouwen. Daarom wil ik er hier een kritisch verhaal over te vertellen, want data zelf vertellen niet altijd het hele verhaal.

Data-fundamentalisme

Kate Crawford waarschuwde laatst in een blogpost op Harvard Business Review voor de gevaren van ‘data-fundamentalisme’. Met data-fundamentalisme doelt zij op het onbetwiste vertrouwen in data wat zij steeds vaker tegenkomt. Het verzamelen, analyseren en visualiseren van gegevens is echter geen neutraal proces, stelt ze. In elke stap van dataverzameling, tot aan datavisualisatie worden keuzes en interpretaties gemaakt, die beïnvloeden wat data uiteindelijk laat zien.

Wat voor een keuzes zijn dit dan, en waar komt het data-fundamentalisme vandaan?

Om dat te begrijpen kunnen we het best beginnen bij het verzamelen van data. Sensoren lijken daarin een oplossing bieden voor het onbetrouwbare verzamelen van data door mensen. Menselijke onderzoekers of observatoren hebben bewust of onbewust een bias. Sensoren zijn nauwkeurig, hebben geen last van menselijke afwijkingen, en kunnen bovendien goedkoop en breed ingezet worden.

Mechanische objectiviteit

Wetenschap heeft een lange traditie van meetinstrumenten, die de onderzoeker op afstand plaatsen en ‘objectief’ data kunnen verzamelen. Maar deze ‘mechanische objectiviteit‘ is een illusie, met het meetinstrument wordt een keuze gemaakt welke gegevens wel een niet gemeten worden; hoe deze gekwantificeerd worden, etc.

Er is een makkelijke parallel te trekken met de opkomst van fotografie. De foto werd in eerste instantie gezien als een manier om de werkelijkheid objectief te vangen, ten opzichte van teken en schilderkunst. Inmiddels zijn we ons ervan bewust dat we met elke foto een duidelijke selectie maken van het onderwerp (de data) en hoe die we vangen in de foto, en welke gegevens we hier bewust buiten laten.

Computationele objectiviteit

Met de opkomst van big data vervangen we de illusie van mechanische objectiviteit voor die van ‘computationele objectiviteit’. Niet alleen het verzamelen maar ook het analyseren van de gegevens kan meer en meer door machines worden uitgevoerd. Er kan gebruik gemaakt worden van bestaande datasets, of data die niet bewust verzameld wordt maar die we bijvoorbeeld automatisch genereren als we ons op het web begeven.

Maar net zo goed is objectiviteit hier een illusie. Met de gegevens die beschikbaar zijn, de databronnen die geselecteerd worden, en hoe deze bronnen bewerkt worden voor ze geanalyseerd kunnen worden (‘data-scrubbing’) worden bepalende keuzes gemaakt. Iets wat prachtig uitgewerkt wordt in het boek Raw Data is an Oxymoron. Er bestaat niet iets zoals rauwe data, zij is altijd geselecteerd en voorgekookt vanuit een bepaald doel; om iets zichtbaar te maken.

Google Flu Trends

Daardoor zegt data verschillende dingen. Afgelopen jaren oogstte Google veel bewondering met haar Google Flu Trends, waarmee nauwkeurige voorspellingen van het verloop van jaarlijkse griepepidemieën gemaakt worden.

In 2012 zat Google er echter opeens goed naast. Ook de data van een gigant zoals Google zeggen niet altijd alles. Door veel media-aandacht werd er ongebruikelijk veel gezocht op griep-gerelateerde termen en gaven de gegevens van Google een verkeerd beeld van de werkelijkheid.

Data-visualisatie

Ook in het visualiseren van data loert data-fundamentalisme. Pete Warden verbaasde zich laatst over hoe makkelijk we vertrouwen in de plaatjes en gegevens die ons door commerciële bedrijven worden voorgeschoteld. In tegenstelling tot wetenschappelijke publicaties, is er geen peer review controle op het onderzoek en zijn de achterliggende data meestal ook niet openlijk beschikbaar.

“The wonderful thing about being a data scientist is that I get all of the credibility of genuine science, with none of the irritating peer review or reproducibility worries.”

Het voorbeeld waar Warden naar refereert is een data visualisatie die hij heeft gemaakt van vriendennetwerken op Facebook in de Verenigde Staten.

“The network visualization of drawing lines between the top ten links for each city had issues, but was defensible. The clustering was produced by me squinting at all the lines, coloring in some areas that seemed more connected in a paint program, and picking silly names for the areas.”

De visualisatie die Peter Warden maakte van vriendennetwerken op Facebook in de VS

De visualisatie van Warden werd door veel kranten overgenomen en zijn clustering werd gebruikt als bewijs voor sociale segregatie in de Verenigde Staten. Zonder dat er over na werd gedacht hoe deze clustering tot stand was gekomen.

Kritisch denken over data

De Guardian bouwt voort op het stuk van Warden, maar stelt dat het probleem vooral ligt in de visualisaties. We zijn tot op zekere hoogte gewend om teksten kritisch te analyseren. Iets wat ons in scholen wordt aangeleerd. Maar tabellen, grafieken en visualisaties worden in onderwijs en daarna altijd gebruikt als een manier om eindresultaten te presenteren. We zijn niet getraind om hier kritisch naar te kijken, sterker nog we zijn getraind om ze als duidelijke uitkomst te accepteren.

Een aantal blogs van verschillende auteurs hebben zich hier in de afgelopen weken gewijd aan het kritisch denken over verschillende verhalen die datasets en analyses vertellen. Data worden daarin beschreven als een instrument en als kennis producerende technologie die vorm geeft aan wat ermee onderzocht wordt. Wat data representeert, hoe we het analyseren en visualiseren.

Het helpt niet om te denken dat als we de menselijke hand vervangen door algoritmen dan we dan tot ‘objectiever’ analyseproces kunnen komen. Keuzes worden altijd gemaakt, in de data of in het programmatuur van een algoritme. Wellicht kunnen we een stap maken van waarschuwen tegen ‘data-fundamentalisme’, naar het promoten van ‘data-scepticisme’. Opdat we ook analyses en visualisaties kritisch aan de kaak stellen. Naar mate meer beslissingen gedreven door data laten maken, wordt dit soort kritische data-geletterdheid belangrijker. Denk daar maar eens aan de volgende keer dat u een mooi plaatje ziet.

Toelichting: Bovenstaande visualisatie ‘map of the world’s most and least racially tolerant countries‘ werd door Washington Post gepubliceerd en werd kort daarna viraal verspreid via sociale media. Er bleek echter veel kritiek te zijn van verschillende sociale wetenschappers en journalisten op zowel de methodologie als de onderliggende data. Deze kritiek kreeg echter minder dan een honderdste van de aandacht die de visualisatie kreeg op sociale media, aldus de Guardian.

Dit artikel verscheen eerder op het weblog Datadenkers.

Nog geen reactie — begin de discussie!