Big data zijn waardeloos als je niets begrijpt van onderzoek

Big data en datajournalistiek zijn hip. Maar data zijn minder vanzelfsprekend als soms wordt gesuggereerd. Chris Aalberts maakt aan de hand van een concreet voorbeeld duidelijk dat het van groot belangs is om te weten wat er echt gemeten wordt, met welke indicatoren en welke data precies worden gebruikt.

Onlangs interviewde ik een Europarlementariër die als enige voor zijn partij in het Europees Parlement zit. Hij heeft zich wel aangesloten bij een grote Europese partij. Ik wilde weten hoe hij bepaalt of hij voor of tegen bepaalde politieke voorstellen moet stemmen. Kijkt hij dan naar het verkiezingsprogramma waarop hij is gekozen, of naar het stemadvies van zijn Europese partij? Dit stemadvies hoeft immers niet gelijk te zijn aan zijn verkiezingsprogramma.

De Europarlementariër was zeer resoluut: “we kijken altijd naar ons verkiezingsprogramma, dat is doorslaggevend”. Een typisch antwoord voor een politicus die niet wil toegeven dat er fractiediscipline bestaat en dat hij wellicht soms andere standpunten inneemt dan die uit zijn programma. Maar de Europarlementariër kaatste de bal meteen terug: hij kwam met bewijs dat hij in lijn met zijn verkiezingsprogramma stemt. “Kijk maar op votewatch.eu, dan zie je dat ik 100% loyaal ben aan mijn partijprogramma”.

Onderzoek doen

Ik wist meteen dat dit niet kon kloppen. Zou er werkelijk een website bestaan die onderzoekt of Europarlementariërs conform hun verkiezingsprogramma stemmen? Er zijn heel veel partijen in het Europees Parlement vertegenwoordigd met allen een eigen partijprogramma. Die programma’s moeten uitgebreid geanalyseerd worden en bij elke stemming moet voor elke partij worden vastgesteld of de partij conform het programma gestemd heeft.

Iedereen met kennis van kwantitatief onderzoek weet dat dit onbegonnen werk is. Het zou een extreem groot onderzoeksteam vragen. Bovendien worden de resultaten van Votewatch steeds weer bijgewerkt, wat betekent dat het onderzoeksteam continu bezig is. Dat kost miljoenen. Een bijkomend probleem is dat sommige partijen nauwelijks een programma hebben, zoals de PVV. Bij hen kan de overeenstemming tussen het verkiezingsprogramma en de stemmingen niet berekend worden, maar de partij heeft wel scores op de indicator of men ‘loyaal is’ aan de eigen partij.

Definities

Big data en datajournalistiek zijn een hype. Sommige journalisten beweren dat dit veel informatie oplevert en dat het verslaggeving verbetert. Votewatch is hier een voorbeeld van. Door middel van een koppeling tussen de gegevens van het Europees Parlement en Votewatch worden berekeningen uitgevoerd en kan bijvoorbeeld bekeken worden hoe loyaal een Europarlementariër aan de eigen partij is. “Zo verkrijg je inzicht!” horen we de datajournalisten in koor roepen.

Maar de werkelijkheid is net anders. Je moet natuurlijk wel weten wat men meet. De loyaliteitsscore meet niet of een Europarlementariër conform het eigen verkiezingsprogramma stemt, maar of de delegatie van nationale Europarlementariërs (bv. alle CDA-ers in het Europees Parlement, alle PVV-ers, etc.) hetzelfde stemt. Een Europarlementariër die als enige voor zijn nationale partij in het Europees Parlement zit krijgt dus altijd een score van 100% omdat er geen andere Europarlementariërs zijn waarmee stemmingen vergeleken kunnen worden. Over stemgedrag zegt dat niets, laat staan over de relatie met het verkiezingsprogramma.

VVD en Verhofstadt

Dit is niet het enige probleem met Votewatch. Deze week kwam VVD-Tweede Kamerlid Mark Verheijen in het nieuws met de opmerking dat eurofielen als Guy Verhofstadt gevaarlijker zijn voor Europa dan rechts-populisten als Marine le Pen. Er was veel kritiek op die uitspraak en Verheijen bond snel in. De uitspraak is vooral vreemd omdat Verhofstadt de fractievoorzitter is van ALDE, de Europese liberale fractie waar ook de VVD deel van uitmaakt. Met Votewatch kunnen we uitrekenen hoe vaak de VVD in het Europees Parlement meestemt met ALDE.

Die percentages liggen heel hoog. Hans van Baalen stemt in 83% mee met ALDE, Toine Manders 88% en Jan Mulder 95%. Hypocriet dus van Verheijen om zo onaangenaam te spreken over Verhofstadt, want de VVD is het in een ruime meerderheid van de gevallen met de eurofiel Verhofstadt. “Leve big data! Zo krijgen we inzicht in de politiek!” horen we datajournalisten nogmaals roepen.

Indicatoren

Maar klopt het? De vraag is welke gegevens in Votewatch staan. Verreweg de meeste stemmingen in het Europees Parlement vinden plaats met hand opsteken. Er wordt pas elektronisch gestemd als er twijfel is of er een meerderheid is of als Europarlementariërs om een elektronische stemming vragen. Alleen stemmingen die elektronisch plaatsvinden worden op individueel niveau geadministreerd en dus weten we niet altijd wat er individueel gestemd is.

In Votewatch zit dus een minderheid van de stemmingen in het Europees Parlement. De grote vraag is of deze zogeheten ‘roll call votes’ representatief zijn voor alle stemmingen. Wetenschappelijk is daar geen consensus over. Het is bijvoorbeeld mogelijk dat elektronische stemmingen vaker over controversiële thema’s gaan dan niet-elektronische stemmingen. Hoe het ook zit, we weten niet of de bovengenoemde percentages staan voor de daadwerkelijke overeenstemming tussen de VVD en Verhofstadt. Die overeenstemming is onbekend. De percentages zijn hooguit een aanwijzing.

Onderzoekskennis

Big data en datajournalistiek zijn typische modeverschijnselen. Allerlei bloggers en journalisten proberen ons wijs te maken dat we nu meer dan ooit de wereld in kaart kunnen brengen. Maar de werkelijkheid is ingewikkelder: je moet weten wat er echt gemeten wordt met welke indicatoren en welke data precies worden gebruikt. De meeste gebruikers van big data weten dat niet. Disclaimers lossen dat probleem niet op.

En zo komen we dus vaak helemaal niet te weten hoe de wereld eruit ziet. Votewatch is het ideale voorbeeld. Deze database suggereert op het eerste gezicht dat het stemgedrag van Europarlementariërs transparant wordt gemaakt. De werkelijkheid is dat het tijd, geld en energie kost om kwesties goed uit te zoeken. Big data zijn dan hooguit een hulpmiddel. Ook in de wereld van big data en datajournalistiek blijven veel zaken onbekend.

Chris Aalberts –

Chris Aalberts is docent en onderzoeker politieke communicatie.

Alle artikelen van Chris Aalberts op De Nieuwe Reporter.

  • Ik heb ook geleerd: ‘Een voorbeeld is geen voorbeeld.’ Daarnaast hoor ik nooit, maar dan ook nooit datajournalisten iets in koor roepen. Als er een groep is die onderling veel discussieert over het eigen vakgebied en het basisniveau, dan is het wel de datajournalistiek.

    Ik snap dat je het wat zwaar aanzet, maar datajournalistiek is geen modeverschijnsel (big data hooguit, maar dat heeft vreemd genoeg niet veel met elkaar te maken). Het is ook niet per se niets nieuws: we doen het namelijk al jarenlang in de journalistiek. Informatie verzamelen met – daar komt het – gereedschappen die daarvoor niet beschikbaar waren en presenteren op een manier die – daar komt het nogmaals – daarvoor niet mogelijk was. Maar naast de nieuwe onderzoeks- en presentatiemogelijkheden doe je ‘gewoon’ journalistiek: feiten checken, mensen bellen, verifiëren.

    Als je blind op de conclusies van votewatch vaart, dan ben je gewoon een slechte journalist.

  • Gonnie Eggink

    Eens met Aalberts en Vermanen. In het licht van de curriculumontwikkeling van opleidingen Journalistiek een goed argument om studenten goed toe te rusten met onderzoeksvaardigheden en een kritische geest.

  • Maarten

    Big data gebruiken in een titel is waardeloos als je niet weet wat big data is. De auteur bedoelt metadata.

  • @Maarten

    Big data, metadata, data-journalistiek: allemaal termen die globaal wijzen op hetzelfde fenomeen en allen niet zijn gedefinieerd, zou ik zeggen.

  • Maarten

    @Chris
    Metadata is al zo oud als het boek: in bibliotheken worden in catalogi data over data ingeschreven. Dat is metadata. En dat is wel degelijk gedefinieerd.
    Akkoord dat de grotere beschikbaarheid van data een nieuw globaal fenomeen is. Maar om dan zomaar big data, datajournalistiek (en waarom ook niet open data) op 1 hoop te gooien, is echt een brug te ver. Het zijn nieuwe termen waarvan de grenzen misschien nog niet helemaal zijn vastgelegd, maar votewatch.eu catalogeren als big data is gewoon fout. votewatch.eu maakt eerder gebruik van open data (waar ook een definitie van bestaat).

  • @Maarten

    We zien dat inderdaad anders. Formele definities bestaan nooit. Behalve voor een klein clubje experts is het allemaal hetzelfde: databrij waar informatie uitkomt. En daar ging deze blog dus ook over. De scherpslijperij over definities is verder mijn ding niet.

  • van Zanten

    Dit artikel heeft helemaal niets met big data analytics te maken, dit is gewoon data driven journalism (datajournalistiek zo u wilt) en dan nog de simpele variant. Het zou goed zijn als journalisten zich eerst eens in een onderwerp verdiepten alvorens er wat over te schrijven. Dit past in het modeverschijnsel van elkaar napraten en geen studies meer verrichten. Het zou ook goed zijn big data niet af te doen alsof het een onderwerp voor experts zou zijn wat een nogal vreemd excuus is voor zelf niet weten wat het onderwerp nu echt inhoudt. Een opmerking als ” Maar de werkelijkheid is ingewikkelder: je moet weten wat er echt gemeten wordt met welke indicatoren en welke data precies worden gebruikt. De meeste gebruikers van big data weten dat niet. ” heeft niets met big data te maken maar alles met de werkwijze van veel journalisten tegenwoordig. Te lui om gedegen onderzoek te doen en zaken in hun juiste context te zien.

  • Jan

    Chris, ik begrijp niet waarom analyse stemgedrag zoveel werk zou zijn. Het gaat toch gewoon om: 1a) partijprogramma’s per individueel parlementerier te analyseren (waarbij meerdere parlementariers aan een programma gekoppeld zullen worden) – 1b) idem voor groeperingen binnen het parlement – 2) stemgedrag te volgen – 3) alles in een logisch schema zetten, in de vorm van een goed geprogrammeerde website 4) conclusies trekken, inclusief ‘grijze’ gedeelten wegens ontbrekende informatie. Ik ben geen data-analyticus, maar je hebt het over gewoon journalistiek werk, een paar weken werk voor 1 persoon lijkt me… behalve natuurlijk als je terug wil gaan in de tijd, er wordt veel gestemd. Het opzetten van de data-invoer in de vorm van een website zal wel eenmalig veel werk zijn, maar ook weer niet zoveel als je aangeeft.