Vijf redenen om R te gebruiken in datajournalistiek

Wie grondig aan de slag wil met data-analyse doet er goed aan naar The R Project for Statistical Computing te kijken. “R” is zeker geen programma waarin je wat rondclickt in menu’s in afwachting van tovenarij, maar het biedt wel veel meer mogelijkheden, controle en flexibiliteit.

Datajournalistiek, zei Stephen Doig onlangs, is zoiets als “social science done on deadline”. Niet ten onrechte, immers het aantal sociale en economische data dat zich voor die vorm van journalistiek leent neemt exponentieel toe. Bovendien is het gereedschap nodig voor analyse en visualisaties ruim voor handen. Een spreadsheetprogramma als Microsoft Excel is een van de standaarden. Dat ligt voor de hand. Je hoeft niets te installeren want Office staat meestal toch wel op je machine, omdat Word de meest gebruikte tekstverwerker is.

Het werkt ook wel handig; een toptien, percentageverschil of een (draai)tabel zijn met enige moeite te maken. En als je wat dieper in je data wilt duiken is er altijd nog SPSS (Statistical Package Social Sciences). Toch denk ik dat er vijf goede redenen zijn om te besluiten R-project te gebruiken voor datajournalistiek.

Gregor Aisch, Open Knowledge Foundation, zegt in het Data Journalism Handbook:

“It is hard to find any visualization method or data wrangling technique that is not already built into R. R is a universe in its own, the mecca of visual data analysis. …Trained data journalists can use R to analyze huge dataset which extends the limits of Excel”.

Voordelen van R

1. R is open source. Dat betekent dat je het gratis kunt downloaden, installeren en gebruiken. Voor Microsoft Office daarentegen en ook voor SPSS moet betaald worden. Bovendien wordt R voortdurend door de gebruikers zelf verder ontwikkeld. Specialisten die zelf programmeren stellen hun eigen pakketten ter beschikking en dat opent nieuwe terreinen en instrumenten voor analyse.

2. R is beschikbaar voor verschillende platforms: Windows, Apple en Linux. Je downloadt het R basispakket voor jouw operating system en je kunt aan de slag. Handig, want ik raakte lichtelijk in paniek tijdens een analyse met een groep journalisten die twee verschillende versies van Excel gebruikten(2003 en 2007 ) en een Excel versie van Apple en nog een versie van Open Office. Hoorndol word je van de verschillende menu’s, ribbons en context afhankelijke opties.

3. R is uit te breiden met extra pakketten. R is niet zoals Excel een eenvoudig software programma voor het maken van berekeningen, maar een taal die gebruikt wordt in combinatie met verschillende pakketten om een specifieke analyse of berekening uit te voeren. Wanneer R is gedownload zijn al een aantal standaardpakketten geïnstalleerd, ruim voldoende voor eenvoudige statistische berekeningen en grafieken. Wil je wat verder? Bijvoorbeeld sociale netwerk analyse, scraping data, of betere grafieken, dan moeten extra pakketten worden gedownload van de zogenaamde CRAN servers . Nederland heeft er twee in Utrecht en Amsterdam, en op deze mirrors zijn alle R packages (5449) beschikbaar.

Dat klinkt ingewikkeld. Inderdaad, R is een omgeving die begint met een terminal en een kale prompt. Maar gelukkig er zijn ook grafische interfaces(GUI) voor R die het een stuk makkelijker maken. R Commander, is een complete GUI voor gedetailleerde statistische analyse. En R Studio werkt heel aardig voor het laden van pakketten, exporteren van grafieken en het werken op een terminal. En de resultaten, kunnen die ook online? Niet met de bekende ‘embedded link, maar met Shiny. Hiermee maak je interactieve webpagina’s van je data en grafieken uit R Studio.

4. Als gebruiker van R sta je er niet alleen voor. R kent een uitgebreide community, die de software onderhoudt, de handleidingen maakt of voorbeelden van analyse publiceert. Er zijn ook online trainingen, bijvoorbeeld van Johns Hopkins University’s Coursera course R Programming. Een belangrijke bron om te volgen is R-Bloggers, met kantenklare voorbeelden over scrapen, Twitter of een mooi scatterplot.

5. De belangstelling voor het gebruik van R groeit. Angela Hay van de Mountain View Voice, een weekly uit Silicon Valley omschrijft R als “a fast growing language for statistics, forecasting and graphs”. Kijken we bijvoorbeeld naar het aantal downloads van R, dan ligt dat rond 20-30 per week. Of naar het aantal Wikipedia pagina’s over R dat wordt bekeken; totaal zo’n 1000 per dag. Ook de ontwikkeling op de banenmarkt is interessant. De vraag naar dataspecialisten met kennis van R overtreft de vraag naar SPSS experts. Ben je als journalist je baan kwijt en je hebt belangstelling voor data en data journalistiek, dan liggen hier zeker mogelijkheden.

Command driven

Met al die voordelen is er natuurlijk ook een nadeel. Gregor Aisch:

” One drawback is that you need to learn (yet another) programming language as R has it’s own language. But once you have taken the initial climb on the learning curve, there’s no tool more powerful than R”.

R is zeker geen programma waar je wat rondclickt in menu’s in afwachting van de tovenarij. Je moet zelf opdrachten geven vanaf de prompt in de terminal; van het importeren van je data, het maken van tabel, het berekenen van randtotalen, tot het tekenen van een histogram, een kaart of een regressielijn, het is allemaal ‘command driven’.

Dat moet je leren, maar dat geldt ook voor Excel. Swirl is daarvoor een goed, interactief instructieprogramma. Voor de (beginnende) gebruiker is R-Studio een fantastische omgeving, die precies bijhoudt welke berekeningen of opdrachten je hebt uitgevoerd (bij Excel weet je dat nooit!). Ook is het eenvoudig om een serie bewerkingen om te zetten in een script, om dat later nog eens te gebruiken.

De moeite waard

R leert je geen statistiek, scrapen of netwerkanalyse. Het past berekeningen toe op data en je moet zelf besluiten welke dat zijn. Maar ja, dat moet je ook in Excel. Een goede online training in statistiek is bijvoorbeeld Stat Trek. Natuurlijk, je kunt beide tegelijk doen, je statistische kennis ophalen en oefenen met R, daar zijn heel aardige boeken voor bij Amazon.

Ik begon heel lang geleden met data-analyse, eerst gewoon rekenen met pen en papier, daarna kwam SPSS (op een mainframe) en later kwamen de spreadsheets. Ik geef les in Excel en ontsluier in trainingen voor (data) journalisten de geheimen van rijen en kolommen. Dat is zeker een goed begin. Maar ik denk ook dat het leren van R de moeite waard is voor datajournalisten. R biedt meer controle, is flexibeler en biedt meer mogelijkheden

Peter Verweij –

Peter Verweij (1949), studeerde sociologie en filosofie aan de Universiteit van Nijmegen. Tot 2011 was hij werkzaam aan de School voor de Journalistiek te Utrecht als docent op het gebied van online journalistiek en computer assisted research and reporting (CAR). Momenteel werkt hij als trainer en consultant in zijn bedrijf D3-Media.

Alle artikelen van Peter Verweij op De Nieuwe Reporter.

  • Leuk artikel. Ik werk zelf al meer dan een jaar met R en wil absoluut niet meer terug naar SPSS of Excel. Voor data-journalisten de met R aan de slag gaan is het trouwens erg aan te bevelen om ook de Ggplot2 library te installeren. Voorbeelden van wat je daarmee kunt, kun je bekijken in het dossier aardbevingen in Groningen op Sargasso.

  • Interessant artikel. Wellicht een idee om er bij ons eens naar te kijken. Wij werken nu met Excel en dat werkt ook nog steeds prima hoor, maar de voordelen die je hier noemt zijn zeer interessant. Ik zal het eens meenemen.

  • Marcel van den Bosch

    De combinatie van R en Hadoop kan ook interessant zijn voor uitvoeren van Big Data-achtige analyses.

    Ik heb een tutorial geschreven over hoe je zelf een Data Analytics omgeving kan opzetten, op basis van R en Hadoop:

    http://www.marcel.im/2014/10/tutorial-hadoop-met-rstudio-server-en-rhadoop/