Data Journalism Handbook: De reisgids voor datajournalistiek

Hoe doe je dat, datajournalistiek? Graven in een berg cijfers om een verhaal te maken? Je raakt snel de weg kwijt, omdat de hoeveelheid data enorm is toegenomen. Niet alleen zijn databanken van overheden, internationale organisaties of NGO’s beschikbaar, maar het web is zelf een databank geworden.

De allereerste vraag is: wat wil je weten? Ten tweede: welke technieken voor verzamelen en analyseren zet je in? De gereedschapskist van de wetenschap is de afgelopen jaren verder open gegaan en de software om dat gereedschap te bedienen wordt eenvoudiger.

Maar wat is handig en bruikbaar voor een concreet geval? En tenslotte: hoe vertel ik het de gebruiker/lezer?

The Data Journalism Handbook is de Bradt Travel Guide voor de datajournalistiek en hoort in de koffer van elke journalist die een reis door dit nauwelijks ontgonnen landschap wil beginnen.

Het handboek is het resultaat van een project waar een groot aantal journalisten, hackers en onderzoekers aan deelnamen. Jerry Vermanen schreef hierover op De Nieuwe Reporter. Deze benadering geeft ruimte aan voorbeelden uit de journalistieke data-praktijk. Inspirerend is deze goudmijn aan voorbeelden, omdat het concreet laat zien hoe het team van onderzoekers te werk is gegaan.

Al lezend kom je zelf op een idee: ‘Hé, deze benadering zou ik ook op een ander onderwerp kunnen toepassen.’ Het gevaar van veel voorbeelden is dat je door de bomen het journalistiek databos niet mee ziet. Dat is hier niet het geval, want de eindredactie volgt een strakke lijn: verzamelen, analyseren en visualiseren.

Read The Fucking Manual

Het Handboek voor de Datajournalistiek is zeker compleet, maar het is geen receptenboek, schrijft de redactie in het voorwoord. Stel dat ik bijvoorbeeld de woonplaatsen van Tweede Kamerleden wil analyseren. De NRC maakte hierover een prachtig verhaal onder de titel ‘Er zit geen banketbakker meer in de Kamer‘. Hoe schraap ik de woonplaatsen van Kamerleden op de site van de Tweede Kamer?

In het hoofdstuk ‘Getting Data’ vind ik een korte verwijzing naar soorten scrapers, maar ik miste bijvoorbeeld Outwit Hub als plugin bij Firefox. Wel bevat het een lang verhaal over ScraperWiki.

Plotseling sta ik tot mijn nek in Python en Ruby; meer voor coders en niet iets voor journalisten, denk ik. Veronderstel dat we de data hebben, dan moeten we die misschien wel opschonen. Sommige woonplaatsen moeten nog aan een gemeente worden gekoppeld. Google Refine wordt wel genoemd, maar hoe het werkt moet je zelf uitvinden.

De volgende stap is eenvoudig: Hoe ziet de toptien van woonplaatsen eruit? Sorteren en ordenen in Excel. Je wilt ze ook op een kaart? QGIS of Google Fusion Tables worden genoemd, maar hoe je die kaart maakt en je data aan de kaart koppelt blijf een geheim. De redactie van het Handboek onderkent dit probleem en schrijft: ‘Daarvoor hebben we de bibliotheek genaamd internet’.

Een zwaktebod, maar vooruit. Het hoeft geen probleem te zijn als je bereid bent zelf de software te installeren en te leren hoe het werkt: Read The Fucking Manual!

Netwerken

Sociale media hebben onze communicatie getransformeerd tot een netwerk van contacten waarin we sharen, liken, en (re)tweeten. Hoe ziet dat netwerk eruit, wie zijn de centrale personen, etc? De sleutel ligt bij sociale netwerk analyse en hiermee zijn aardige journalistiek verhalen te maken. Dit thema komt helaas nauwelijks aanbod.

Opmerkelijk is dat in een Noors voorbeeld UCInet wordt genoemd als software. UCInet is typisch iets uit de wetenschappelijke gereedschapskist met een nogal stijle leercurve, terwijl Gephi of NodeXL – beide worden niet vermeld – wat gemakkelijker zijn.

Cijfers in de journalistiek is een lastig onderwerp. Uit ervaring weet ik dat percentages al tot grote moeilijkheden kunnen leiden. Een beetje statistiek is dus van groot belang in deze tak van sport. In een prachtig voorbeeld over de Amerikaanse verkiezingscampagnes worden de financiele bijdragen geanalyseerd met R-project. Dit is wat te veel van het goede. Dan heb je wel een Bradt reisgids, maar ga je toch blind de datawoestijn in.

Nee, deze gebreken zijn niet onoverkomelijk. Het handboek laat vooral zien dat datajournalistiek teamwerk is. Je hoeft niet alles te weten, ieder heeft zijn specialiteit: de coder, de statisticus, de schrijver, designer. Je moet elkaar wel begrijpen. Dit boek slaagt erin duidelijk te maken hoe verschillende disciplines samenwerken; de recepten zijn daardoor toch van onderschikt belang.

Datajournalistiek – the new kid on the block – is erg populair. Gelukkig, want dat journalisten niets met cijfers hebben is een misvatting. De IRE conferentie van dit jaar was, denk ik, de grote doorbraak.

Media/kranten vragen naar meer scholing op datagebied; individuele journalisten scholen zich in spreadsheets, databases en kaarten. Wanneer de werkloosheid in de traditionele journalistiek toeneemt, liggen hier nieuwe kansen. Niet in de laatste plaats voor de journalistiek zelf. De datajournalistiek maakt de journalistiek weer springlevend. Dit handboek hoort standaard op elke redactie te staan en bovenaan de literatuurlijst van opleidingen journalistiek.

The Data Journalism Handbook; Jonathan Gray, Lucy Chambers, Liliana Bounegru. O’Reilly Media.
Paperback edition $17,49; Kindle edition $13,79
Gratis online versie van het handbook.

Peter Verweij –

Peter Verweij (1949), studeerde sociologie en filosofie aan de Universiteit van Nijmegen. Tot 2011 was hij werkzaam aan de School voor de Journalistiek te Utrecht als docent op het gebied van online journalistiek en computer assisted research and reporting (CAR). Momenteel werkt hij als trainer en consultant in zijn bedrijf D3-Media.

Alle artikelen van Peter Verweij op De Nieuwe Reporter.