Een flinke groep vrijwilligers, weblog Sargasso en ANP hebben afgelopen vrijdag (16 maart) een hackaton gehouden over de crisis. Het datajournalistieke experiment is geslaagd.

Wat hebben we gedaan? De afgelopen maanden hebben we grote hoeveelheden data verzameld die indicatief zijn voor de economische ontwikkeling. We wilden twee vragen beantwoorden. Ten eerste: is het mogelijk om aan de hand van grote datasets en datajournalistieke methoden in kaart te krijgen waar de klappen van de crisis vallen? En de tweede vraag is, zo ja, waar vallen die klappen dan?

Aanpak

Hoe hebben we dit aangepakt? Allereerst hebben we data verzameld van het UWV, CBS, Kadaster en Rechtspraak.nl (faillisementen en schuldsaneringen). Die data hebben we zoveel mogelijk schoongemaakt.

We hebben vervolgens een aantal oproepen geplaatst voor vrijwilligers (programmeurs, developers en designers) en dat leverde zo’n 10 aanmeldingen op. Ook heb ik een presentatie gegeven bij dev.haag, een open data/hackers-collectief. Dat leverde ook weer een aantal aanmeldingen op. Tot slot is een aantal regiojournalisten uitgenodigd om mee te denken over invalshoeken voor verhalen.

Data bereiden

Op de hackaton zelf hebben we ons allereerst gericht op het inrichten van een database. De kunst is om data makkelijk in een database te krijgen en gestructureerd eruit te halen.

Daarnaast hebben we nog meer data verzameld en klaargemaakt. Aan het einde van de avond stond er een goede MySQL-database, waarmee het mogelijk is om verschillende databronnen te combineren. Hierbij moet wel in gedachten gehouden worden dat er tussen verschillende datasets hooguit correlaties gevonden worden en geen causale verbanden – om die aan te tonen is altijd extra onderzoek nodig.

Vervolg

De rest van de avond hebben we nagedacht over het vervolgtraject. Enerzijds moeten er meer data worden toegevoegd. Anderzijds moet er een interface worden gebouwd.

Het grondwerk is gelegd om queries te automatiseren – de codes die de data ophalen. Die queries zijn behoorlijk lastig te schrijven voor niet-technici. Tevens kun je geautomatiseerde queries in een later stadium weer gebruiken voor een interactieve applicatie. Ter plekke bleek dat we de tijd en mankracht misten om die applicatie te maken. Dat bewaren we daarom voor een vervolgsessie.

Geleerde lessen

Waar liepen we tegenaan? Als ik een tip mag geven voor journalisten die ook een hackaton willen organiseren: zorg dat je je data goed op orde hebt voordat je begint. Wij dachten alles prima up to date te hebben, maar op de dag zelf bleken we toch nog wel het een en ander te missen.

Daarnaast bleek dat we nog niet alles hadden en moest er nog data gescraped worden, bijvoorbeeld van het Kadaster. Uiteindelijk zijn we ook vrij veel tijd kwijt geweest aan het schoonmaken van data. Per dataset moet namelijk de documentatie goed op orde zijn: waar komen de data vandaan, welke bron, url, wat zeggen de data en welke bijzonderheden zijn er (ontbreken er bijvoorbeeld data)? De expertise was aanwezig, maar die mankracht hadden we liever ingezet voor het echte ingewikkelde werk, namelijk het ontsluiten van de database.

Desondanks ben ik in ieder geval erg tevreden over de uitkomst. We hebben een paar joekels van datasets onder controle gekregen en de eerste berekeningen tonen al aardige inzichten. We kunnen bijvoorbeeld vrij makkelijk de werkloosheidsontwikkeling op postcodeniveau bekijken en de eerste analyses brachten enkele verrassingen naar voren. Daarover zullen we nog uitgebreid berichten.

Binnenkort houden we een vervolgsessie, dus houd deze site of Sargasso in de gaten.

Nog geen reactie — begin de discussie!