De macht van het getal. Dat is dit jaar het thema van het elfde VVOJ Congres in Zwolle. Twee dagen lang komen driehonderd onderzoeksjournalisten uit Nederland en België bij elkaar om van elkaar te leren. Jerry Vermanen en Ruby van der Meijden doen verslag van enkele workshops en sessies.

Voor onderzoeksjournalisten is het van vitaal belang om goede informatie te verzamelen. Daarnaast wil je informatie veilig opslaan, verbergen voor autoriteiten of anoniem browsen zonder sporen op internet achter te laten. De tools en tips van drie sessies zijn hieronder verzameld: scraping, zoeken in het Kadaster en computerbeveiliging.

Data verzamelen

Het hoeft nauwelijks programmeerkennis te hebben om data van websites te scrapen, denken Peter Verweij en Arlen Poort. Maar voordat je aan scraping begint, probeer gewoon te copypasten naar Excel. Altijd de makkelijkste weg kiezen. Lukt dat niet of kost het teveel tijd, dan steeds steeds iets geavanceerdere technieken toepassen.

In Google Spreadsheets is een functie genaamd =importHTML. Hiermee kun je een specifiek deel van een webpagina in een spreadsheet importeren. ‘Trail and error. Gewoon proberen, kijken wat er gebeurt en aanpassen als het niet werkt’, zegt Verweij. Om de eerste tabel op deze wiki-pagina te scrapen, heb je bijvoorbeeld voldoende aan =ImportHtml("hier de URL", "table", 1).

Daarnaast is het mogelijk om via Google Spreadsheets ook met scripts te werken, zodat je elke minuut nieuwe data kunt toevoegen. Arlen Poort heeft dit voorbeeld beschikbaar gesteld om zelf mee te experimenteren. Via Extra, Scripteditor kun je het script aanpassen.

Met de gratis versie van Outwit Hub kun je vrij beperkt scrapen (één scraper, maximaal honderd rijen) en de betaalde versie kost 75 euro. Maar laat je vooral niet afschrikken, want Outwit Hub geeft je meer mogelijkheden dan Spreadsheets. Je kunt meerdere pagina’s tegelijk scrapen en exacter aangeven wat je wilt hebben.

Kadaster, je beste personenzoeker

Het Kadaster houdt sinds 1832 bij wat er aan vastgoed in Nederland staat. ‘Wij zijn een schatkamer, maar communiceren niet actief over onze vondsten’, aldus woordvoerster Nienke Stavast van het Kadaster. Journalisten moeten dus zelf op zoek naar de parels in de database van het Kadaster.

Alle informatie die op de notarisakte staat, is vindbaar op individueel niveau. Je kunt een account aanmaken bij het Kadaster om zelf in de database te zoeken. Vervolgens moet je per individuele records betalen. Zo kun je voor €3,20,- te weten komen wat de adressen van vastgoed en wederzijdse beslagleggingen zijn na de scheiding tussen Ruud Gullit en Estelle Cruyff.

Maar voor onderzoeken met honderden zoekopdrachten ben je veel geld en tijd kwijt. Voor die projecten kan het Kadaster maatwerk leveren. Via communicatie@kadaster.nl of 088-1833294 kun je contact opnemen om specifieke zoekvragen door te spreken. Stavast waarschuwt dat veel vragen simpelweg niet beantwoord kunnen worden. ‘Wij krijgen echt heel vaak de vraag hoeveel hypotheekschuld er is. Die informatie hebben wij niet, dus dat kunnen we niet beantwoorden.’

Daarnaast is er ook voldoende gratis data beschikbaar, namelijk de geaggregeerde cijfers over woningen. In het Kadaster Vastgoed Dashboard wordt elke maand een update gegeven van de gemiddelde hoogte van de koopsom en het aantal huizen dat is geregistreerd bij het Kadaster.

Ten slotte goede tip om kosten te besparen: Kijk of de gegevens te wobben zijn bij overheidsinstantie. Soms moeten ministeries analyses uitvoeren met dezelfde gegevens.

Beveilig je computer

Volgens beveiligingsexpert Arno Reuser is het belangrijk om te beseffen dat zoekmachines een zeer beperkt beeld geven van het wereldwijde web. Het aantal resultaten is bijvoorbeeld een gok en Google geeft gepersonaliseerde resultaten. Ga dan ook nooit blind op die resultaten af. Probeer ook eens andere zoekmachines, zoals Bing, Blekko of DuckDuckGo.

Mocht je alsnog Google willen gebruiken, gebruik dan eens het commando inurl:. Via inurl:confidential of inurl:secret plus wat zoektermen heeft Reuser al eens geheime informatie van de Nederlandse marine ontdekt.

Mocht je gevoelige bestanden willen beschermen – voornamelijk als je naar het buitenland wilt gaan – dan kun je via Truecript je bestanden encrypten. Je kunt Excel-bestanden met een wachtwoord beveiligen en vermommen als een onschuldig ogend bestandje.

Met TOR-software kun je anoniem over het internet browsen. Maar wees voorzichtig bij elke stap die je neemt. Als je bijvoorbeeld PDF’s opent in je browser, worden bepaalde bestanden naar je harde schijf gedownload. Daarmee heb je jezelf stiekem verraden.

Journalisten hebben een voorkeur voor gratis tools, maar volgens Reuser schuilt daar ook een gevaar in. ‘Wat gratis is, heeft een reden. Je bent zelf namelijk het product.’ Ironisch genoeg gaat dat ook vaak op voor tools waarmee je juist je persoonlijke informatie mee probeert te beschermen.

Jerry Vermanen

Redacteur

Jerry Vermanen werkt als datajournalist bij KRONCRV.
Profiel-pagina
Al één reactie — discussieer mee!