Scraperwiki is vernieuwd

‘Scraping’ is een nuttige manier om aan gegevens te komen voor een datajournalistiek project. Je kan zelf een scraper maken met Scraperwiki. Onlangs werd Scraperwiki vernieuwd en het gaat niet om slechts een nieuw jasje, de gehele opzet is anders. Peter Verweij zet de veranderingen op een rij.

Scraping is belangrijk gereedschap in de datajournalistiek. Het importeren van data in een spreadsheet vanaf een webpagina of een database, lukt niet altijd met simpel copy-paste en download. Outwit Hub is een aardige tool om deze klus te klaren, maar ook die schiet soms te kort. Dan zelf maar een scraper maken. Scraperwiki is de place to go. Paul Bradshaw besteedt daar in ‘Scraping for Journalists’ uitgebreid aandacht aan (zie de recensie op DNR) .

Onlangs werd Scraperwiki vernieuwd en dat gaat niet om een nieuw jasje of een nieuwe interface, ook de opzet is anders. Gelukkig kun je de recepten van Bradshaw blijven gebruiken.

Om de vernieuwde Scraperwiki te kunnen gebruiken moet een nieuw account worden aangemaakt op de website van Scraperwiki. De oude login werkt niet op de nieuwe versie. Ook je oude scrapers en data zijn daar niet meer te vinden. Ze staan nog op de oude versie van de website, waar je met je oude password kunt inloggen. Er is een scriptje beschikbaar om ze importeren, maar ook copy paste werkt.

Gratis versie

Echter er zijn nu wel beperkingen. In de gratis versie, Community geheten, kunnen 3 datasets gebruikt worden van maximaal 8 MB tot 30 minuten CPU-tijd. Heb je meer nodig dan zijn er de volgende opties:

  1. Datascientist met onbeperkt aantal datasets met een maximum van 256 MB per set voor $29 per maand
  2. Explorer met maximaal 10 datasets voor $9.

Toen ik probeerde een nieuwe dataset aan te maken, terwijl er al 3 sets stonden kreeg ik direct een upgrade menu op het scherm.

“More powerful for the end user and more flexible for the coder”, is het adagium van de nieuwe scraperwiki. En dat blijkt zodra je begint met het creëren van een nieuwe dataset. Geen keuze menu meer maar ‘tiles’. ‘Code in your browser’ brengt je bij de vertrouwde oude interface om een scraper te maken, met keus voor verschillende talen (naast Python, en Ruby en PHP is aantal flink uitgebreid).

Werken met de data

Heb je een werkende scraper dan zijn er de volgende mogelijkheden om met de verzamelde data te werken. Opnieuw verschijnt een menu met tiles:

  1. Bekijken van de data in tabelvorm
  2. Grafiek of kaart maken van de data
  3. Het selecteren van data met SQL

Tenslotte kun je je data downloaden. Dat werkt een stuk sneller en makkelijker dan in de oude interface, waar de data in een aparte view moesten worden gedownload.

Nieuw in het hoofdmenu is dat je direct naar Tweets kan zoeken of in Flickr op geo-tags. Leuke service die goed werkt. Ook de mogelijkheid om een spreadsheet te uploaden om vervolgens grafieken/kaarten te maken, of selecties te maken met SQL is handig. Voor coders is er nog mogelijkheid om een eigen tool te maken door direct in te loggen op de scraperwiki-server.

Tegenvaller

Maar waar is de mogelijkheid om de scrapers van andere gebruikers te bekijken en te kopiëren?

“Unlike Classic, the new ScraperWiki is not aiming to be a place where people publically share code and data. The new ScraperWiki is, at its heart, a more private, personal service”.

Ai, dat is een tegenvaller, want het bewerken van bestaande scrapers is niet alleen leerzaam maar ook handig om snel wat te scrapen. Je kunt dus niet meer snel door een verzameling van bestaande scrapers lopen om wat te lenen. Maar, zegt Scraperwiki, je kunt je code bijvoorbeeld publiceren op GitHub; je data kun je delen op DataHub.io.

Een schrale troost, voorlopig – tot september waarschijnlijk- kan ik nog even werken in de oude versie.

Peter Verweij –

Peter Verweij (1949), studeerde sociologie en filosofie aan de Universiteit van Nijmegen. Tot 2011 was hij werkzaam aan de School voor de Journalistiek te Utrecht als docent op het gebied van online journalistiek en computer assisted research and reporting (CAR). Momenteel werkt hij als trainer en consultant in zijn bedrijf D3-Media.

Alle artikelen van Peter Verweij op De Nieuwe Reporter.