Høst af rådata fra websider

Hvis en webside's URL indeholder en kendt (eller blot "forudsigelig") tekststreng, kan dens kildekode høstes vha. et Perl-program genereret af Bibliometry Toolbox > Web Scraper.

Eksempler her er: Alle danske PURE-databaser, f.eks. http://bibliometri.wikidot.com/sdu - et fungerende scraper program kan se således ud (med en ekstra tilføjelse af 20 sekunders pause mellem hver forespørgsel = sleep 20):

#!/usr/bin/perl -w
use strict;
use warnings;
use LWP::Simple;
$|=1;
   my $output = $ARGV[0];
    open(OUTPUT, '>'.$output) or die "Can't create $output.\n";
     {
my $html = get("http://findresearcher.sdu.dk:8080/portal/da/publications/search.html?pageSize=500&page=0")
  or die "Couldn't fetch the webpage.";
 print OUTPUT $html;
 print "Linenumber: 1\n";   sleep(20);        }

     {
my $html = get("http://findresearcher.sdu.dk:8080/portal/da/publications/search.html?pageSize=500&page=1")
  or die "Couldn't fetch the webpage.";
 print OUTPUT $html;
 print "Linenumber: 2\n";   sleep(20);        }

close(OUTPUT);

NB: Metoden virker ikke overfor Google Scholar, som blokerer for alle "robot-forespørgsler"

Medmindre andet er angivet, er indholdet af denne side licenseret under Creative Commons Attribution-ShareAlike 3.0 License