Høst af rådata fra websider
Hvis en webside's URL indeholder en kendt (eller blot "forudsigelig") tekststreng, kan dens kildekode høstes vha. et Perl-program genereret af Bibliometry Toolbox > Web Scraper.
Eksempler her er: Alle danske PURE-databaser, f.eks. http://bibliometri.wikidot.com/sdu - et fungerende scraper program kan se således ud (med en ekstra tilføjelse af 20 sekunders pause mellem hver forespørgsel = sleep 20):
#!/usr/bin/perl -w
use strict;
use warnings;
use LWP::Simple;
$|=1;
my $output = $ARGV[0];
open(OUTPUT, '>'.$output) or die "Can't create $output.\n";
{
my $html = get("http://findresearcher.sdu.dk:8080/portal/da/publications/search.html?pageSize=500&page=0")
or die "Couldn't fetch the webpage.";
print OUTPUT $html;
print "Linenumber: 1\n"; sleep(20); }
{
my $html = get("http://findresearcher.sdu.dk:8080/portal/da/publications/search.html?pageSize=500&page=1")
or die "Couldn't fetch the webpage.";
print OUTPUT $html;
print "Linenumber: 2\n"; sleep(20); }
close(OUTPUT);
NB: Metoden virker ikke overfor Google Scholar, som blokerer for alle "robot-forespørgsler"