Hentning og oprensning af VBN-poster

Download kildekode

Et søgesæt kan defineres gennem en URL, f.eks.: trykkeår, en person (uuid) eller institut/center/forskergruppe (uuid). Man kan hente poster op til 500 ad gangen, rummer svarsættet flere, hentes posterne i flere omgange: lav en liste over de URL'er, der dækker svarsættets poster, f.eks. en søgning på alle 2016-2017-poster:

http://vbn.aau.dk/da/publications/search.html?search=&publicationYearsFrom=2016&publicationYearsTo=2017&type=&uri=&pageSize=500&page=0

Se i bunden af web-præsentationen, hvor mange "sider" man skal vise for at nå gennem hele svarsættet - her side 0 til og med side 22 (~11.000 poster)
Lav nu 22 URL'er fra og med page=0 til og med page=14 uden blanke linier mellem og kør filen gennem Bibliometry Toolbox > Web Scraper - det danner et nyt Perl-program, der køres senere og som selv henter kildekoden til de mange sider hjem i een samlet fil.

Oprens kildekode

Kildekode kan hentes hjem i to forskellige formater: efter enhver søgning med CTRL-U eller efter klik på RSS-ikon. RSS-metoden giver flere datafelter, men kræver, at man først har valgt at vise op til 500 poster pr. sidevisning, dvs. en URL af typen:

http://vbn.aau.dk/da/persons/pp(person-uuid)/publications.html?pageSize=500&page=0

Alm. format: Kildekodens HTML-formattering kan i det nødvendige omfang fjernes med dette Perl-program: VBN_split.pl. Det efterlader en tagget fil, der kan splittes til TAB-separeret format gennem en to-trins proces, begge v.h.a. Bibliometry Toolbox

  1. Tilføj trykkeår til enkelte post: Add PY to VBN-records
  2. Split den taggede fil i TAB-format: VBN Tagged Split - evt. læs mere her

Tidsskrift, bind, sidetal kan strammes op med:

, (\d{2})\.(\d{2})\.(\d{4}), |, (\d{2})\.(\d{4}), |, (\d{4}),
- erstat med
,

- og derefter:
, Vol\. (.*?), Nr\. (.*?), s\.

erstat med:
 \1[\2]:

RSS-format: Brug istedet Perl-programmet VBN_XML_split.pl og udtræk datafelterne med Bibliometry Toolbox > PURE_XML_Split

Den felt-opsplittede fil skal nu konverteres til tegnsæt UTF-8 før import i FileMaker database. Med denne konvertering mellem forskellige tegnsæt sikrer man at alle ikke-a-z-0-9 tegn bevarer deres tegnværdi.

Høst af supplerende data: doi, ISSN, forlagsnavn

Hvis datasættet er høstet på basis af årstalsafgrænsning, kan man med Perl-programmet VBN_coins.pl udtrække datafelterne: DOI; ISSN; Journal title; ISBN; Publisher; Pages; Volume; Issue; Book/Conference title og postens UUID. Kør programmet på uddatafilen fra [VBN_split.pl, de relevante datafleter udtrækkes herefter med programmet X15_2 (samme funktion som X15_split, men meget, meget langsommere, fordi det kun udtrækker første forekomst af hvert datafelt.

Isoler links til fuldtekst

<span class="file_attachment" title=".*?"><a href="

erstat med:
 \n\n>>>\1\n

og:
"></a></span></div><div class="rendering.*?"><p><a rel=".*?" href="http://vbn\.aau\.dk/(da|en)/publications/.*?\((.*?)\)\.html" class="link"><span><strong>

erstat med:
\t\2\t

Vi har nu en fil med formatet: Link til fuldtekst | uuid | publikationens titel

AAU-ansatte

Nuværende ansatte - 8.000+ navne (page=0 - page=17)

http://vbn.aau.dk/da/persons/search.html?current=true&pageSize=500&page=0

Tidligere ansatte - 14.000+ navne (page=0 - page=29)
http://vbn.aau.dk/da/persons/search.html?former=true&pageSize=500&page=0

Oprenses med: VBN_persons_split.pl - efterfulgt af Bibliometry Toolbox > X15_split

Søg alle indekserede tidsskrifter

http://vbn.aau.dk/da/journals/search.html?pageSize=500&page=0 - 17 pages

UUID-koder for alle institutter og øvrige enheder

http://vbn.aau.dk/da/organisations/search.html | http://vbn.aau.dk/en/organisations/search.html

Medmindre andet er angivet, er indholdet af denne side licenseret under Creative Commons Attribution-ShareAlike 3.0 License