Hentning og oprensning af VBN-poster

Download kildekode

Et søgesæt kan defineres gennem en URL, f.eks.: trykkeår, en person (uuid) eller institut/center/forskergruppe (uuid). Man kan hente poster op til 500 ad gangen, rummer svarsættet flere, hentes posterne i flere omgange: lav en liste over de URL'er, der dækker svarsættets poster, f.eks. en søgning på alle 2016-2017-poster:

http://vbn.aau.dk/da/publications/search.html?search=&publicationYearsFrom=2016&publicationYearsTo=2017&type=&uri=&pageSize=500&page=0

Se i bunden af web-præsentationen, hvor mange "sider" man skal vise for at nå gennem hele svarsættet - her side 0 til og med side 22 (~11.000 poster)
Lav nu 22 URL'er fra og med page=0 til og med page=14 uden blanke linier mellem og kør filen gennem Bibliometry Toolbox > Web Scraper - det danner et nyt Perl-program, der køres senere og som selv henter kildekoden til de mange sider hjem i een samlet fil.

Oprens kildekode

Kildekode kan hentes hjem i to forskellige formater: efter enhver søgning med CTRL-U eller efter klik på RSS-ikon. RSS-metoden giver flere datafelter, men kræver, at man først har valgt at vise op til 500 poster pr. sidevisning, dvs. en URL af typen:

http://vbn.aau.dk/da/persons/pp(person-uuid)/publications.html?pageSize=500&page=0

Alm. format: Kildekodens HTML-formattering kan i det nødvendige omfang fjernes med dette Perl-program: VBN_split.pl. Det efterlader en tagget fil, der kan splittes til TAB-separeret format gennem en to-trins proces, begge v.h.a. Bibliometry Toolbox

  1. Tilføj trykkeår til enkelte post: Add PY to VBN-records
  2. Split den taggede fil i TAB-format: VBN Tagged Split - evt. læs mere her

Tidsskrift, bind, sidetal kan strammes op med Perl-programmet SO_opret.pl - det fjerner dels evt. tidsskrift-uuid'er og endestillede udgivelsestidspunkt og punktummer + Bind (Vol.), Nr. (No.) og s. (p.) - eks:

Journal of Biomechanics [c4a7937e-9f3b-4057-86b6-a1eaae4a3a3e], Bind 49, Nr. 6, 2016, s. 953-958. > Journal of Biomechanics 49[6]: 953-958

Høst af supplerende data: doi, ISSN, forlagsnavn

Hvis datasættet er høstet på basis af årstalsafgrænsning, kan man med Perl-programmet VBN_coins.pl udtrække datafelterne: DOI; ISSN; Journal title; ISBN; Publisher; Pages; Volume; Issue; Book/Conference title og postens UUID. Kør programmet på kildekoden fra de udtrukne websider; de relevante datafelter udtrækkes herefter med programmet X15_2 (samme funktion som X15_split, men meget, meget langsommere, fordi det kun udtrækker første forekomst af hvert datafelt.

RSS-format

Brug istedet Perl-programmet VBN_XML_split.pl og udtræk datafelterne med Bibliometry Toolbox > PURE_XML_Split

Isoler links til fuldtekst

Med udgangspunkt i posters kildekode (CTRL-U eller høstet vha. VBN_split.pl):

<span class="file_attachment" title=".*?"><a href="

erstat med:
 \n\n>>>\1\n

og:
"></a></span></div><div class="rendering.*?"><p><a rel=".*?" href="http://vbn\.aau\.dk/(da|en)/publications/.*?\((.*?)\)\.html" class="link"><span><strong>(.*?)</strong></span></a>

erstat med:
\t\2\t\3\n\n

Vi har nu - efter alfabetisk sortering en fil hvor : Link til fuldtekst | uuid | publikationens titel - danner en klump - bruges til at kontrollere kvalitet af links i fulde VBN-poster

AAU-ansatte

Nuværende ansatte - 8.000+ navne (page=0 - page=17)

http://vbn.aau.dk/da/persons/search.html?current=true&pageSize=500&page=0

Tidligere ansatte - 14.000+ navne (page=0 - page=29)
http://vbn.aau.dk/da/persons/search.html?former=true&pageSize=500&page=0

Oprenses med: VBN_persons_split.pl - efterfulgt af Bibliometry Toolbox > X15_split

Søg alle indekserede tidsskrifter

http://vbn.aau.dk/da/journals/search.html?pageSize=500&page=0 - 17 pages

UUID-koder for alle institutter og øvrige enheder

http://vbn.aau.dk/da/organisations/search.html | http://vbn.aau.dk/en/organisations/search.html

Medmindre andet er angivet, er indholdet af denne side licenseret under Creative Commons Attribution-ShareAlike 3.0 License