CORDIS - EU-information
Søgemaskine - Advanced Search
http://cordis.europa.eu/search/advanced_en
Oprens kildekode fra websider
Find først alle relevante projekters ID-numre, de står mange steder i kildekoden, f.eks.:
<div id="project_196955_en" class="match project project_196955_en">
<a href="/project/rcn/196955_en.html">Redesigning 2D Materials for the Formulation of Semiconducting Inks</a></span>
Projektnumrene høstes lettest ved at lave en simpel find/erstat:
<div id="project_(.*?)_en"
- erstat med:
>>>>http://cordis.europa.eu/project/rcn/\1_en.html
- og sorter tekstfilen alfabetisk
Saml alle projekt-ID-numre i en link-liste af denne type
http://cordis.europa.eu/project/rcn/196955_en.html
http://cordis.europa.eu/project/rcn/196956_en.html
http://cordis.europa.eu/project/rcn/196957_en.html
http://cordis.europa.eu/project/rcn/196959_en.html
og lav den den til en Perl-fil med *Bibliometry Toolbox** > Web_Scraper. Perl-programmet indeholder pt. en enkelt fejl: Underscore-tegnet før sprogkode "en.html" skal indsættes manuelt før programmet kan høste de udvalgte websider.
RElevante data fra høstede websider kan udtrækkes med:
Perl-programmerne "tagger" relevante tekstafsnit i den kumulerede kildekode, de taggede felter udtrækkes med Bibliometry Toolbox > X15_split
Fjern overflødig tekst, sidehoveder m.m. fra sidens kildetekst:
<!DOCTYPE html PUBLIC ".*?<div id="matchlist">
Husk at sætte "dot matches new line"
https://erc.europa.eu/projects-and-results/erc-funded-projects