CORDIS - EU-information

Søgemaskine - Advanced Search

http://cordis.europa.eu/search/advanced_en

Oprens kildekode fra websider

Find først alle relevante projekters ID-numre, de står mange steder i kildekoden, f.eks.:

<div id="project_196955_en" class="match project project_196955_en">
eller som del af url:
<a href="&#x2F;project&#x2F;rcn&#x2F;196955_en.html">Redesigning 2D Materials for the Formulation of Semiconducting Inks</a></span>

Projektnumrene høstes lettest ved at lave en simpel find/erstat:

<div id="project_(.*?)_en"

- erstat med:
>>>>http://cordis.europa.eu/project/rcn/\1_en.html

- og sorter tekstfilen alfabetisk

Saml alle projekt-ID-numre i en link-liste af denne type

http://cordis.europa.eu/project/rcn/196955_en.html
http://cordis.europa.eu/project/rcn/196956_en.html    
http://cordis.europa.eu/project/rcn/196957_en.html    
http://cordis.europa.eu/project/rcn/196959_en.html

og lav den den til en Perl-fil med *Bibliometry Toolbox** > Web_Scraper. Perl-programmet indeholder pt. en enkelt fejl: Underscore-tegnet før sprogkode "en.html" skal indsættes manuelt før programmet kan høste de udvalgte websider.

RElevante data fra høstede websider kan udtrækkes med:

FET_oprens.pl

Perl-programmerne "tagger" relevante tekstafsnit i den kumulerede kildekode, de taggede felter udtrækkes med Bibliometry Toolbox > X15_split

Fjern overflødig tekst, sidehoveder m.m. fra sidens kildetekst:

<!DOCTYPE html PUBLIC ".*?<div id="matchlist">

Husk at sætte "dot matches new line"

https://erc.europa.eu/projects-and-results/erc-funded-projects

Links til enkelt-poster i CORDIS

http://cordis.europa.eu/project/rcn/106908_en.html

Medmindre andet er angivet, er indholdet af denne side licenseret under Creative Commons Attribution-ShareAlike 3.0 License