Scopus Csv Oprens

Datafelt: Affiliation

Split først alle enkelt-forfatternavne:

EID <TAB> Forfatter, adresse, land; Forfatter, adresse, land >

Find alle ; - erstat med \n#
Find alle \t - erstat med %\t

Kør filen gennem programmer "Add header to line" (Bibliometry Toolbox)

Filen indeholder nu:

EID <TAB> Forfatter, adresse, land
EID <TAB> Forfatter, adresse, land

Nogle af disse adresser kan indeholde flere forskellige "affiliations", kun adskilt af komma efter landenavn.
Kør derfor filen gennem Perl-programmet "landenavne.pl" så disse kommaer konverteres til semikolon.

For at sikre, at EID + Forfatter bevares ved næste "split", skal EID + Navn isoleres som samlet streng:

^(.*?) ([\w\ \-]*+), ([\w\.\-]*+), (.*?)$ - erstat med: \1_\2, \3 \4

Datafelt: Correspondence Address:

Afsluttende email-adresse fjernes (eller isoleres) med regex:
; email: (.*?)$
- der kan være flere mailadresser, de fjernes med:

email(.*?)$

Forfatternavn isoleres fra adresse-elementerne:

(punktum semikolon mellemrum) erstattes med TAB

Hvis "correspondence author" ikke er adskilt fra resten af adresseelementet:

([A-Z])\.([A-Z][a-z]+) - erstat med \1.\t\2

Marker alle linier med præcis 3 datafelter (adskilt af TAB):

2-s2(.*?) (.*?) (.*?)$ » 2-s2\1 #3# \2 \3

Forfatternavne med fulde fornavne

Langt de fleste forfatternavne i SCOPUS er på formen: efternavn, initialer med punktum; - og kan derfor splittes vha punktum+semikolon+space.
Enkelte navne optræder dog som efternavn, fulde fornavn(e), efternavn, fuld(e)fornavne etc. Disse kan findes med følgende regex:

^(.*?)\t([^,\n\r]*?), ([^,\n\r]*?), — erstat med: \1 \2, \3\n\1\t

hvis forfatterlisten allerede er splittet ud på postID <TAB> forfatternavn.

Bibliometri

- værktøjer og lidt baggrund

Datafelt: Affiliation

Datafelt: Correspondence Address:

Forfatternavne med fulde fornavne