Datafelt: Affiliation
Split først alle enkelt-forfatternavne:
EID <TAB> Forfatter, adresse, land; Forfatter, adresse, land >
Find alle ; - erstat med \n#
Find alle \t - erstat med %\t
Kør filen gennem programmer "Add header to line" (Bibliometry Toolbox)
Filen indeholder nu:
EID <TAB> Forfatter, adresse, land
EID <TAB> Forfatter, adresse, land
Nogle af disse adresser kan indeholde flere forskellige "affiliations", kun adskilt af komma efter landenavn.
Kør derfor filen gennem Perl-programmet "landenavne.pl" så disse kommaer konverteres til semikolon.
For at sikre, at EID + Forfatter bevares ved næste "split", skal EID + Navn isoleres som samlet streng:
^(.*?) ([\w\ \-]*+), ([\w\.\-]*+), (.*?)$ - erstat med: \1_\2, \3 \4
Datafelt: Correspondence Address:
Afsluttende email-adresse fjernes (eller isoleres) med regex:
; email: (.*?)$
- der kan være flere mailadresser, de fjernes med:
email(.*?)$
Forfatternavn isoleres fra adresse-elementerne:
(punktum semikolon mellemrum) erstattes med TAB
Hvis "correspondence author" ikke er adskilt fra resten af adresseelementet:
([A-Z])\.([A-Z][a-z]+) - erstat med \1.\t\2
Marker alle linier med præcis 3 datafelter (adskilt af TAB):
2-s2(.*?) (.*?) (.*?)$ » 2-s2\1 #3# \2 \3
Forfatternavne med fulde fornavne
Langt de fleste forfatternavne i SCOPUS er på formen: efternavn, initialer med punktum; - og kan derfor splittes vha punktum+semikolon+space.
Enkelte navne optræder dog som efternavn, fulde fornavn(e), efternavn, fuld(e)fornavne etc. Disse kan findes med følgende regex:
^(.*?)\t([^,\n\r]*?), ([^,\n\r]*?), — erstat med: \1 \2, \3\n\1\t
hvis forfatterlisten allerede er splittet ud på postID <TAB> forfatternavn.