Regex Lande

Udskillelse af landenavne i adressestreng:

Eet til tre-ords landenavne (f.eks. Peoples R China):

, (\w* \w* \w*)$|, (\w* \w*)$|, (\w*)$ , \1\2\3\t\1\2\3

USA_adresser kan efterfølgende oprenses med:

\t(\w*?) (\w*?) USA$|\t(\w*?) USA$ \tUSA

- eller Stat + postnummer alene:

, (\w{2}) (\d{5})$ \tUSA

Landenavne kan være afsluttet med punktum
Fra og med 199 ??? er WoS-adressestrengen med komma-space, før 199??? er adressestrengen kompakt og uden mellemrum efter komma. Den kan "opløses" til komma mellemrum landenavn med:

,([^,\t\ ]*?)$
- erstat med:
,[ ]\1

NB: Landenavne med &: Bosnia & Herceg + St Kitts & Nevi

Landenavne - lister

Countries of Europe

Hvis der er flere adresser i samme semikolon-adskilte felt:

I adresse-feltet finder man undertiden flere adresser indenfor samme semikolon-adskilte adressefelt, her efterfølges landets navn blot af komma. Fejlen er særligt hyppigt forekommende i SCOPUS "Author affiliation-feltet". Disse adressestrenge kan splittes med semikolon mellem hver adresse med PERL-programmet : landenavne.pl

I nogen tilfælde optræder landenavn "klappet sammen med foregående ord i adressestrengen, denne fejl kan rettes med PERL-programmet : landenavne_isoler.pl

Saml "label" + forfatternavn til den nye "label":

^(.*?) ([\w\ \-]*+), ([\w\.\-]*?).,

erstat med:

\1 ¤¤¤ \2, \3\t

Kør filen gennem programmet Any_label_semicolon_split - særlig side.

NB

Finder ovenstående U.S.A. ???
\t(\w)(\w) (\d)(\d)(\d)(\d)(\d) USA
erstat med
\tUSA
eller:
\t(\w)(\w) USA
erstattes med
\tUSA

Fjern personnavne i adresse-streng

\[.*?] - erstattes af ingenting

Medmindre andet er angivet, er indholdet af denne side licenseret under Creative Commons Attribution-ShareAlike 3.0 License