Oprensning af poster fra VBN-basen

VBN-basens poster - fra web-siden - kan let tagges, så de kan bruges i en efterfølgende bibliometrisk analyse - og til en præsentabel oversigt, f.eks.:


Udgivet
Making Chocolate-covered Broccoli: Designing a Mobile Learning Game about Food for Young People with Diabetes
Glasemann, M. , Kanstrup, A. M. & Ryberg, T. 2010 I: Proceedings of the 8th ACM conference on Designing Interactive Systems. Halskov, K. & Graves Petersen, M. (red.). Association for Computing Machinery, s. 262-271. 10 s.
Forskning - peer review › Konferenceartikel i proceeding


1. Posten begynder med publikationsstatus, og næste linie er altid publikationens titel, så listen kan adskilles i enkeltposter med følgende regex:

^(Afsendt)|^(Submitted)|^(Accepteret)|^(Accepted)|^(In press)|^(E-pub ahead of print)|^(Udgivet)|^(Published)|^(Ekstern)|^(External)

erstat med:

\nPU: \1\2\3\4\5\6\7\8\9\10\nTI:

Vi har nu:


PU: Udgivet
TI: Making Chocolate-covered Broccoli: Designing a Mobile Learning Game about Food for Young People with Diabetes
Glasemann, M. , Kanstrup, A. M. & Ryberg, T. 2010 I: Proceedings of the 8th ACM conference on Designing Interactive Systems. Halskov, K. & Graves Petersen, M. (red.). Association for Computing Machinery, s. 262-271. 10 s.
Forskning - peer review › Konferenceartikel i proceeding


2. Tidsskriftet eller bogens titel står altid efter I: - enten inde i en tekststreng eller i begyndelsen:

( I: )|(\nI: )|( In: )|(\nIn: )

erstattes med:

\nSO:

3. Forfatterstrengen ligger altid mellem titlen og (nu) "SO:", den isoleres med:

TI: (.*?) /

erstat med:

TI: \1\nAU:

4. Posten slutter med:

^(Forskning)|^(Research)|^(Formidling)|^(Communication)|^(Undervisning)|^(Education)|^(Rådgivning)|^(Commissioned - peer-review)|^(Commissioned)

erstat med:

TY: \1\2\3\4\5\6\7\8\9

5. "Løse trykkeår" der har fungeret som overskrifter i listen, kan findes med \n(\d{4})$ - erstat med ingenting

6. Ikke taggede linier:

Enkelte linier bliver ikke rigtigt tagget med ovenstående. De kan findes med følgende regex:

\n(\b(?!(?:PU: |TI: |AU: |SO: |PY: |TY: |PT: )\b)\w+\b)(.*?)$

I de fleste tilfælde skal de (få) fundne linier rettes til manuelt: linieskift + tag tilføjes, i 95% af tilfældene skal linien erstattes med:
\nSO: \1\2

Eller:

Hvis f.eks. felterne forfatter (AU) og publikationstype (PT) er korrekt tagget,kan man tagge SO-feltet med:

AU: (.*?)
([^SO: ])(.*?)$
PT: (.*?)

- erstat med:

AU: \1
SO: \2\3
PT: \4

7. Trykkeår:

Trykkeåret står kun som hoved for gruppen af poster fra det pågældende år.
Det indgår desuden i datafeltet: SO (Tidsskrift) og ED (Redaktør + Forlag) i kapitel/hele bøger

Et selvstændigt datafelt til trykkeår kan indsættes med:

(SO|ED): (.*?)(2015|2014|2013|2012|2011|2010|2009|2008|2007|2006|2005|2004|2003|2002|2001|2000)(.*?)$

erstat med:

\1: \2\3\4
PY: \3

(SO|ED): (.*?)(1999|1998|1997|1996|1995|1994|1993|1992|1991|1990|1989|1988|1987|1986|1985)(.*?)$

erstat med:

\1: \2\3\4
PY: \3

…. så langt tilbage, som forfatterskabet rækker

Hvis metoden resulterer i flere PY-felter under hinanden, kan dubletterne fjernes med:

\nPY: (.*?)
PY: (.*?)\n

- erstat med: \nPY: \1

Alternativ:

SO: (.*?)20(\d)(\d)(.*?)$

- erstat med:

SO: \120\2\3\4
PY: 20\2\3

- og tilsvarende for 1990'erne:

SO: \119\2\3\4
PY: 19\2\3

8. Konvertertering til TAB-format:

PU: (.*?)$
TI: (.*?)$
AU: (.*?)$
SO: (.*?)$
PY: (.*?)$
TY: (.*?)$

erstat med:

PU: \1\tTI: \2\tAU: \3\tSO: \4\tPY: \5\tTY: \6

- eller bare:

\1\t\2\t\3\t\4\t\5\t\6 - hvor du så kan indsætte en "header" øverst i hver tabel:

PU:\tTI:\tAU:\tSO:\tPY:\tTY:

Rækkefølgen af felter kan naturligvis også ændres, blot man husker, at :

\1 : indeholder datafeltet: Publication status (PU)
\2 : indeholder Titel (TI)
\3 : indeholder den samlede forfatterstreng (AU)
\4 : indeholder tidsskrift, bind, sidetal eller bogens titel (SO)
\5 : indeholder trykkeår (PY)
\6 : indeholder publikationstype (TY)


Alternativ:

TI: ([^\n]*?)$
([^\n]*?)$

erstattes med:

TI: \1
SO: \2

Medmindre andet er angivet, er indholdet af denne side licenseret under Creative Commons Attribution-ShareAlike 3.0 License