Bibliometry Toolbox: Label 00 Extract

En samlet liste over mulige navneformer flettes med de navneformer, der ønskes udtrukket.

Den oprindelige/fuldstændige liste over alle navneformer forsynes med sorteringskode 01, de udvalgte navneformer med startkode 00 og slutkode 99. Startkoden repræsenterer den kortest mulige navneform (incl. evt. falske hits) og slutkoden den længst mulige navneform:

00 Brightling, C og
99 Brightling, CX

Indflettet i totallisten, ser det således ud:

…..
01 Brennan, Paul 14
00 Brightling, C
01 Brightling, C 4
01 Brightling, C E 15
01 Brightling, Chris 4
01 Brightling, Chris E 10
01 Brightling, Christopher 10
01 Brightling, Christopher C E 1
01 Brightling, Christopher E 31
01 Brightling, Christopher Edward 1
99 Brightling, CX
01 Brochard, L 2
……

Efter filen er kørt gennem programmet Label 00 extract (i Bibliometry Toolbox) ser filen således ud - kun navneformer "mellem" 00 og 99-tags er trukket ud og ….

00 Brightling, C 31 | Brightling, C 4
00 Brightling, C 31 | Brightling, C E 15
00 Brightling, C 31 | Brightling, Chris 4
00 Brightling, C 31 | Brightling, Chris E 10
00 Brightling, C 31 | Brightling, Christopher 10
00 Brightling, C 31 | Brightling, Christopher C E 1
00 Brightling, C 31 | Brightling, Christopher E 31
00 Brightling, C 31 | Brightling, Christopher Edward 1

Metoden vil dog også udtrække andre navneformer med samme efternavn og første initial, men her kan man markere den hyppigst forekommende navneform med en regex:

00\t(.*?)\t(.*?) \| \t(.*?)\t(\2) erstat med: +++00\t\1\t\2\t\3\t\2

Vi udnytter her, at antal hits i regex match-2 skal være identisk med indholdet i sidste datafelt med regex match-4:

……
+++00 Heinrich, J 37 Heinrich, Joachim 37
00 Heinrich, J 37 | Heinrich, Jochen 1
00 Herbst, R 39 | Herbst, R A 1
00 Herbst, R 39 | Herbst, R S 1
00 Herbst, R 39 | Herbst, Ronald 1
00 Herbst, R 39 | Herbst, Roy 9
+++00 Herbst, R 39 Herbst, Roy S 39
00 Hersh, C 29 | Hersh, C 1
00 Hersh, C 29 | Hersh, C P 2
+++00 Hersh, C 29 Hersh, Craig P 29
……

+++00 Heinrich, J 37 Heinrich, Joachim 37
00 Heinrich, J 37 | Heinrich, Jochen 1
00 Herbst, R 39 | Herbst, R A 1
00 Herbst, R 39 | Herbst, R S 1
00 Herbst, R 39 | Herbst, Ronald 1
00 Herbst, R 39 | Herbst, Roy 9
+++00 Herbst, R 39 Herbst, Roy S 39
00 Hersh, C 29 | Hersh, C 1
00 Hersh, C 29 | Hersh, C P 2
+++00 Hersh, C 29 Hersh, Craig P 29

Alternativ løsning med regex-markering

^00(.*?)99.*?$ + "dot matches newline"

Medmindre andet er angivet, er indholdet af denne side licenseret under Creative Commons Attribution-ShareAlike 3.0 License