Fletning af datasæt uden (men med næsten) fælles nøgle

Når man samler oplysninger fra mange forskellige kilder:
  • ufuldstændige, personlige litteraturlister
  • enkelte bibliografiers dækning af et forfatterskab (med falske hits fra andre forfattere med sammen navn eller navneform)

og ønsker at sammenstykke den mest dækkende oversigt, kan man benytte følgende metode:

1. Hent referencerne i hver kilde for sig
2. Lav en liste fra hver datakilde med følgende datafelter: Titel | Tidsskrift/Konference/Bog, bind, sidetal | RecordID - hvis posten stammer fra en bibliografi med interne systemnumre, benyttes dette, ellers nummereres de enkelte poster i listen inden fletning
3. Tilføj yderligere en simpel kode for datakilden, f.eks. 0: personlige publiste, 1: fra VBN eller anden PURE-base, 2: SCOPUS, 3: Google Scholar, 4: Web of Science, 5: anden kilde.
4. Benyt titelfeltet som sorteringskriterium - den flettede, sorterede liste ser nu således ud (TAB angives som |):

2 | abcd          |  Tidsskrift bind, sidetal | evt. andre felter | 2-s2.0-123456789
0 | abcd - efgh   |  Tidsskrift bind, sidetal | evt. andre felter | 017
4 | abcd. efg     |  Tidsskrift bind, sidetal | evt. andre felter | WoS:1234567890

NB: Sorteringsrækkefølgen er ikke vigtig, kun at "næsten ens" titler kommer ud i samme overskuelige tekstblok.
5. Nummerer de enkelte udvalgte referenceblokke med programmet Bibliometry Toolbox > Number identical textblocks - Programmet læser alle titler, udelader alle andre tegn end a-z og 0-9 og sammenligner de normaliserede titler, dubletter samles i blokke med samme bloknummer. Det er nødvendigt at løbe listen igennem og flette åbenlyst ens poster (på basis af andre datafelters indhold) - klip/sæt_ind dubletterne sammen i samme blok og juster bloknummeret, så alle har samme bloknummer. I nogen tilfælde har flere dokumenter sammen titel - falske dubletter - også her må man på basis af f.eks. SO-feltet afgøre, hvem der hører sammen som ægte dubletter, bloknummeret for evt. nye dubletsæt kan bare sættes til et andet (højt (=ikke brugt tal)) tal eller til nummer-a, -b osv. NB Udvælg een af datakilderne som den vigtigste, der danner grundlag for mapning af alle andre kilders bidrag, denne kilde må aldrig være dubleret i den sorterede og opsplittede titel-liste.
6. Med en regex udvælges de to første datafelter: blok-nummer og datakilde-koden og datafeltet med RecordID fra de forskellige datakilder, f.eks. med 5 datafelter:
(.*?)\t(.*?)\t(.*?)\t(.*?)\t(.*?)$ erstat med: \1\t\2\t\5
7. RecID's kan nu flettes med programmet Bibliometry Toolbox > Merge_5 - det producerer en tabel med hovedet:
flet-blok-nr | X0 | X1 | X2 | X3 | X4 | X5

- hvor X-numrene svarer til den valgte koder for datakilden (se 3.).
Medmindre andet er angivet, er indholdet af denne side licenseret under Creative Commons Attribution-ShareAlike 3.0 License