Fletning af datasæt uden (men med næsten) fælles nøgle

Når man samler oplysninger fra mange forskellige kilder:
  • ufuldstændige, personlige litteraturlister
  • enkelte bibliografiers dækning af et forfatterskab (med falske hits fra andre forfattere med sammen navn eller navneform)

og ønsker at sammenstykke den mest dækkende oversigt, kan man benytte følgende metode:

1. Hent referencerne i hver kilde for sig
2. Lav en liste fra hver datakilde med følgende datafelter: Titel | Tidsskrift/Konference/Bog, bind, sidetal | RecordID - hvis posten stammer fra en bibliografi med interne systemnumre, benyttes dette, ellers nummereres de enkelte poster i listen inden fletning
3. Tilføj yderligere en simpel kode for datakilden, f.eks. 0: personlige publiste, 1: fra VBN eller anden PURE-base, 2: SCOPUS, 3: Google Scholar, 4: Web of Science, 5: anden kilde.
4. Benyt titelfeltet som sorteringskriterium - den flettede, sorterede liste ser nu således ud (TAB angives som |):

2 | abcd          |  Tidsskrift bind, sidetal | evt. andre felter | 2-s2.0-123456789
0 | abcd - efgh   |  Tidsskrift bind, sidetal | evt. andre felter | 017
4 | abcd. efg     |  Tidsskrift bind, sidetal | evt. andre felter | WoS:1234567890

NB: Sorteringsrækkefølgen er ikke vigtig, kun at "næsten ens" titler kommer ud i samme overskuelige tekstblok.
5. Nummerer de enkelte udvalgte referenceblokke med programmet Bibliometry Toolbox > Number identical textblocks - Programmet læser alle titler, udelader alle andre tegn end a-z og 0-9 og sammenligner de normaliserede titler, dubletter samles i blokke med samme bloknummer. Det er nødvendigt at løbe listen igennem og flette åbenlyst ens poster (på basis af andre datafelters indhold) - klip/sæt_ind dubletterne sammen i samme blok og juster bloknummeret, så alle har samme bloknummer. I nogen tilfælde har flere dokumenter samme titel - falske dubletter - også her må man på basis af f.eks. SO-feltet afgøre, hvem der hører sammen som ægte dubletter, bloknummeret for evt. nye dubletsæt kan bare sættes til et andet (højt (=ikke brugt tal)) tal eller til nummer-a, -b osv. NB Udvælg een af datakilderne som den vigtigste, der danner grundlag for mapning af alle andre kilders bidrag, denne kilde må aldrig være dubleret i den sorterede og opsplittede titel-liste.
6. Med en regex udvælges de to første datafelter: blok-nummer og datakilde-koden og datafeltet med RecordID fra de forskellige datakilder, f.eks. med 5 datafelter:
(.*?)\t(.*?)\t(.*?)\t(.*?)\t(.*?)$ erstat med: \1\t\2\t\5
7. RecID's kan nu flettes med programmet Bibliometry Toolbox > Merge_5 - det producerer en tabel med hovedet:
flet-blok-nr | X0 | X1 | X2 | X3 | X4 | X5

- hvor X-numrene svarer til den valgte koder for datakilden (se 3.).

Data fra Google Scholar

Hvis en forsker har en personlig GS profil, skal man bruge data herfra. Hvis man bruger data fra Publish or Perish, vil titlerne herfra ofte være kortere end titler fra andre kilder, disse poster sortere ud "for sig"

Medmindre andet er angivet, er indholdet af denne side licenseret under Creative Commons Attribution-ShareAlike 3.0 License