Bibliometry Toolbox

Nyeste udgave af Bibliometry Toolbox: v. 5, rev. 2017_06_16
Mappe med kildekode og Windows-exe-fil - unzip før brug. Mapper af zip-type udløser normalt advarsel mod download/åbning - kan ignoreres her.

På MAC: kopier alle de små filer til en enkelt mappe. En eksekverbar fil genereres ved dobbeltklik på filen project1.lpi (Lazarus Project Information):

Mere on Lazarus Free Pascal | Om redigering af Lazarus programmer

Tools for file processing

  • [Add header to line]
    • Tekst afsluttet med % tilføjes foran alle efterfølgende linier med foranstillet # - testfil
  • [Merge by label]
    • Fletter sorterede lister hvor en "label" er en vilkårlig tegn/talfølge adskilt af tab fra rest af linie. Alle efterfølgende linier med samme "label" flettes således, at linieskift + tab bibeholdes, den endelige fletning sker ved find/erstat: \n\t med \t (eller andet skilletegn: "," - | ) - testfil: label_flet.txt
  • [Mask semicolons in []]
    • Konverterer alle semikolontegn inde i [ ] til ¤¤, bruges ved adresseanalyser i Web of Science-poster
  • [Mask semicolons in ""]
    • Ændrer alle semikoloner inde tekst omgivet af "" til ##
  • [Unmatched parentheses] - finder alle ulige antal parenteser i tekst
  • [Unify names] - udtrækker en normaliseret navneform: efternavn, første initial fra en liste med efternavn, fornavne (eller initialer) + andre felter. Inddata-filen skal være i Win-1252-format, husk at konvertere til UTF-8 inden import i FileMaker-database.
  • [Number lines]
    • Nummererer alle linier i en tekstfil
  • [Count duplicate lines]
    • Finder og tæller alle dubletlinier i sorteret tekstfil. NB: tager hensyn til store/små bogstaver - testfil
  • [Deduplicate]
    • Fjerner alle dubletter i sorteret tekstfil. NB: tager hensyn til store/små bogstaver
  • [Add PY to VBN-records]
    • Tilføjer PY datafelt til alle PURE-poster oprenset med et af Perl-programmerne tilgængelig fra siderne under Danske Universiteter, her står PY som "hoved" for alle poster med samme trykkeår.
  • [TAB to BAR]
  • [BAR to TAB]
  • [Add ID4]
    • Tilføjer postnummer til 4-tegn-labelled fil, hver post skal begynde med X00: og slutte med XXX:
  • [Add ID3]
    • Tilføjer postnummer til 3-tegn-labelled fil, , hver post skal begynde med TI: og slutte med ER:
  • [Label 00 extract]
  • [Extract #-labelled lines]
    • Skriver alle linier med foranstillet # til fil
  • [ResearchGate cleanup]
  • [Remove space characters]
  • [Character value]
    • Udskriver tegn + tegnværdi. Bruges til at opspore "usynlige" tegn i tekst, der forstyrrer sortering m.m.
  • [Merge_5]
    • Samler i tabel alle data fra Fuzzy Match > Number Indentical Textblocks
  • [Labels present]
    • Udtrækker alle "labels": de 2-7 tegn lange feltkoder (afsluttet med :) som en tagget fil indeholder, bruges til at afgøre, om en fil indeholder "forkerte" tags - eller mangler afsluttende tags - en hyppig årsag til at programmer til udtræk af taggede felter "crasher"
  • [Split by label]
    • Splitter filen: alle tegn foran semikolon sættes foran hver tekststreng adskilt af komma, i linien

Sorting

  • [NumSort ascending]
  • [NumSort decending]
    • Sorterer en simpel liste med tal (heltal eller decimaltal med decimalpunktum), hvert tal på ny linie - resultatfil med 2 decimaler.
  • [Sort numbered list ascending]
  • [Sort numbered list decending]
    • Sorterer en liste med et heltals-indeks

Table Tools

  • [Tablesplit]

Converting tagged files

  • [MEDLINE to TAB]
    • Udtrækker datafelterne: fra poster i MEDLINE format (PubMed). Se mere her
  • [Google Scholar Scrapings]
    • Udtrækker datafelterne: 'AU' | 'TI' | 'SO' | 'PY' | 'TC' | 'UR' | 'ID' fra en fil genereret af Perl-programmet GS_extract (eller ehver anden fil med disse feltkoder. NB: Hver post skal begynde med 'TI:' og afsluttes med 'ER:' - læs mere her.
  • [ISI to TAB]
    • Konverterer ISI-tagged format til TAB-separeret format
  • [RIS to TAB format]
    • Konverterer en fil i RIS-format til tabulator-separeret format, først linie med RIS-format tags som "hoveder": A1 | PY | TI | JF | VL | IS | SP | EP | KW | U2 | AD testfil: ris_format.ris | Alt om RIS-formatet
  • [ResearchGate to TAB]
  • [WoS_CR_split]
  • [X15_split]
    • Konverterer en fil, hvor hvert datafelt er tagget med en af følgende koder: 'X00:' til og med (max); 'X15:'. NB: hver post skal begynde med et 'X00:' og slutte med et 'XXX: ' datafelt. Hvert "tag" er ialt 3 tegn langt.
  • [VBN_tagged_split]
  • [VBN_persons_split]
  • [PURE_XML_split]
    • Konverterer en fil, hvor hvert datafelt er tagget med én af følgende koder: 'AR : ' | 'AU : ' | 'BK : ' | 'CONF : ' | 'DOI : ' | 'IS : ' | 'ISSN : ' | 'JN : ' | 'PG : ' | 'PN : ' | 'PT : ' | 'PY : ' | 'TI : ' | 'VL : '

Hver post skal begynde med 'UUID : ' og slutte med 'ER : '
Programmet genererer også en pæn bibliografisk post på basis af felterne JN VL[IS]: PG, art. no.: AR - På vej: andre pubtypers BIB-poster
http://bibliometri.wikidot.com/bibliometry-toolbox-pure-xml-split

Perl program generators

  • [Web scraper]
    • Mange databaser kan tappes gennem websider, hvor URL'en indeholder søgeprofil og oplysninger om antal poster eller sidetal, der kan tappes for hver ny afsendt URL. Programmet Web Scraper laver et PERL-program der tapper en webside/database for et vilkårligt stort antal poster. URL'ens tegn: a-z, &, runde parenteser og 0-9 bevares, visse specialtegn URL-escapes: ' ' > '+' | '!' > '%21' | '#' > '%23' | '$' > '%24' | '%' > '%25' | '''' > '%27' | '*' > '%2A' | '+' > '%2B' | ',' > '%2C'. **Underscore fjernes også: fejl **. Kildekoden hefra kan bearbejdes af en række forskellige PERL-programmer
  • [Words markup]
    • genererer et PERL-program der markerer linier der indeholder en given tegnfølge: et navn, et eller flere ord, tal m.m. - Se mere her.
  • [Tag+Words markup]
    • genererer et PERL-program der markerer og indsætter "tag" for linier, der matcher fra søgeordsliste med: "tag" TAB "søgte ord-følge"

Counting characters and words

  • [Semicolon count]
  • [Count a-z-characters]
    • Tæller antal a-z-tegn i teksten
  • [Word count]
    • Tæller antal "ord" i teksten
  • [Count bars]
    • Tæller antal | i teksten, bruges bl.a. til at tælle "indrykninger" i oversigter med | som lodrette streger

Count citations

  • [Anylabel count]
    • Optæller alle tal (hele og fraktionerede citationstal, BFI-point m.m.) med to decimalers nøjagtighed NB: decimaltal med punktum - testfil: citations.txt. Input fil må ikke indeholde tomme linier og heller ikke "tomme" talfelter, kontoller med (.*?)\t\n - og erstat med: $1\t0
  • [Total citations and h-index calculator]
    • Beregner samlet citationstal og h-index fra liste med forfatternavn + citationstal NB: Hele tal - testfil - Hvis første linie ikke behandles korrekt, skyldes det at den starter med de skjulte tegn:  = Byte Order Mark - hex: xEF xBB xBF. Åbn inddatafilen og gem den igen i Win-1252, Vesteuropæisk eller ANSI-Latin1 format.

Fuzzy Match

Generate ID search profiles

  • [SCOPUS EID search]
    • Genererer syntaktisk korrekt søgestreng til SCOPUS Advanced Search på basis af en liste med EID-numre med op til 500 EID-numre pr søgestreng - testfil: eid_mange.txt | Lav en EID(xx) » REFEID(xx) manuel find/erstat hvis søgning på Cited references
  • [WoS UT search]
    • Genererer syntaktisk korrekt søgestreng til WoS Advanced Search på basis af en liste med UT-numre med op til 500 UT-numre pr. søgestreng - testfil: ut_mange.txt
  • [SCOPUS PMID search]
  • [WoS PMID search]
    • Genererer syntaktisk korrekt søgestreng til SCOPUS eller WoS Advanced Search på basis af en liste med PubMed-id-numre, typisk fra emnesøgning som ønskes suppleret med citationssøgning - Testfil: pmid.txt

På vej

  • [UTF-8 decoding]
  • [Map hexadecimal characters]
  • [Google Scholar overview]
  • [Correcting UTF-8 to Win1252-errors - extended version]
Medmindre andet er angivet, er indholdet af denne side licenseret under Creative Commons Attribution-ShareAlike 3.0 License