VBN Ansatte - oprens HTML

Vis altid liste over forskere i format: 500 pr. side, rummer listen flere, skal de downloades (op til) 500 ad gangen, brug "næste" linket i bunden af siden til at hente post 501 +.

Oprensning af medarbejderlister fra VBN-basen downloaded som "vis kildetekst" html-formatteret tekst:

0. Fjern "hovedet" på tekstblokken med:

<!DOCTYPE html PUBLIC.*?<ol class="portal_list"> - erstat med ingenting, virker kun med "dot matches new line" sat.

1. Adskil alle personnavne-holdige tekstblokke fra resten af teksten:

<a class="link person" rel="Person" href="http://vbn.aau.dk/da/persons/(.*?)html"><span>

- erstattes med:

\nER: \n\nUU: \1\nAU:

Den sidste forfatter på listen skal manuelt "afsluttes" med et ekstra \nER: \n

Slet indledende og afsluttende tekstblokke efter blokken, hvor alle linier begynder med AU:


2. <p class="jobtitles"> - erstattes med: \nJB:


3. <p class="email"> - erstattes med \nEM:


4. <a class="link organisation" rel="Organisation" href="http(.*?)html"><span>

- erstattes med: \nIN:


5. <p class="type"><span class="family"> - erstattes med: \nFM:


6. Alle resterende, overflødige HTML tags fjernes med:

</a>|</div>|<h2 class="title">|</h2>|<li>|</li>|</p>|<span>|</span>|</ul>|<a class="link" href="(.*?)">|<div class="rendering (.*?)">|<li class="portal_list_item">|<ul class="relations organisations">|

- erstat med "ingenting"

Efter ovenstående ser den enkelte post således ud:

AU: Christensen, Toke Haunstrup
JB: Seniorforsker
EM: kd.uaa.ibs|cht#kd.uaa.ibs|cht
IN: Statens Byggeforskningsinstitut (SBi)
IN: By, bolig og ejendom (BBE)
IN: Forskergruppen for bæredygtige byer og boliger
IN: Forskningsgruppen for integreret byudvikling
FM: Person: VIP
ER:

Kør denne fil gennem programmet xxx som splitter de enkelte datafelter i et tabulator-separeret format egnet til EXCEL med datafelterne:

Name | Job Title | email | Institut (alle samlet i et felt, adskilt af ;)| Person (VIP eller ?)

Medmindre andet er angivet, er indholdet af denne side licenseret under Creative Commons Attribution-ShareAlike 3.0 License