HTML - oprens kildekode
Når man har isoleret de enkelte elementer i HTML-kildekoden, vil der altid være et stort antal "tags" tilovers - de kan fjernes med følgende regex:
target="_blank"|</a>|</div>|<li>|</li>|</span>|<td>|<td/>|</td>|<tr>|</tr>|<ul>|</ul>|<span>|</span>|<span lang="EN-US">
erstat med:
ingenting
Kildekode fra PURE-databaser kan også indeholde:
<a class="portal_hd">|<a class="portal_hd_nochildren">|<div class="portal_hd_item">
erstat med:
ingenting