Dokumentets sprog

I nogle tilfælde er dokumentets sprog forkert indekseret, f.eks. engelsksprogede artikler i et datasæt, der kun bør indeholde dansksprogede publikationer.
Dette Perl-program eng.pl markerer linier, der indeholder et eller flere alm. engelske ord (De knap 100 mest alm. ord: (Fry, Edward Bernard et. al., The Reading Teacher’s Book of Lists, 4th Edition. Prentice Hall, 2000.)
NB: programmet finder ord omgivet af "ikke-bogstaver/tal", desværre opfatter programmet danske bogstaver som æ, ø og å som hørende til denne klasse.

Anden kilde: The Brown Corpus Standard Sample of Present-Day American English. Brown University Press, 1979

Database (FileMaker): 5000 almindeligste engelske ord

Medmindre andet er angivet, er indholdet af denne side licenseret under Creative Commons Attribution-ShareAlike 3.0 License