3.2 Frequentieanalyse van Nederlandse teksten

Om het idee van Al-Kindi toe te kunnen passen moeten we eerst weten hoe vaak de letters gemiddeld in de Nederlandse taal gebruikt worden. Doordat de taal zich steeds verder ontwikkelt en omdat nieuwe woorden ontstaan en oude woorden minder gebruikt worden is het nooit precies vast te stellen hoe de letterfrequenties verdeeld zijn en als je het internet afstruint kom je verschillende tabellen tegen. Raadpleeg bijvoorbeeld maar eens de site van het genootschap Onze Taal.
In onderstaand voorbeeld gaan we uit van de tabel die Harm Bakker en Monique Stienstra gebruikten in hun module over Cryptografie:

De tabel van de frequentie in procenten ziet er zo uit:

letter letter  letter  letter 
a 6,72 h 2,32 o 5,87  v 2,90 
b 1,80 i 6,44 p 1,59  w 1,57
c 1,60 j 1,49 q 0,11  x 0,11
d 5,91 k 2,28 r 6,45  y 0,29
e 19,06  l 3,94 s 4,00  z 1,18
f 0,74 m 2,41 t 6,74     
g 3,14 n 9,41  u 1,93     

Als we letters rangschikken van veel gebruikt tot minst gebruikt dan krijgen we de volgende indeling:

e 19,06          
n 9,41          
t 6,74 a 6,72  r 6,45  i 6,44  d 5,91 o 5,87
s 4,00  l 3,94         
g 3,14  v 2,90         
m 2,41  h 2,32  k 2,28  u 1,93     
b 1,80 c 1,60 p 1,59 w 1,57  j 1,49  z 1,18 
f 0,74          
y 0,29 q 0,11 x 0,11      

Duidelijk is dat er groepjes ontstaan van letters. Over de indeling in groepjes kun je van mening verschillen, maar als je verschillende publicaties van frequentietabellen nagaat lijkt dit wel een redelijke verdeling. Opvallend is in ieder geval dat in het Nederlands de letter e veel vaker gebruikt wordt, op ruime afstand gevolgd door de letter n. Ongetwijfeld is het gebruik van de lidwoorden de, het en een hierop van invloed. 
Verder zien we dat alle klinkers met uitzondering van de u zich voor in het peloton bevinden.