6.2 Bioinformatica tools - deel II

Zoeken naar een gen

Slechts een klein deel van het DNA bestaat uit genen. Een zeer klein deel van een heel erg lange reeks basen bestaat uit betekenisvolle sequenties. Als je een bepaald gen zoekt, moet je - ook al is het zoekgebied al beperkt tot een bepaald deel van een chromosoom - toch nog een geweldig lange reeks basen onderzoeken. Zonder bioinformatica zou dit onmogelijk zijn.

De informatie in het DNA is gerangschikt in groepjes van drie nucleotiden (tripletten, codons) op de beide ketens van de dubbele helix. De meeste tripletten coderen elk voor een aminozuur. De code voor het aminozuur methionine (ATG) is tevens startcodon: hiermee begint elk eiwit. En drie tripletten (TAA, TAG en TGA) coderen niet voor aminozuren, het zijn zgn. stopcodons.

Bij het onderzoek van een bepaalde DNA-sequentie weet je niet van tevoren hoe het DNA in tripletten is verdeeld, je weet namelijk niet waar een triplet begint. Er zijn drie mogelijkheden per DNA-streng om te beginnen met het lezen van de tripletten: bij de eerste nucleotide, bij de tweede of bij de derde. Gaan we uit van dubbelstrengs DNA, dan zijn er dus zes mogelijkheden voor het lezen, ofwel zes mogelijke 'reading frames'. Alle zes reading frames moeten dan ook worden onderzocht op de aanwezigheid van start- en stopcodons.
Een lange reeks tripletten zonder stopcodon noemen we een Open Reading Frame (ORF). Zo'n lang stuk tussen een start- en een stopcodon kan mogelijk de code voor een eiwit bevatten. Verreweg de meeste ORF's blijken echter geen gen te zijn.