7.1 Moord op het vliegveld
In dit hoofdstuk ga je een een misdrijf oplossen met behulp van bioinformatica. Hieronder staat de zaak beschreven.
Inleiding
Als lid van het CSI-genomics team ben je opgeroepen om te assisteren bij een crimescene. Er is een lijk van een Amerikaanse toerist gevonden op het vliegveld. Hij ligt in een soort kramp en heeft inwendige bloedingen. Naast hem is een flesje gevonden waaruit hij blijkbaar gedronken heeft, met daarin nog een restje vloeistof dat lijkt op melkresten. De vloeistof gaat naar het lab. Zodra de resultaten bekend zijn, worden ze aan je doorgestuurd. Jij hebt de taak om te onderzoeken of je aanwijzingen kunt vinden voor de dood van de Amerikaan.
Achtergrondinformatie
Het onderwerp van dit practicum is bioinformatica, het gebruik van computers bij het zoeken naar en bestuderen van informatie over genen, nucleïnezuren en eiwitten. Terwijl je aan het speuren bent naar een aantal mysterieuze eiwitten zul je in het practicum een aantal tools en databanken uit de bioinformatica gebruiken, namelijk:
- SwissProt, de databank met alle honderdduizenden eiwitsequenties die we tot nog toe kennen.
- BLAST, het programma om eiwitsequenties in de database SwissProt te vinden die heel veel lijken op (of gelijk zijn aan) de sequentie die je ingevoerd hebt.
- MRS, het zoeksysteem waarmee je zowel SwissProt als BLAST kunt gebruiken.
Dit practicum is een bewerking van het practicum 'Speur surfend in je genen' van de reizende DNA-labs en het Netherlands Bioinformatics Centre (NBIC). http://www.nbic.nl/.
Meer informatie over dit practicum, de lesmaterialen en tools vind je op: http://www.bioinformaticaindeklas.nl/.
7.2 Identificatie - deel I
Identificatie van de vier verdachte eiwitten
De resultaten uit het lab zijn binnen: je krijgt een lijstje met stoffen die in de melk zaten. Naast een aantal kleine moleculen, zoals suiker, blijkt dat er een viertal verschillende eiwitten in voorkomen. Deze ga je verder onderzoeken met behulp van de database SwissProt en het zoekprogramma BLAST. In je werkdocument vind je het 'CSI GENOMICS FORMULIER SCREENING VERDACHTE EIWITTEN', waar je de opdracht in kan maken.
Om je kennis te laten maken met het zoekprogramma BLAST leggen we eerst voor eiwit kandidaat 1 uit welke stappen uitgevoerd moeten worden. Daarna kun je kandidaat 2, 3 en 4 zelf doen en uitzoeken welk van de vier eiwitten schuldig is aan de dood van de toerist.
BLAST is een programma waarmee je een eiwitsequentie kunt vergelijken met alle eiwitsequenties in de database SwissProt. Deze database bevat alle eiwitsequenties die de wetenschap op dit moment kent. We zullen BLAST gebruiken vanuit het programma MRS.
Ga als volgt aan de slag:
1. Start MRS.
2. Kies "BLAST" in de balk bovenaan het scherm.
3. Hieronder staan de resultaten uit het lab: de sequenties van de vier eiwitten. Kopieer de aminozuurvolgorde van kandidaat1 in het venstertje van MRS. De eerste regel moet altijd beginnen met een ">" met daarachter de naam van het eiwit (dit is het zogenaamde FastA formaat). Hier is gekozen voor de naam "kandidaat1".
Let op: De aminozuursequenties worden gegeven in 1-lettercode, dit is de notatie die wetenschappers gebruiken. Kijk voor de aminozuren en hun notatie op deze link.
>kandidaat1
RPKHPIKHQG LPQEVLNENL LRFFVAPFPE VFGKEKVNEL SKDIGSESTE DQAMEDIKQM
EAESISSSEE IVPNSVEQKH IQKEDVPSER YLGYLEQLLR LKKYKVPQLE IVPNSAEERL
HSMKEGIHAQ QKEPMIGVNQ ELAYFYPELF RQFYQLDAYP SGAWYYVPLG TQYTDAPSFS
DIPNPIGSEN SEKTTMPLW
>kandidaat2
QYSSNTQQGR TSIVHLFEWR WVDIALECER YLAPKGFGGV QVSPPNENVA IHNPFRPWWE
RYQPVSYKLC TRSGNEDEFR NMVTRCNNVG VRIYVDAVIN HMCGNAVSAG TSSTCGSYFN
PGSRDFPAVP YSGWDFNDGK CKTGSGDIEN YNDATQVRDC RLSGLLDLAL GKDYVRSKIA
EYMNHLIDIG VAGFRIDASK HMWPGDIKAI LDKLHNLNSN WFPEGSKPFI YQEVIDLGGE
PIKSSDYFGN GRVTEFKYGA KLGTVIRKWN GEKMSYLKNW GEGWGFMPSD RALVFVDNHD
NQRGHGAGGA SILTFWDARL YKMAVGFMLA HPYGFTRVMS SYRWPRYFEN GKDVNDWVGP
PNDNGVTKEV TINPDTTCGN DWVCEHRWRQ IRNMVNFRNV VDGQPFTNWY DNGSNQVAFG
RGNRGFIVFN NDDWTFSLTL QTGLPAGTYC DVISGDKING NCTGIKIYVS DDGKAHFSIS
NSAEDPFIAI HAESKL
>kandidaat3
QQNLPQRYIE LVVVADHRVF MKYNSDLNTI RTRVHEIVNF INGFYRSLNI HVSLTDLEIW
SNEDQINIQS ASSDTLNAFA EWRETDLLNR KSHDNAQLLT AIELDEETLG LAPLGTMCDP
KLSIGIVQDH SPINLLMGVT MAHELGHNLG MEHDGKDCLR GASLCIMRPG LTKGRSYEFS
DDSMHYYERF LKQYKPQCIL NKP
>kandidaat4
LIVTQTMKGL DIQKVAGTWY SLAMAASDIS LLDAQSAPLR VYVEELKPTP EGDLEILLQK
WENGECAQKK IIAEKTKIPA VFKIDALNEN KVLVLDTDYK KYLLFCMENS AEPEQSLACQ
CLVRTPEVDD EALEKFDKAL KALPMHIRLS FNPTQLEEQC HI
7.3 Identificatie - deel II
4. Klik op "Run BLAST" (rechts bovenaan).
5. Als de zoektocht klaar is, zie je een balkje met resultaten dat lijkt op wat hieronder staat:
Deze output betekent dat er 101 hits zijn gevonden in de database SwissProt, d.w.z. er zijn 101 eiwitten gevonden waarvan de aminozuurvolgorde lijkt op die van kandidaat1. Het getal dat je ziet bij e-Value geeft aan hoe goed het beste resultaat is. Als dit getal heel klein is (en dat is in dit geval zo: het is 3,7 x 10-113), betekent dat dat het een betrouwbaar resultaat is.
Let op: Deze lijst met BLAST resultaten kun je altijd later weer oproepen via "BLAST results" (in de balk bovenaan) om naar de resultaten van de verschillende kandidaten te kijken.
6. Klik nu de regel aan (hij verandert van kleur) om naar de gevonden resultaten te kijken.
Je ziet nu een scherm met de zogenaamde hitlist, de lijst van eiwitsequenties die gevonden zijn in de database SwissProt en die lijken op kandidaat1. Op nummer 1 staat de sequentie uit de database die het meest lijkt op (of zelfs identiek is aan) jouw ingevoerde sequentie kandidaat1. De code van deze sequentie is CASA1_BOVIN.
Van links naar rechts lees je op elke regel de output van een van de hits:
- Nr: Het nummer van het gevonden resultaat. Op nummer 1 staat de beste hit, etc.
- ID: Dit is de code van de gevonden eiwitsequentie uit de database. Het eerste deel (bij de eerste hit 'casa1') slaat op de naam van het eiwit. Het tweede deel van de naam (bij de eerste hit "bovin") wordt gevormd door een afkorting van het organisme, in dit geval "bovine". Zoek op welk organisme dit is.
- Coverage: Hier zie je in kleur welk deel van jouw zoeksequentie (kandidaat1) overeenkomt met de database sequentie (die is in grijs gegeven). Op de eerste regel zie je dat jouw zoeksequentie van begin tot eind overeenkomt met CASA1_BOVIN.
- Description: de tekstuele omschrijving van de database sequentie die gevonden is als antwoord op jouw vraag.
- Hsps, Bitscore en E-value: Getallen die het programma berekent en die jou een idee kunnen geven over hoe betrouwbaar het resultaat is. De beste hit staat bovenaan.
7.4 Identificatie - deel III
7. We gaan de eerste hit CASA1_BOVIN verder analyseren. Klik op het gekleurde balkje en daarna nog een keer op het tweekleurige balkje. Bekijk de gegevens.
Je ziet een zogenaamde 'alignment' van twee aminozuursequenties. Q (query) is de sequentie van jouw zoekvraag, in dit geval kandidaat1. S is de eiwitsequentie uit de database die het meest op kandidaat1 lijkt, in dit geval CASA1_BOVIN.
De regel tussen de 2 sequenties bevat de letters van de identieke aminozuren tussen Q en S. Als niet alle aminozuren hetzelfde zijn tussen Q en S zie je hier 'gaten' vallen.
Je kunt zien dat de volgorde van kandidaat1 voor 100% overeenkomt met de volgorde van CASA1_BOVIN, het alfa-S1-caseine eiwit (alle 199 aminozuren zijn identiek). Je hebt dus één van de vier eiwitten geïdentificeerd!
8. Klik op CASA1_BOVIN. Je gaat nu naar de database en ziet de gegevens die bekend zijn over dit eiwit. Vul voor kandidaat1 het formulier in je werkdocument 'CSI Genomics Formulier Screening Verdachte Eiwitten' in. Maak gebruik van de informatie die je vindt bij:
- Protein name
- From; zoek ook de Nederlandse naam op in onderstaande lijst met organismen.
- Keywords
- Comments
9. Doe nu zelf een BLAST search met sequenties van de andere 3 gevonden eiwitten en vul de resultaten in op het formulier in je werkdocument.
Wat is nu je eindconclusie over de moord? Waaraan is het slachtoffer overleden? Vul deze eindconclusie in op het formulier in je werkdocument.
Lijst met organismen en hun Latijnse namen