zum Directory-modus

Molecular Modelling

Analysen von DNA-Sequenzen

Prinzipiell lassen sich verwandte Proteine auch über ihre DNA-Sequenz identifizieren, dieses ist aber außer bei nahe verwandten Proteinen oft schwieriger als der Aminosäure-Sequenzvergleich und führt häufig zu falsch-negativen Ergebnissen. Der genetische Code ist degeneriert, d.h. dass eine Aminosäure von mehr als einem Basentriplett codiert sein kann und eine Mutation der DNA-Abfolge u.U. keine Auswirkungen auf den Einbau der entsprechenden Aminosäure an dieser Stelle hat. Zwei Proteine können also durchaus eine teilweise unterschiedliche DNA-Sequenz aufweisen, obwohl die Aminosäure-Sequenz absolut identisch ist.

Mitunter ist es aber notwendig, ein neues Protein zuerst einmal zu identifizieren, bevor dieses näher untersucht werden kann. Genomprojekte liefern Unmengen an DNA-Sequenzdaten, jedoch bei weitem nicht alle dieser DNA-Sequenzen werden in Proteine übersetzt. Bei Prokaryonten sind immerhin noch 85-90 % der DNA codierende Bereiche (der Rest sind z.B. Promotorsequenzen und 3'-nicht-translatierte Bereiche), während in Eukaryonten der Großteil der DNA auf nicht-translatierte Bereiche, Introns und intergene Bereiche entfällt. Bevor ein Proteinvergleich überhaupt möglich ist, ist es daher absolut nötig

  • den Start des Proteins in der DNA zu identifizieren,
  • in Eukaryonten die Grenzen von Introns und Exons genau zu kennen,
  • das Ende des Proteins zu bestimmen und
  • in Prokaryonten auch überlappende Gene mit Wechsel des Leserahmens aufzuspüren.

Mittlerweile existieren eine Reihe von Programmen, die mit hoher Wahrscheinlichkeit die codierenden Bereiche der DNA identifizieren. Diese Programme durchsuchen die DNA nach bestimmten Sequenzen:

  • Start-Codons der Transkription in Prokaryonten sind: ATG (GTG, TTG, CTG), in Eukaryonten ist es fast immer ATG. Vor dieser Sequenz liegen meistens bestimmte Promotorstrukturen, wie u.a. Ribosomenbindungsstellen, Regulationssignale und Enhancer-Elemente.
  • Stellen, an denen Spleißen stattfindet, sind gekennzeichnet durch GT....(Sequenz)....AG und bestimmte Eigenschaften der Sequenz in unmittelbarer Nähe dieser Spleiß-Stellen. Die Anzahl der Basen vom Start-Codon bis zum Stop-Codon muss durch drei teilbar sein.
  • Codierende Bereiche haben meistens eine andere Häufigkeit, mit der bestimmte Basentripletts auftauchen, als nicht-codierende Bereiche.

Programme, die diese Suchen durchführen, sind z.B.

  • GRAIL,
  • HMMGene,
  • GENSCAN,
  • Genemark und
  • Glimmer.
Seite 17 von 19