zum Directory-modus

Proteomforschung: Einführung

Protein-Datenbanken

Protein-Datenbanken sind extrem wichtige Werkzeuge für die Interpretation von Gensequenzen. Diese Seite gibt einen kleinen Einblick in die Fülle verschiedener Datenbanken, die heute für die Analyse von Proteinen zur Verfügung stehen.

Datenbanken werden grundsätzlich eingeteilt in primäre Datenbanken, die eine Suche auf der Basis der Proteinsequenz an sich erlauben, während Datenbanken für z.B. Sequenzmotive auch als sekundäre Datenbanken bezeichnet werden. Neben zahlreichen universellen Datenbanken, die Proteine vieler Spezies abdecken, gibt es viele spezialisierte Datensammlungen mit Informationen von bestimmten Proteinfamilien oder Organismen. Zunehmend werden auch Datenbanken zusammengefasst, um dem Nutzer einfach zugängliche, aber möglichst umfassenden Informationen mit geringer Redundanz zu bieten.

Eine sehr umfangreiche Sammlung von Proteindatenbanken findet sich beispielsweise im amerikanischen National Center for Biotechnology Information (NCBI). Die Einträge stammen aus diversen Quellen wie z.B. der SwissProt, der Protein Information Resource (PIR), der Protein Reseach Foundation (PRF) oder der Protein Data Base (PDB) sowie Übersetzungen von annotierten kodierenden Regionen in der GenBank Sequenz-Datenbank. Die NCBI-Datenbank kann über eine Suchmaske durchforstet werden (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Protein). Alternativ kann auch, ausgehend von einer eigenen Sequenz, in der Datenbank mithilfe des BLAST-Algorithmus (http://www.ncbi.nlm.nih.gov/BLAST/) nach ähnlichen Sequenzen gesucht werden.

Die UniProtKB

Die UniProtKB (Universal Protein Knowledgebase) ist die zentrale europäische Datenbank für Protein-Sequenzen, -Funktionen und Querverweise. Sie entstand im Oktober 2002 als Zusammenschluss des EBI (European Bioinformatics Institute ), des SIB (SIB Swiss Institute of Bioinformatics) und der PIR (Protein Information Resource).

Diese Datenbank gliedert sich in zwei Hauptbereiche: die ursprünglich an der Universität Genf entwickelte SWISS-PROT (UniProtKB/Swiss-Prot, Teilbereich des SIB), die manuell annotiert und von einem Wissenschaftler-Team aktualisiert und begutachtet wird, und die automatisch annotierte UniProtKB/TrEMBL. In der UniProtKB/Swiss-Prot sind auch alle Hinweise zu finden, die z.B. divergierende Sequenzierergebnisse, unterschiedliche Splicing-Varianten oder Polymorphismen eines Gens betreffen.

Da fast täglich neue Informationen über bekannte und unbekannte Proteine hinzukommen, wird die Datenbank ständig überarbeitet. Am 27. Juli 2011 umfasste die UniProtKB/Swiss-Prot 53.1473 Sequenzeinträge von mehr als 10.000 verschiedenen Spezies, davon allein über 20.000 Sequenzen des Menschen (12 % aller Sequenzen), dicht gefolgt von mehr als 16.000 Einträgen für Maus-Proteine. Im Vergleich dazu einige Zahlen für die UniProtKB/TrEMBL: Um neue Sequenzen so schnell wie möglich zugänglich zu machen, wurde 1996 mit der Translated EMBL (TrEMBL) eine Ergänzungsdatenbank geschaffen (heute: UniProtKB/TrEMBL). Diese Datenbank enthält die Translationen aller in der European Molecular Biology Laboratory (EMBL) Nucleotidsequenz-Datenbank enthaltenen kodierenden Sequenzen, die noch nicht überprüft wurden und daher noch nicht in die UniProtKB/Swiss-Prot Eingang gefunden haben. Auch die Anzahl der UniProtKB/TrEMBL-Einträge wächst seit etwa 2004 exponentiell an, mit insgesamt 16.504.022 Einträgen in dieser Datenbank am 27.07.2011. Proteinsequenzen werden nach Begutachtung in die UniProtKB/Swiss-Prot überführt und aus der UniProtKB/TrEMBL gelöscht.

Weitere mit der Universal Protein Knowledgebase assoziierte Datenbanken sind das UniParc (UniProt Archiv), die UniRef (UniRef) und die UniMES (UniProt Metagenomic and Environmental Sequence)-Datenbank für metagenomische und umweltbezogene Datensätze.

Die UniProtKB/Swiss-Prot ist zudem mit zahlreichen anderen Datenbanken verknüpft, z.B. der PDB/RCSB 3D-Strukturdatenbank (RCSB Protein Data Bank) oder der Medline (US National Library of Medicine National Institutes of Health). Ferner gibt es Querverweise zu relevanten Veröffentlichungen (beispielsweise über die Ermittlung der jeweiligen Röntgenstruktur und NMP-Analysen), zu Nucleinsäuresequenz-Datenbanken wie EMBL und zu Datenbanken, mit denen man die vorausssichtliche Konformation eines Enzyms berechnen kann, wie z.B. der HSSP (Homology-derived Secondary Structure of Proteins).

Seite 23 von 26