Rfam

RFAM
Rfam logo.png
Inhalt
Beschreibung Die RFAM -Datenbank bietet Ausrichtungen, Konsenssekundärstrukturen und Kovarianzmodelle für RNA -Familien.
Datentypen
gefangen
RNA -Familien
Organismen alle
Kontakt
Forschungszentrum Ebi
Primärzitation PMID 33211869
Zugang
Datei Format Stockholmer Format
Webseite RFAM.org
URL herunterladen Ftp
Sonstig
Lizenz Public domain
Lesezeichen
Entitäten
Jawohl

RFAM ist ein Datenbank Informationen über Nichtkodierende RNA (ncRNA) Familien und andere strukturierte RNA -Elemente. Es ist ein Annotiert, uneingeschränkter Zugang Datenbank ursprünglich entwickelt am Wellcome Trust Sanger Institute in Zusammenarbeit mit Janelia Farm,[1][2][3][4] und derzeit gehostet am Europäisches Bioinformatikinstitut.[5] RFAM ist so konzipiert, dass er dem ähnlich ist Pfam Datenbank zum Annotieren von Proteinfamilien.

nicht wie Proteine, ncrnas haben oft ähnliche Sekundärstruktur ohne viel Ähnlichkeit in der Primärsequenz. RFAM unterteilt NCRNAs in Familien, die auf der Evolution eines gemeinsamen Vorfahren basieren. Produzieren Mehrere Sequenzausrichtungen (MSA) dieser Familien kann einen Einblick in ihre Struktur und Funktion geben, ähnlich wie bei Proteinfamilien. Diese MSAs werden durch die Zugabe von sekundären Strukturinformationen nützlicher. RFAM -Forscher tragen auch dazu bei Wikipedia's RNA Wikiproject.[4][6]

Verwendet

Die RFAM -Datenbank kann für eine Vielzahl von Funktionen verwendet werden. Für jede ncRNA -Familie ermöglicht die Schnittstelle Benutzer: Anzeigen und Herunterladen mehrerer Sequenzausrichtungen; Annotation lesen; und untersuchen die Artenverteilung von Familienmitgliedern. Es gibt auch Links zu Literaturreferenzen und anderen RNA -Datenbanken. RFAM bietet auch Links zu Wikipedia, damit Einträge von Benutzern erstellt oder bearbeitet werden können.

Mit der Schnittstelle der RFAM -Website können Benutzer NCRNAs nach Schlüsselwort, Familienname oder Genom sowie nach ncRNA -Sequenz suchen oder suchen Embl Zugangsnummer.[7] Die Datenbankinformationen stehen auch zum Herunterladen, Installation und Verwenden des Infernal -Softwarepakets zur Verfügung.[8][9][10] Das Infernalpaket kann auch mit RFAM verwendet werden, um Sequenzen (einschließlich vollständiger Genome) für Homologe zu bekannten NCRNAs zu kommentieren.

Methoden

Eine theoretische ncRNA -Ausrichtung von 6 Arten. Sekundärstrukturbasispaare werden in Blöcken gefärbt und in der Sekundärstruktur -Konsensussequenz (untere Zeile) durch die <- und> -Symbole identifiziert.

In der Datenbank die Informationen der Sekundärstruktur und die Primärsequenz, dargestellt durch die MSA, wird in statistischen Modellen kombiniert, die als Profil bezeichnet werden Stochastische kontextfreie Grammatiken (SCFGS), auch als Kovarianzmodelle bekannt. Diese sind analog zu Versteckte Markov -Modelle verwendet für die Annotation der Proteinfamilie in der Pfam Datenbank.[1] Jede Familie in der Datenbank wird durch zwei mehrere Sequenzausrichtungen in dargestellt Stockholmer Format und ein SCFG.

Die erste MSA ist die "Samen" -Anignment. Es handelt sich um eine handkrümmende Ausrichtung, die repräsentative Mitglieder der ncRNA-Familie enthält und mit strukturellen Informationen kommentiert wird. Diese Saatgutausrichtung wird verwendet, um die SCFG zu erstellen, die mit der RFAM -Software infernal verwendet wird, um zusätzliche Familienmitglieder zu identifizieren und sie zur Ausrichtung hinzuzufügen. Ein familienspezifischer Schwellenwert wird ausgewählt, um falsch positive Ergebnisse zu vermeiden.

Bis zur Release 12 verwendete RFAM eine Initiale SPRENGEN Filterschritt Da das Profil -SCFGs zu rechenintensiv waren. Die neuesten Versionen von Infernal sind jedoch schnell genug[11] so dass der Explosionschritt nicht mehr notwendig ist.[12]

Die zweite MSA ist die „vollständige“ Ausrichtung und wird als Ergebnis einer Suche erstellt, die das Kovarianzmodell gegen die Sequenzdatenbank unter Verwendung des Kovarianzmodells erstellt hat. Alle erkannt Homologe sind auf das Modell ausgerichtet und geben die automatisch erzeugte vollständige Ausrichtung.

Geschichte

Version 1.0 von RFAM wurde 2003 auf den Markt gebracht und enthielt 25 ncRNA -Familien und kommentierte etwa 50 000 ncRNA -Gene. Im Jahr 2005 wurde Version 6.1 veröffentlicht und enthielt 379 Familien, die über 280 000 Gene kommentieren. Im August 2012 enthielt Version 11.0 2208 RNA -Familien, während die aktuelle Version (14.6, die im Juli 2021 veröffentlicht wurde) 4070 mitzeichnet[13] Familien.

Probleme

  1. Die Genome höherer Eukaryoten enthalten viele von NCRNA abgeleitete Pseudogenes und wiederholt. Die Unterscheidung dieser nicht funktionsfähigen Kopien von funktioneller ncRNA ist eine gewaltige Herausforderung.[2]
  2. Introns werden nicht von Kovarianzmodellen modelliert.

Verweise

  1. ^ a b Griffiths-Jones S., Bateman A., Marshall M., Khanna A., Eddy SR (2003). "RFAM: Eine RNA -Familiendatenbank". Nukleinsäuren Res. 31 (1): 439–41. doi:10.1093/nar/gkg006. PMC 165453. PMID 12520045.
  2. ^ a b Griffiths-Jones S., Moxon S., Marshall M., Khanna A., Eddy SR, Bateman A (2005). "RFAM: Annotierende nicht-kodierende RNAs in vollständigen Genomen". Nukleinsäuren Res. 33 (Datenbankproblem): D121–4. doi:10.1093/nar/gki081. PMC 540035. PMID 15608160.
  3. ^ Gardner PP, Daub J., Tate JG, et al. (Oktober 2008). "RFAM: Aktualisiert der RNA -Familiendatenbank". Nukleinsäurenforschung. 37 (Datenbankproblem): D136 - D140. doi:10.1093/nar/gkn766. PMC 2686503. PMID 18953034.
  4. ^ a b Gardner PP, Daub J., Tate J., Moore BL, Osuch IH, Griffiths-Jones S., Finn RD, Nawrocki EP, Kolbe DL, Eddy SR, Bateman A (2011). "RFAM: Wikipedia, Clans und die" Dezimalerscheinung ". Nukleinsäuren Res. 39 (Datenbankproblem): D141–5. doi:10.1093/nar/gkq1129. PMC 3013711. PMID 21062808.
  5. ^ "Umzug auf xfam.org". Xfam Blog. Abgerufen 3. Mai 2014.
  6. ^ Daub J., Gardner PP, Tate J. et al. (Oktober 2008). "Die RNA Wikiproject: Community Annotation von RNA -Familien". RNA. 14 (12): 2462–4. doi:10.1261/RNA.1200508. PMC 2590952. PMID 18945806.
  7. ^ http://rfam.xfam.org[nackte URL]
  8. ^ Eddy SR, Durbin R (Juni 1994). "RNA -Sequenzanalyse unter Verwendung von Kovarianzmodellen". Nukleinsäurenforschung. 22 (11): 2079–88. doi:10.1093/nar/22.11.2079. PMC 308124. PMID 8029015.
  9. ^ Eddy SR (2002). "Ein speichereffizienter dynamischer Programmieralgorithmus zur optimalen Ausrichtung einer Sequenz zu einer RNA-Sekundärstruktur". BMC Bioinformatics. 3: 18. doi:10.1186/1471-2105-3-18. PMC 119854. PMID 12095421.
  10. ^ Nawrocki EP, Eddy SR (2013). "Infernal 1,1: 100-fach schneller RNA-Homologie-Suchanfragen". Bioinformatik. 29 (22): 2933–5. doi:10.1093/bioinformatics/btt509. PMC 3810854. PMID 24008419.
  11. ^ Nawrocki, Eric P.; Eddy, Sean R. (15. November 2013). "Infernal 1,1: 100-fach schneller RNA-Homologie-Suchanfragen". Bioinformatik. 29 (22): 2933–2935. doi:10.1093/bioinformatics/btt509. ISSN 1367-4811. PMC 3810854. PMID 24008419.
  12. ^ Nawrocki, Eric P.; Burge, Sarah W.; Bateman, Alex; Daub, Jennifer; Eberhardt, Ruth Y.; Eddy, Sean R.; Floden, Evan W.; Gardner, Paul P.; Jones, Thomas A. (Januar 2015). "RFAM 12.0: Aktualisierungen der RNA -Familiendatenbank". Nukleinsäurenforschung. 43 (Datenbankproblem): D130–137. doi:10.1093/nar/gku1063. ISSN 1362-4962. PMC 4383904. PMID 25392425.
  13. ^ https://rfam.xfam.org/[nackte URL]

Externe Links