Gauges Bioinformatik

by Daria S.

Was ist der Unterschied zwischen PubMed und PubMed Central?

PubMed	PubMed Central (PMC)
Suchmaschine für Fachliteratur	Archiv für freie wissenschaftliche Veröffentlichungen
Entwickelt von der NCBI	Artikel über biomedizinische und biowissenschaftliche Themen
Hauptbestandteil ist die „MEDLINE“-Datenbank	Gegründet im Jahr 2000
27 Mio. Einträge (23 Mio. davon von Medline) - 13,1 Mio. Kurztexte - 3,8 Mio. Artikel (volle Länge und kostenlos) - 14,2 Mio. Links zu Artikeln	Über 4,3 Mio. Artikel
Manche Artikel über „nicht Life Science“ Themen, Bsp. Astronomie	Verwaltet durch National Center für Biotechnology Information (NCBI)
Artikel…bei: - Verleger - Autor
Veröffentlichungen über Arbeiten, die durch das US National Institute of Health (NIH) finanziert wurden, müssen auf PMC bereitgestellt werden

Wie heißt die Datenbank, aus der die PubMed Suchmaschine die meisten Daten bezieht?

Medline

Was ist PubMed Central?

= Ein Archiv für wissenschaftliche Veröffentlichungen auf das kostenlos zugegriffen werden kann. Verwaltet durch NCBI (National Center of Biotechnology Information)

Welche Art von Informationen findet man in der Uniprot-Datenbank und welches Format eignet sich am besten, um diese Informationen auszutauschen?

Uniprot:

= bioinformatische Datenbank für Proteine aller Lebewesen und Viren + Informationen über die Proteinfunktions/Struktur + Links zu anderen Themen relevanten Datenbanken

Informationen austauschen:

- Kombiniere Daten mit Pathway Maps

- Alle Uniprot-las zu KEGG-las konvertieren

- Daten in neues Format konvertieren

Was ist der Unterschied zwischen einem exakten Alignment-Algorithmus wie z.B. Needleman-Wunson und einem heuristischen-Algorithmus, wie er in BLAST verwendet wird?

Alignment-Algorithmus: - Sehr exakte Methode; stellt garantiert ein optimales Ergebnis zur Verfügung

Heuristische Algorithmen: - Stellt Vermutungen auf, um schneller zu sein (meistens sind die Vorschläge gut genug)

- Opfert Präzession für Schnelligkeit

- Keine Garantie, dass der Algorithmus die optimale Option findet, aber meistens ist die beste gefundene Option immer noch sehr gut

Nennen sie 2 Datenbanken, in denen vor allem Informationen über Kleinmoleküle zu finden sind:

· CAS (Chemical Abstracts Services)

· Beilstein (Reaxys)

· ChEBI

· ChEMBL

· Dubchem

· Drug Bank

· HMDB (Human Metabolome Database)

· TBDB (Database on toxic small molecules)

· Food DB

In welcher Datenbank welchen/Datenbanken findet man hauptsächlich Informationen zu Gensequenzen?

· BGI (largest genome research Institute)

· DNA Database of Japan (DDBJ)

· EMBL-Bank (Europe)

· Gen Bank (USA)

Was ist die CAS-Nummer?

CAS-Nummer

- internationaler Bezeichnungsstandart für chemische Stoffe

- Für jeden in der CAS-Datenbank registrierten chemischen Stoff existiert eine eindeutige CAS-Nummer

Welches der beiden folgenden Gensequenzalignments hat den höheren Score, wenn man die unten angegebene Scoring-Tabelle verwendet? Berechnen Sie die Scores und kreisen Sie das Alignment mit dem höheren Score ein.

Alignment 1:

ATCGAGA

ATGGAG-

+3+3-4+3+3+3-5=+6

Alignment 2:

ATCG-AGA

AT-GGAG-

+3+3-5+3-5+3+3-5=0

Alignment 1:

ATCGAGA

ATGGAG-

+3+3-4+3+3+3-5=+6

Alignment 2:

ATCG-AGA

AT-GGAG-

+3+3-5+3-5+3+3-5=0

Match	Mismatch	Gap
3	-4	-5

· Scoring-Tabelle:

Welche 3 logischen Operatoren braucht man, um komplexe Suchanfragen an wissenschaftliche Datenbanken an zu schauen?

· AND, OR und NOT

· AND: Individuelle Elemente einer Suchanfrage werden kombiniert. Das bedeutet, um einen Treffer zu erhalten müssen alle Elemente im Eintrag enthalten sein.

· OR: Nur eines der Elemente muss zum Eintrag enthalten sein, um einen Treffer zu erhalten.

· NOT: Besagt, dass die Suchmaschine nur Einträge suchen soll, in denen das Element nach dem NOT-Operator nicht enthalten ist.

Welchen Score erhalten sie für folgende Nukleotid-Sequenzalignment…

CTGAATG

ATCAA -G

…wenn sie die unten abgebildete „Scoring Tabelle“ zugrunde legen?

Match	Mismatch	Gap
3	-1	-2

Welchen Score erhalten sie für folgende Nukleotid-Sequenzalignment…

CTGAATG

ATCAA -G

…wenn sie die unten abgebildete „Scoring Tabelle“ zugrunde legen?

Match	Mismatch	Gap
3	-1	-2

CTGAATG

ATCAA -G

-1+3-1+3+3-2+3=+8

Erklären sie in 3 - 4 Sätzen, warum man bei einer Suche in GenBank unterschiedliche Ergebnisse erhält, je nachdem in welcher Reihenfolge man die folgenden 3 Suchbegriffe angibt: sea snake venom

Im ersten Schritt versucht die Suchmaschine Einträge zu finden, wo alle 3 Worte gemeinsam und in gesuchter Reihenfolge vorkommen. Bei sea snake venom ist auch noch eine kleine Wahrscheinlichkeit gegeben, dass die Suchmaschine einen Eintrag mit diesem Ausdruck findet. Sucht man die gleichen Begriffe aber zum Beispiel in einer anderen Reihenfolge, die sehr unwahrscheinlich oder unlogisch ist (also so vermutlich in keinem Eintrag zu finden ist), dann sucht die Suchmaschine nach allen Einträgen, die diese 3 Begriffe enthalten, egal in welcher Reihenfolge (Bsp. Venom snake sea).

Erklären sie was eine Proteindomäne ist und in welchem Zusammenhang diese mit dem Konzept der Proteinfamilie steht (3-4 Sätze)

· Proteindomänen sind Regionen eines Proteins (Sequenzen), die gleichzusetzen sind mit einer bestimmten Funktion (Beispiel: Bindung eines Substrats)

· Proteine, die eine gemeinsame Domäne besitzen, gehören zu der selben Proteinfamilie

· Abhängig von der Anzahl an Domänen, die ein Protein besitzt, kann es zu verschiedenen Proteinfamilien gehören.

Welche Art von Informationen finden Sie in der Drug Bank Datenbank (1-2 Sätze)?

· Informationen über Kleinmoleküle mit pharmakologischer Wirkung wie: - Toxizität

- Preis

- Hersteller

- Synthese

- tödliche Dosis

- Wechselwirkungen

- Patente

Beschreiben sie was man unter dem Begriff „Sequenzalignment“ im Zusammenhang mit Gensequenzen versteht und erläutern Sie anhand eines Beispiels das Konzept Scoring Tabelle (3-4 Sätze)

· „Sequenzalignment“ = Die Suche nach identischen Sequenzen in einer Gensequenz Datenbank

· Wenn die Suchmaschine keine identische Sequenz finden kann, sucht sie nach ähnlichen Sequenzen. Um mögliche Übereinstimmungen einzustufen benutzt das Programm „Scoring Tabellen“. Die Sequenz mit dem höchsten Score wird als die beste Übereinstimmung gewertet.

Verbinden Sie die Daten mit der entsprechenden Datenbank in der diese vorwiegend zu finden sind.

Wirkstoffe PubMed Central (PMC)
Wissenschaftl. Artikel Protein Databse (PDB)
Proteinsequenzen UniProt
3D Strukturen PubMed
Informationen & Literatur Genbank
Gensequenzen Drugbank

Welchen Score erhält man für das folgende paarweise Sequenzalignment…

ATCGATCGG und TGACTGG

AA- - ATTCG TG- - AAG

…wenn man folgende Scoring Tabelle verwendet?

Match	Mismatch	Gap	Gap Extension
4	-3	-5	-2

Welchen Score erhält man für das folgende paarweise Sequenzalignment…

ATCGATCGG und TGACTGG

AA- - ATTCG TG- - AAG

…wenn man folgende Scoring Tabelle verwendet?

Match	Mismatch	Gap	Gap Extension
4	-3	-5	-2

· ATCGATCGG

AA- - ATTCG

+4-3-5-2+4+4-3-3+4=0

· TGACTGG

TG- - AAG

+4+4-5-2-3-3+4=0

Wozu verwendet man „Search Fields“ bei der Suche in wissenschaftlichen Datenbanken?

· „Search Fields“ werden für eine spezifische Suche verwendet, wenn nur der Begriff alleine zu unspezifisch ist

· Beispiel: yeasts [organism] AND Watson [author]

Nennen sie eine Datenbank in der sie unter anderem 2D Strukturformen zu beliebigen Kleinmolekülen wie z.B. Glucose oder Glycerin finden können.

· ChEBI (Chemical Entities of Biological Interest)

· ChEMBL

· PubMed

· Structure drawing application

Warum haben die Einträge in wissenschaftlichen Datenbanken eindeutige Bezeichner, die sich niemals ändern?

Alle Einträge in Datenbanken haben eine einzigartige ID. Dadurch kann ein einzelner Eintrag identifiziert werden. Da sich die ID nicht verändert, kann genau der gleiche Eintrag auch noch Jahre später wiedergefunden werden. Erzeugt reproduzierbare Ergebnisse.

Warum ist es wichtig, sich bei einer Suche in z.B. PubMed stets die sogenannte „Search Details“ anzusehen bzw. aufzuschreiben?

Häufig werden durch die Suchmaschine geläufige Begriffe in systematische Begriffe übersetzt. Dann sucht die Suchmaschine nicht mehr nach dem spezifischen Begriff, sondern dem abgewandelten Begriff.

Nennen sie 4 unterschiedliche Arten von Daten, die man in Bioinformatikdatenbanken finden kann.

· Genom Daten (DNA-Sequenzen)

· Transkripten Daten (RNA-Sequenzen + Expressionsprofil)

· Proteom Daten (Protein Sequenzen + Expressionsprofil)

· Stoffwechsel Daten (Reaktionsnetzwerk + Konzentration von Stoffwechselprodukten)

· Daten zu Interaktion (Protein-Protein, Protein-DNA, Protein-RNA, Protein-Kleinmolekül)

· Daten über Struktur von Molekülen

Worin unterscheidet sich die Berechnung des Scores beim paarweisen Sequenzalignment von Nukleotidsequenzen gegenüber den paarweisen Sequenzalignment bei Proteinsequenzen?

· Scores werden über verschiedene Matrix bestimmt (P) vs. Scores werden über Tabellen bestimmt (N)

· Alignment bei Proteinsequenzen ist komplexer (20 AS vs. 4 Nukleotide)

Was ist der Unterschied zwischen kurierten und nicht kurierten Daten?

· Curated (kuriert): Ein Experte hat die Daten überprüft und sichergestellt, dass sie richtig sind.

· Non-curated (nicht kuriert): Daten wurden so wie sie sind in Datenbank integriert; ohne Verknüpfung.

Was sind Primärdaten und was sind Sekundärdaten?

· Primärdaten: In biologischem Experiment erstellt und unverarbeitet abgespeichert.

· Sekundärdaten: Beinhaltet Daten die bei der Verarbeitung von anderen Daten (Bsp. Primärdaten) entstanden sind

Welches Datenformat wird vorwiegend zum Austausch von Sequenzinformationen verwendet?

· Sequenzreihenfolge in 5´-3´ Richtung

§ IUPAC-Buchstaben

§ Eine Sequenz pro Datei

· FASTA-Format

§ Kann mehrere Sequenzen beinhalten

§ IUPAC

Was ist der wichtigste Wert zur Bewertung der Güte eines Treffers bei einer Ähnlichkeitssuche mit BLAST?

Welche Art von biologischer Information ist in PubChem abgelegt? (Ganz allgemein.)

Wozu verwendet man eine BLOSUM Matrix in der Bioinformatik?

Nennen sie drei unterschiedliche Arten von biologischen Informationen und jeweils eine Datenbank in der man diese Information finden kann.

Erläutern sie kurz, wie sich die folgenden drei Suchanfragen in z.B. PubMed unterscheiden bzw. was jeweils gesucht wird:

a) mitochondria AND proteins

b) mitochondria OR proteins

c) mitochondria NOT proteins

Was benötigt man, um für ein paarweises Sequenzalignment zwischen zwei Nukeotidsequenzen einen „Score“ berechnen zu können? Gehen sie auch kurz darauf ein, wie diese Information aussieht.

Wann kann man bei einem Sequenzalignment davon ausgehen, dass ein gefundenes Alignment nicht rein auf Zufall beruht?

Was versteht man unter der Tertiärstruktur von Biomolekülen?

Welches ist das wichtigste Austauschformat, wenn man mit Sequenzdaten arbeitet?

Geben sie ein Beispiel für den Aufbau des FASTA Formats anhand einer beliebigen Nukleotidsequenz.

Welche Art von Daten wird in sogenannten PDB Dateien gespeichert?

Wozu wird das PDB-Format verwendet?

Welche Art von Daten findet man hauptsächlich in den drei Datenbanken DrugBank, FooDB und T3DB?

Erläutern sie in ganzen Sätzen, was die folgende Suchanfrage in PubMed genau macht.

(“Watson, JD”[author] or “Crick, FH”[author]) not DNA[title]

Wozu dienen FASTA-Dateien und wie sind diese aufgebaut?

Warum verwendet man in der Bioinformatik für das Sequenzalignment fast ausschließlich heuristische Methoden?

Worin liegt deren Nachteil?

Erklären sie die Elemente / den Aufbau einer Scoring Tabelle.

Welche Inhalte findet man vorwiegend in folgenden Datenbanken:

a) PubChem

b) Drugbank

c) UniProt

Was ist der Unterschied zwischen einer kurierten und einer unkurierten Datenbank?

Was würde man mit folgender Suchanfrage in PubMed bezwecken und warum ist

diese Suchanfrage nicht unbedingt geeignet, alle relevanten Einträge in der

Datenbank zu finden? Wie könnte man dies korrigieren?

“Robert G. Edwards“[Author] AND “fertilization“[Title]

In welchem Format werden 3D Strukturen hauptsächlich abgespeichert?

Worin unterscheiden sich die Ähnlichkeitssuche mit Nukleotidsequenzen (blastn) von

der Ähnlichkeitssuche mit Aminosäuresequenzen (blastp) hauptsächlich? (Außer der

Tatsache, dass es einmal Nukleotide und einmal Aminosäuren sind.)

Welches ist heute die Kleinmoleküldatenbank mit den meisten Einträgen unter den

frei verfügbaren Datenbanken?

In welcher Datenbank findet man hauptsächlich Informationen zu Giftstoffen?

Warum ist es im Grunde egal, ob man nach Nukleotidsequenzen im European

Nucleotide Archive (ENA), in NCBI Nucleotide (GenBank) oder in der DNA Database

of Japan (DDBJ) sucht?

Nennen sie drei unterschiedliche Arten von biologischen Informationen, mit welchen

man in der Bioinformatik arbeitet und geben sie jeweils eine Datenbank an, in der

man vorwiegend Informationen zu dieser Art von Daten findet. (Nukleotidsequenzen

wurden in der vorigen Aufgabe bereits thematisiert und dürfen hier nicht erneut

genannt werden.)

Warum ist die Januarausgabe der Zeitschrift Nucleic Acid Research (NAR) interessant für jeden, der sich mit Bioinformatik beschäftigt?

Sie sehen in einer Zeitschrift ein Bild mit einer Strukturformel eines Moleküls, leider ist der Name nicht mit angegeben. Skizzieren sie kurz, wie sie anhand von freien Bioinformatikdatenbanken herausfinden können, um welches Molekül es sich handelt?

Join Course

Preview

Author

Daria S.

Information

Last changed
3 years ago

Report course