TD bases de données génomiques

V. 2004.2 Durée: 2H

Exercice 1

Rechercher une séquence de mRNA par mot-clé dans Genbank nucléique, via Entrez (visualisez la fiche genbank et les annotations: numéro GI? numéro d'accession?).
Recherchez le produit de ce gène dans Swissprot via SRS.
Comparez les fiches dans ces 2 banques de données. Vérifiez consistence (traduction Genbank = séquence Swissprot)

Exemples: (facteur de transcription TFIIB de C.elegans).

Rendez-vous sur le site du NCBI.
Retrouvez les génomes bactériens séquencés, avec leur classification phylogénétique
Choisissez E.coli K-12. Cliquez sur le lien "refseq" (numéro commençant par NC) et cherchez dans la carte génomique la région de l'opéron lactose (lacA, lacY, lacZ,..)
A quel position dans le génome se trouve l'opéron? Quels sont les gènes en amont et en aval de l'opéron?

Recherchez dans la base Ensembl Human toutes les entrées ayant un rapport avec la maladie d'Alzheimer.
Notez les gènes impliqués (combien?) ainsi que les liens OMIM (Base de données de gènes humains associés à des maladies)
Retrouvez sur le génome le gène d'apolipoprotéine E. Affichez le fragment génomique. Quelle est la longueur du gène? Combien a-t-il d'exons?
Récupérez la séquence génomique de 10kb en 5' du gène ("flat file" avec annotations "gene information"). Regardez le fichier produit. Un gène doit se trouver annoté dans cette région.

Le projet CGAP (NCI) est un projet de séquençage d'EST dans les tissus cancéreux et non cancéreux, destiné à identifier des marqueurs de cancer.

Sur le site du NCI, explorez les pages CGAP
Trouvez l'outil "cDNA xprofiler"
Quels sont les gènes trouvés spécifiquement dans les bibliothèques de cancer du sein? (76+12 en 2004)