TP Bioinformatique
Analyse Fonctionnelle d'une famille de
protéines
Durée approximative: 6H
V.2005.1 D. Gautheret
Objectifs
Réaliser l'analyse fonctionnelle détaillée
d'une famille de
protéines, exclusivement à l'aide d'outils Internet:
- déterminer precisément les
éléments fonctionnels de la proteine
étudiée, notamment:
- les domaines
- les résidus essentiels, éventuels sites
catalytiques ou de liaison au substrat
- identifier des orthologues et des paralogues
- dater l'apparition de différents paralogues
Le protocole implémenté s'approche de celui
recommandé par Bork et
Koonin (Nature genetics, 1998, 18, 313). Vous devez trouver les sites
web
vous-même en vous aidant des
pointeurs donnés en cours ou des moteurs
génériques (Google, etc.)
Protéine Proposée:
DNA fragmentation factor alpha subunit (humain). 331 aa.
On étudiera particulièrement le domaine CIDE-N.
Conseils Généraux
- Sauvegardez en HTML les resultats intermediaires de façon
à
pouvoir éventuellement relancer certaines recherches (Attention:
les
sorties de Blast sont énormes: faites le ménage à
la fin du TP.)
- Utilisez au maximum les bookmarks/favoris pour éviter
d'avoir à
retrouver à chaque fois les sites utiles.
a) Récupération de la séquence
- En vous aidant des mots-clé, récupérez la
séquence protéique de
départ avec Entrez ou SRS.
- Sauvegardez la séquence au format Fasta sur votre compte.
b) Eléments structuraux
Il s'agit ici de prendre différentes précautions avant
la recherche d'homologues, afin de repérer les régions
susceptibles
d'interférer avec les véritables homologies.
- Régions transmembranaires. Utiliser un des
nombreux sites Web de prédiction (par ex. TMHMM). Note: si la
protéine étudiée n'est pas transmembranaire,
testez la prédiction
avec une véritable transmembranaire, par ex: Swissprot P27732.
- Répétitions internes. Il est toujours utile de
vérifier si notre protéines contient des
répétitions. Utiliser Lalign, un
programme du package
Fasta qui produit à partir de 2 séquences tous les
alignements locaux
"intéressants". Utiliser le serveur
http://www2.igh.cnrs.fr/bin/lalign-guess.cgi
Plusieurs alignements significatifs indiquent des
répétitions.
- Régions de basse complexité: elles seront
filtrées (remplacées
par des N) automatiquement lorsque vous utiliserez Blast au NCBI
(option filter: default). Si vous êtes curieux(se), vous pourrez
désactiver cette option lors du Blast et voir en quoi elle
affecte les
résultats.
- Séquences Alu, Sine, L1, etc.: Elle peuvent être
filtrées par blastn sur demande. Généralement pas
nécessaire avec Blastp.
c) Identification de domaines/motifs connus.
Première approche pour l'identification des domaines et/ou
motifs
fonctionnels de la protéine: la recherche dans les banques de
motifs et
de domaines.
- Identifiez les motifs potentiels en interrogeant le serveur
Prosite. Lisez la documentation des motifs trouvés (Lignes "DO"
ou
"PDOC" de la fiche Prosite)
- Identifiez les domaines potentiels au moyen du serveur PFAM.
- Cliquez sur un domaine coloré, puis "view graphic" pour
voir toutes les protéines possédant ce domaine.
d) Recherche d'homologues
But: collecter des homologues à notre séquence de
départ, avec deux objectifs: identifier les résidus
conservés et faire une analyse phylogénétique.
- Rechercher dans Swissprot des homologues à la
protéine initiale avec le serveur Blast du
NCBI. Collecter 10-15 séquences (dont la séquence
initiale) et les sauvegarder en Fasta.
- Utiliser la bonne version de Blast. Vous
cherchez des protéines!
- Attention aux valeurs de E: si trop
élevées, vous avez
intérêt à être certain
que les séquences sont homologues (d'après leur
annotation).
- Vous obtiendrez peut-être plusieurs fois la même
protéine
sous des noms différents, ou des mutants sans
intérêt.
- Il ne s'agit pas de garder aveuglément les N
meilleures
séquences. On a besoin de diversité pour identifier les
résidus conservés.
- Dans le cas d'une protéine multidomaines on
s'intéressera aux homologues d'un domaine particulier pour
éviter de se disperser.
- Enfin; on essaiera déchantillonner différents
paralogues et différentes espèces. Par exemple: globine
alpha homme/poulet/fugu + globine beta homme/poulet/fugu.
- Facultatif: on peut faire un psi-Blast pour
récupérer des homologues encore plus
éloignés
e) Alignement multiple et arbre
C'est à partir d'un alignement multiple que l'on identifiera les
résidus essentiels à la fonction.
- Dans le cas d'une protéine à plusieurs domaines,
vous aurez deux alignements à faire:
- un alignement global vous donnera les résidus communs
à
l'ensemble des séquences sélectionnées (peut ne
rien donner si les
protéines sont trop variables)
- l'alignement restreint à un domaine, comprenant
orthologues et
paralogues: pour observer les résidus importants dans cette
fonction
précise. Seul l'alignement restreint à un
domaine peut donner un arbre fiable.
- Réalisez l'alignement multiple avec le serveur Clustalw
du serveur Infobiogen.
- Vous récupérez l'alignement en format texte.
- Questions à se poser à partir de l'alignement:
- Retrouve-t-on le/les motifs identifiés
précedemment?
- Quels sont les résidus essentiels?
- Toutes les protéines contiennent-elles le(s) motifs(s)?
- Certains paralogues semblent-ils avoir des fonctions
différentes?
- Toujours à partir du serveur Infobiogen, passez à l'analyse de l'alignement
avec le package Phylip. Choisir "traitement de
l'alignement multiple", puis choisir "matrice de similitude ou de
distance" dans traitement, puis "Neighbor Joining".
- Questions à se poser à partir de l'arbre:
- Quels sont les groupes de séquences orthologues?
- Pour les séquences qui avaient une fonction inconnue,
peut-on maintenant les classer dans un groupe?
- Peut-on dater les différentes duplications ayant produit
les paralogues?
f) Validation 3D
La protéine choisie possède des
homologues de
structure résolue (au moins partiellement) par RMN ou
cristallographie.
Vous avez donc la possibilité de visualiser en 3D les
résidus/domaines conservés. - Retrouvez
des
structures pdb homologues à votre séquence en
réalisant un
blastp contre
la banque pdb. IMPORTANT: Notez les positions des résidus
conservés
dans la séquence pdb.
- Récupérez la structure sur le site de la pdb et
visualisez-là avec
Rasmol
- Grâce aux coordonnées notées plus haut,
retrouvez les résidus conservés dans la structure.
Commande "select <num residu>" dans la
fenêtre de commande Rasmol, puis coloration ou affichage de la
selection en mode "spacefill".
- Option: produire une sortie graphique (JPG, GIF).
g) Rapport
- Noms des étudiants
- Objectifs
- Sites Web, bases de données et logiciels utilisés
- Blast et choix de séquences.
- Alignement et conclusions
- Arbre phylogénétique et conclusion