TP Bioinformatique ESIL 2eme Annee: Partie I
Analyse Fonctionnelle d'une famille de protéines
Duree: 4 x 4H
30 Etudiants ( 15 groupes )
V.1.1
Objectifs
- Réaliser l'analyse fonctionnelle détaillée d'une
famille de protéines, exclusivement à l'aide d'outils
Internet.
A la fin de ce travail, vous devez avoir
- déterminé precisément la fonction de la proteine étudiée, par
analyse de séquence
- identifié tous les domaines de la protéine et leur fonction
- localisé tous les résidus essentiels, le site catalytique, les
sites de liaison au(x) substrat(s)
- déterminé l'existence de protéines paralogues
- determiné dans quel ensemble d'organismes on retrouve ces
fonctions (orthologues et paralogues).
Le protocole implémenté s'approche de celui recommandé par Bork et
Koonin (Nature genetics, 1998, 18, 313). Bien que la fonction de la
protéine étudiée soit en fait déjà connue, le protocole doit être
appliqué dans son integralité. Les resultats seront inclus dans le
rapport.
Vous devez trouver les sites web vous-même en vous aidant des
pointeurs donnés en cours ou des serveurs de liens CAB
(http://igs-server.cnrs-mrs.fr) et ABI
(http://www-biol.univ-mrs.fr).
Protéines étudiées:
- Groupe 1: antiterminateur de transcription SacY de B. subtilis
- Groupe 2: DNA polymérase I d'E. coli
Conseils:
- Sauvegardez en HTML les resultats intermediaires de façon à
pouvoir éventuellement relancer certaines recherches (Attention: les
sorties de Blast sont énormes. Faites le ménage à la fin du TP.)
- Sauvegardez les graphiques intéressants pour une insertion
eventuelle dans le rapport.
- Utilisez au maximum les bookmarks-signets pour eviter dávoir a
retrouver les sites importants.
a) Récupération de la séquence
- En vous aidant des mots-clé, récupérez la séquence protéique
de départ avec Entrez ou SRS. (SRS: plus complet, Entrez: plus facile)
- Sauvegardez la séquence sur votre compte Windows NT.
b) Eléments structuraux
Le but est ici de repérer toutes les régions susceptibles de nous
déranger dans la recherche d'homologies.
- Régions transmembranaires. Utiliser pour les prédire l'un des
sites Web répértoriés sur le serveur ABI.
- Répétitions internes: Utiliser 'Blast 2 sequences'
(http://ncbi.nlm.nih.gov/BLAST) et comparer la sequence a
elle-meme. (Si la séquence comporte des régions identiques, on
voit apparaitre des diagonales dans le résultat graphique).
- Régions de basse complexité: elles seront filtrées (remplacées par
des N) automatiquement lorsque vous utiliserez Blast au NCBI
(option filter: default). Donc ne les recherchez pas tout de suite.
c) Identification de domaines/motifs connus.
Première approche pour l'identification des domaines
et/ou motifs fonctionnels de la protéine: la recherche dans les
banques de motifs et de domaines.
- Identifiez les motifs potentiels en interrogeant le serveur
Prosite. Lisez la documentation des motifs trouvés (Lignes "DO" ou
"PDOC" de la fiche Prosite)
- Identifiez les domaines potentiels au moyen du serveur PFAM.
d) Recherche de similarité
On recherche ici le plus grand nombre possible d'homologues à la
séquence de départ. Dans cette collection, nous distinguerons
ensuite les orthologues des paralogues.
- Rechercher des homologues avec le serveur Blast du NCBI
(utiliser la version du serveur offrant un "graphical overview")
- Recherches réciproques (Blast) pour vérifier validité des
homologies: Pour tout match d'origine douteuse: effectuer une
recherche réciproque. Si la protéine d'origine ne sort pas dans les
premières solutions, rejeter.
- Recherches iteratives (toujours Blast) pour récupération
d'homologies eloignées. Des homologies significatives peuvent avoir
échappé à la première recherche. Repartez d'une séquence du base
de la liste et refaites un Blast. Recommencez jusqu'a ce qu'aucune
nouvelle séquence n'apparaisse, ou que les nouvelles séquences
n'aient visiblement plus rien à voir.
- Classer toutes les séquences obtenues en
orthologues/paralogues. Identifier les régions d'homologie (un
paralogue peut être similaire à la séquence de départ sur un
domaine seulement).
ATTENTION:
- Utiliser la bonne banque et la bonne version de Blast. Vous
cherchez des protéines, et vous en voulez le plus possible!
- Dans les réponses, vous obtiendrez peut être des artefacts.
Attention aux 'ALU warning' et autres matches inintéressants!
- Attention aux valeurs de E > 10-3.
- Vous obtiendrez peut-être plusieurs fois la même protéine sous
des noms différents. Ne les gardez pas toutes.
- Il ne s'agit pas de garder aveuglément les N meilleures
séquences. Ne perdez pas de vue que l'un des objectifs est de
rechercher dans quel ensemble d'organismes se retrouve cette (ces)
fonction(s).
e) Alignement multiple
C'est à partir d'un alignement multiple que l'on identifiera les
résidus essentiels. On en tirera des conclusions sur la catalyse et
la liaison au substrat.
- Préparez l'alignement multiple en séparant orthologues et
paralogues ou, mieux, en extrayant tous les domaines homologues (para
et ortho) et en réalisant un alignement multiple pour chaque domaine.
- Réalisez l'alignement multiple avec l'un des serveurs Clustalw
disponibles.
- Importer l'alignement dans un traitement de texte. Numérotez les
résidus, repérez domaines et aa conservés. Rapprochez ces résultats
de ce qui est connu de l'activité et de la structure de la protéine.
f) Prédiction de la structure / vérification (optionnel)
Les structures des proteines choisies ont été résolues (au moins
partiellement par RMN ou cristallographie. Vous avez donc la
possibilité de vérifier les performances des logiciels de prédiction
de structures secondaires.
- Prédire la structure secondaire avec l'un des principaux logiciels
disponibles (par ex. la méthode PHD de l'EMBL Heidelberg)
- Récupérer la structure 3D de la protéine dans la PDB
- Visualiser cette structure avec Rasmol
- Identifier les éléments secondaires visuellement et dans
le fichier pdb (parfois listés dans les commentaires),
comparer avec prédictions.
- Produire une sortie graphique (JPG, GIF) à inclure dans le
rapport.
Rapport
- Rapport réalisé sous Word ou, pour ceux qui savent le faire, HTML.
- Le rapport débute par une introduction sur les objectifs du
travail, puis par un chapitre Matériel et Méthodes.
- N'oubliez aucune étape du TP.
- En conclusion, faites intervenir les connaissances réelles sur la
protéine étudié (un peu de bibliographie est indispensable).