Ecole d'Ete de Bioinformatique
Atelier Pratique
Analyse Fonctionnelle d'une famille de protéines
Duree: 2 x 3H
Objectifs
-
Réaliser l'analyse fonctionnelle détaillée d'une famille
de protéines, exclusivement à l'aide d'outils Internet.
A la fin de ce travail, vous devez avoir
-
déterminé precisément la fonction de la proteine étudiée,
par analyse de séquence
-
identifié tous les domaines de la protéine et leur fonction
-
localisé tous les résidus essentiels, le site catalytique,
les sites de liaison au(x) substrat(s)
-
déterminé l'existence de protéines paralogues
-
determiné dans quel ensemble d'organismes on retrouve ces fonctions
(orthologues et paralogues).
Le protocole implémenté s'approche de celui recommandé
par Bork et Koonin (Nature genetics, 1998, 18, 313).
Vous devriez idéalement être en mesure de trouver les sites
Web vous-même en vous aidant des pointeurs donnés en cours
ou des serveurs de liens CAB (http://igs-server.cnrs-mrs.fr) et ABI (http://www-biol.univ-mrs.fr).
Protéines Proposées. Elles présentent des
intérêts différents, soit plusieurs domaines (parfois
réutilisés dans d'autres protéines) soit une structure
3D connue, soit un gène resté longtemps non identifié,
soit l'existence de paralogues. Au choix:
-
Famille des facteurs d'epissage SR (SRp30, SRp40, SRp46, etc.)
-
ORF YBL024w de S.cerevisiae, chromosome II (fonction recemment decouverte
par homologie, non annotee dans le genome, pas de St. 3D)
-
Antiterminateur de transcription SacY de B. subtilis
-
Gln tRNA synthetase (coli)
-
Asp tRNA synthetase (coli)
-
Ser tRNA synthetase (coli)
-
Maltose binding periplasmic protein (coli)
-
Transcriptional regulatory protein OMPR (coli)
-
Cellulase A (clostridium thermocellum)
-
Parvalbumine (humaine)
Conseils Généraux:
-
Sauvegardez en HTML les resultats intermediaires de façon à
pouvoir éventuellement relancer certaines recherches (Attention:
les sorties de Blast sont énormes.)
-
Sauvegardez les graphiques intéressants (format JPG ou GIF) pour
une impression eventuelle
-
Utilisez au maximum les bookmarks-signets pour eviter d'avoir à
retrouver à chaque fois les sites utiles.
a) Récupération de la séquence
-
En vous aidant des mots-clé, récupérez la séquence
protéique ou nucléique de départ avec Entrez ou SRS.
(SRS: plus complet, Entrez: plus facile)
-
Sauvegardez la séquence sur votre compte Windows NT.
b) Eléments structuraux
Le but est ici de repérer toutes les régions susceptibles
de nous déranger dans la recherche d'homologies.
-
Régions transmembranaires. Utiliser pour les prédire l'un
des sites Web répértoriés sur le serveur ABI (Par
ex. http://www.cbs.dtu.dk/services/TMHMM-1.0).
-
Répétitions internes: Utiliser "PLALIGN" (http://fasta.bioch.virginia.edu/fasta/plalign.htm)
afin de comparer la sequence à elle-même. Si la séquence
comporte des régions identiques, on voit apparaitre des diagonales
dans la sortie graphique, ou plus d'un alignement dans la sortie texte.
-
Régions de basse complexité: elles seront filtrées
(remplacées par des N) automatiquement lorsque vous utiliserez Blast
au NCBI (option filter: default). Si vous êtes curieux(se), vous
pouvez désactiver cette option et voir en quoi elle affecte les
résultats.
-
Séquences Alu, Sine, L1, etc.: Elle peuvent être filtrées
en utilisant "advanced Blast". On ne se pose pas la question pour les séquences
procaryotiques.
c) Identification de domaines/motifs connus
Première approche pour l'identification des domaines et/ou motifs
fonctionnels de la protéine: la recherche dans les banques de motifs
et de domaines.
-
Identifiez les motifs potentiels en interrogeant le serveur Prosite (http://www.expasy.ch/tools/scnpsit1.html).
Lisez la documentation des motifs trouvés (Lignes "DO" ou "PDOC"
de la fiche Prosite)
-
Identifiez les domaines potentiels au moyen du serveur PFAM (http://www.sanger.ac.uk/Pfam/).
d) Recherche de similarité
On recherche ici le plus grand nombre possible d'homologues à la
séquence de départ. Dans cette collection, nous distinguerons
ensuite les orthologues des paralogues.
-
Rechercher des homologues avec le serveur Blast (advanced) du NCBI (http://www.ncbi.nlm.nih.gov/blast/blast.cgi).
Faites la recherche au niveau protéique (logiciel = blastp)
-
Collecter les séquences qui paraissent homologues à votre
séquence de départ. Pour les biologistes, la lecture de la
fiche Swissprot de la protéine de départ (si elle existe,
ou d'un article de Review sur cette fonction) peut s'avérer utile
pour vérifier que les résidus ayant donné lieu au
score Blast élevé sont effectivement fonctionnellement importants.
Pour les non biologistes, cette tache est
ATTENTION:
-
Utiliser la bonne banque et la bonne version de Blast. Vous cherchez des
protéines, et vous en voulez le plus possible!
-
Dans les réponses, vous obtiendrez probablement des artefacts. Attention
aux 'ALU warning' et autres matches inintéressants!
-
Attention aux valeurs de E.
-
Vous obtiendrez peut-être plusieurs fois la même protéine
sous des noms différents. Ne les gardez pas toutes.
-
Il ne s'agit pas de garder aveuglément les N meilleures séquences.
Ne perdez pas de vue que l'un des objectifs est de de collecter des homologues
éloignés.
-
Pour tester la validité d'une homologie, on peut parfois effectuer
une recherche réciproque. Si la protéine d'origine ne sort
pas dans les premières solutions, rejeter.
-
Recherches iteratives (toujours Blast) pour récupération
d'homologies eloignées. Des homologies reelles peuvent avoir échappé
à la première recherche. Repartez d'une séquence du
bas de la liste et refaites un Blast. Recommencez jusqu'a ce qu'aucune
nouvelle séquence n'apparaisse, ou que les nouvelles séquences
n'aient visiblement plus rien à voir avec la fonction de depart.
-
A titre de comparaison, le même travail peut être effectué
avec PSI-Blast (toujours serveur du NCBI), qui réalise automatiquement
l'itération.
-
Tentez de classer toutes les séquences obtenues en orthologues/paralogues.
Identifier les régions d'homologie (un paralogue peut être
similaire à la séquence de départ sur un domaine seulement).
e) Alignement multiple
C'est à partir d'un alignement multiple que l'on identifiera les
résidus essentiels. On en tirera des conclusions sur la catalyse,
la liaison au substrat ou tout autre aspect fonctionnel.
-
Préparez l'alignement multiple en séparant orthologues et
paralogues ou, mieux, en séparant les domaines et en réalisant
un alignement multiple pour chaque domaine.
-
Réalisez l'alignement multiple avec le serveur Clustalw disponible
a l'EBI ( http://www2.ebi.ac.uk/clustalw). Cochez l'option treetype=NJ.
-
Vous récupérez un alignement et un arbre. Sauvegardez l'arbre
en format "Phylip" (arbre parenthésé) et affichez-le avec
le programme njplot. Vérifiez vos hypothèses sur les paralogues
et orthologues.
-
Importez l'alignement dans un traitement de texte. Les biologistes peuvent
tenter de rapprochez ces résultats de ce qui est connu de l'activité
et de la structure de la protéine (voir fiche Swissprot, connaissances
personnelles ou articles).
f) Validation 3D
Les structures des protéines choisies ont été résolues
(au moins partiellement) par RMN ou cristallographie. Vous avez donc la
possibilité d'expliquer la présence et la nature des résidus
conservés par des arguments structuraux.
-
Récupérez la structure 3D de la protéine dans la PDB.
(Utilisez directement une recherche par mots-clé sur le serveur
de la PDB: http://www.pdb.bnl.gov )
-
Visualisez cette structure avec Rasmol (logiciel installé localement)
-
Identifiez les éléments secondaires visuellement et dans
le fichier pdb (parfois listés dans les commentaires), comparez
avec les signatures que vous aurez etablies. Vous pouvez cliquer sur la
structure afin d'identifier des residus particuliers.
-
Produire une sortie graphique (JPG, GIF) imprimable ou publiable sur le
Web.