TP Bioinformatique ESIL 2eme Annee:
Partie II
Duree: 1 x 4H
30 Etudiants ( 15 groupes )
V.1.2
Objectif
- Prendre connaissance de quelques outils Unix généraux utiles
en analyse de séquence.
A la fin de ce travail, vous devez avoir
- récupéré un génome bactérien complet par ftp,
- extraits des informations utiles de ce génome,
- effectué une recherche par similarité dans ce génome,
- réalisé localement un alignement multiple,
- affiché l'arbre créé à partir de cet alignement.
a) Mise en place de l'émulateur X-Win32
Cette étape configure votre station Windows NT pour qu'elle émule un
terminal "X-Windows" de serveur Unix (X-terminal). Le système
X-Windows est le système de fenêtrage utilisé par la plupart des
stations Unix.
- Lancer a partir du menu demarrer, le programme X-Util32
- Choisissez 'new session'
- 'Session name': donnez un nom de votre choix a la session (par ex. mon serveur Unix)
s
- 'Host name': donnez comme nom de serveur celui qui vous sera indiqué en TD.
- cochez 'XDMCP', 'Query' et 'Switch to single window'.
- Cliquez 'save' et quittez (menu session: exit)
Cette opération ne sera plus nécessaire lors de prochaines
connexions au même serveur.
b) Connection au serveur Unix
c) Prise en main d'Unix
- Dans la fenêtre 'xterm', tapez la commande suivante, qui
permettra de copier un premier fichier dans votre compte: cp ~gbma/test1
test1
- Essayez quelques commandes dans la fenêtre 'xterm'. Voir les
commandes Unix de base sur ce site
Web. A l'aide du fichier copié ci-dessus, vous pouvez notamment
vous familiariser avec les commandes les plus importantes: ls, cp, mv,
rm, cat, more (éventuellement: cd et mkdir si vous voulez créer des
sous-répertoires).
- La touche "flêche vers le haut" permet de réafficher les
commandes précédentes pour les modifier et/ou les relancer. Essayez.
- Les fonctions copier/coller sous Unix-Xwindows sont réalisées à
l'aide des boutons de la souris. Bouton de gauche pour copier, bouton
central (ou deux boutons en même temps) pour coller.
- Créez un texte, modifiez-le et sauvegardez-le avec l'editeur xedit
(commande xedit <nom de fichier> & ). Utilisez dans
xedit les fonctions de recherche (CONTROL-S), couper (CONTROL-W) et
coller (CONTROL-Y).
d) Récupération de génomes complets par ftp
La plupart de génomes complètement séquencés sont déposé d'une part
dans Genbank et d'autre part sur les serveurs Web ou ftp des
différentes institutions ayant généré ces séquences, ou du serveur de
TIGR.
Ftp est le grand classique des protocoles de transfert de fichiers sur
Internet. Ce protocole est est disponible sur toutes les systèmes
(Windows, Unix, Macintosh). Nous allons l'employer pour récupérer le
génome de Mycoplasma genitalium.
- Taper "ftp ftp.tigr.org"
- Il s'agit d'un serveur ftp anonyme (c'est à dire d'accès
public). Le username est donc "anonymous" et le mot de passe ce que
vous voulez.
- A partir du moment où vous êtes connectés au serveur ftp, vous
pouvez entrer les commandes suivantes:
cd <repertoire> | pour changer de répertoire |
cd .. | pour remonter d'un répertoire |
ls | pour voir les fichiers présents |
bin | pour passer en mode binaire
(indispensable pour récupérer des fichiers compressés (terminaison en .gz ou .Z) |
get <fichier> | Pour télécharger un fichier |
bye | Pour terminer |
- Avec "cd" rendez-vous dans le répertoire
"pub/data/m_genitalium/". Tapez ls.
- Tapez "bin", puis avec "get" récupérez les fichiers "L43967.Z"
(la séquence complète au format Genbank) et "GMG.pep.Z" (les séquences
protéiques traduites, au format Fasta).
- Quittez ftp quand ces transferts sont terminés.
- Vérifiez que les fichiers sont bien sur votre compte, avec la
commande "ls -l".
- Décompressez les deux fichiers avec la commande uncompress
<fichier>. Les fichiers changent de nom, perdant l'extension
".Z". Vérifiez avec "ls".
e) Analyse d'un fichier au format Genbank
Objectif: Extraire rapidement les informations présentes dans un
fichier Genbank.
- Regardez le fichier "L43967" à l'aide de la commande
"more". Repérez les séquences protéiques. Que veut dire
"CDS"? Que veut dire "complement" après CDS? Où se trouve la séquence
nucléotidique? Quelles informations sont disponibles sur chaque gène?
- Nous allons effectuer des recherches automatiques dans ce génome
à l'aide de la commande "egrep", variante de "grep". "egrep" est un
filtre, c'est à dire un programme qui selectionne
automatiquement les lignes d'un fichier possédant telle ou telle
propriété. Le filtre "egrep" permet de sélectionner les lignes
contenant une certaine expression régulière, c'est à dire un motif
flexible décrivrant un ensemble de chaines de caractères.
Par exemple, l'expression "...di" décrit les chaines "lundi" et
"mardi" (et toute autre chaine de 3 caractères se terminant
par "di"). L'expression "[Pp]hosphorylase" décrit les chaines
"Phosphorylase"et "phosphorylase"
La commande "egrep" a la forme: egrep <expression
regulière> <fichier> (si l'on veut afficher toutes les
lignes répondant à l'expression), ou bien egrep -c <expression
regulière> <fichier> (si l'on veut juste compter toutes
les occurences).
Voici les caractères que l'on peut utiliser dans les expressions
régulières Unix.
^ | Le début d'une ligne |
. | Tout caractère (sauf newline) |
$ | La fin d'une ligne |
| | Choix. A|B: A ou B |
() | groupement de caractères |
[] | Classe de caracteres. [AGUC]: A,G,U ou C |
\ | Avant un caractère spécial
qu'on ne veut pas prendre en compte comme tel car il fait partie de la chaine recherchée |
| Les commandes suivantes sont à placer après le
caractère concerné |
* | 0 fois ou plus |
+ | une fois ou plus |
? | une fois ou zero |
{n} | exactement n fois |
{n,} | au moins n fois |
{n,m} | de n a m fois |
- Utilisez la commande "egrep" pour rechercher n'importe quelle
expression dans le génome au format Genbank (par exemple le mot "toto").
- Avec la commande "egrep -c", comptez les élements suivants
(lancez toujours une fois egrep sans l'option -c pour vérifier que
vous êtes bien entrain de comptez ce que vous croyez):
- les gènes protéiques annotés (468)
- les gènes protéiques présents sur le brin inverse (196)
- les tRNA (33)
- Les gènes prédits, mais sans homologue connu (96)
- Les gènes prédits par similarité, avec un pourcentage d'identité
inférieur à 30% (93)
f) Recherche d'homologies dans le génome de M. Genitalia avec Fasta
Objectif: rechercher une fonction précise dans une séquence locale
(par exemple: séquence "privée" indisponible sur Internet). La
séquence que nous cherchons ici est une protéine de choc thermique
(HSP).
- Récupérez sur le compte 'gbma1' le fichier de séquence test.seq. A
l'aide de la commande cp ~gbma1/test.seq . (ne pas oublier
le point).
- Visualisez cette séquence avec more. De quoi s'agit-il?
- A l'aide du programme fasta ( ~gbma1/fasta <séquence à
rechercher> <banque de données>) effectuez une recherche de
séquences similaires à la DNAJ de Plasmodium dans le génome de
M. genitalium (banque de données: GMG.pep). Vous devez donner un nom
de fichier pour la sortie, puis regarder ce fichier avec la commande
more.
g) Alignement de séquences par Clustalw
Objectif: réaliser un alignement en mode local. Indispensable lorsque l'on
travaille sur des séquences top-secret, ou lorsque les séquences sont
trop nombreuses ou trop longues pour les serveurs Web publics.
- Récupérez les 5 premières séquences identifiées ci-dessus par
fasta, dans le fichier GMG.pep. Vous utiliserez l'éditeur xedit
(Utiliser CTRL-S pour rechercher une chaine de caractère). Copiez ces
séquences dans une autre fenêtre xedit, avec la souris. Sauvegardez
ces séquences en format fasta, dans un fichier unique.
- Lancez clustalw ( ~gbma1/clustalw) et alignez les
séquences extraites. Le programme est interactif. L'option "1" est
employée pour lire les séquences non alignées (fichier créé
ci-dessus). L'option "2" permet de lancer l'alignement. Attention: on
vous demnande un nom pour les fichiers de sortie. Acceptez les noms
par défaut, et souvenez-vous du nom du fichier d'alignement.
- Quittez Clustalw à la fin de l'exécution, puis visualisez
l'alignement avec more.
h) Arbre Phylogénétique avec la méthode Neighbor Joining
Objectif: Tracer un arbre simple à partir d'un alignement. Sert bien
sûr à étudier les relations phylogénétiques entre séquences, mais
aussi simplement à classifier visuellement des séquences (un arbre est
beaucoup plus synthétique qu'un alignement).
- Lancez clustalw et réalignez les 5 séquences comme ci-dessus.
- Dans le menu "Phylogenetic tree", choisissez "draw tree
now". Clustalw ne dessine rien, mais vous demande un nom de fichier
dans lequel l'arbre sera sauvegardé. Retenez ce nom.
- Quittez Clustal et visualisez avec more le fichier de l'arbre.
- Utilisez Njplot ( ~gbma1/njplot <fichier-arbre> )
pour visualiser l'arbre. Les HSP devraient être clairement séparées
des "intrus".