TP Bioinformatique ESIL 2eme Annee:
Partie II

Duree: 1 x 4H
30 Etudiants ( 15 groupes )
V.1.2

Objectif

Prendre connaissance de quelques outils Unix généraux utiles en analyse de séquence.

A la fin de ce travail, vous devez avoir

récupéré un génome bactérien complet par ftp,
extraits des informations utiles de ce génome,
effectué une recherche par similarité dans ce génome,
réalisé localement un alignement multiple,
affiché l'arbre créé à partir de cet alignement.

a) Mise en place de l'émulateur X-Win32

Lancer a partir du menu demarrer, le programme X-Util32
Choisissez 'new session'
'Session name': donnez un nom de votre choix a la session (par ex. mon serveur Unix) s
'Host name': donnez comme nom de serveur celui qui vous sera indiqué en TD.
cochez 'XDMCP', 'Query' et 'Switch to single window'.
Cliquez 'save' et quittez (menu session: exit)
Cette opération ne sera plus nécessaire lors de prochaines connexions au même serveur.

b) Connection au serveur Unix

Lancer, à partir du menu démarrer, le programme X-Win32
En cliquant avec le bouton de droite sur l'icone X-Win32, choisissez la session que vous venez de créer.
Connectez-vous au serveur Unix avec votre nom et votre mot de passe (communiqués en TD).
A partir de ce moment, votre PC se comporte exactment comme si vous étiez directement devant la station Unix. La plupart des fonctions de Windows-NT / Windows 95 ne sont plus disponibles.

c) Prise en main d'Unix

Dans la fenêtre 'xterm', tapez la commande suivante, qui permettra de copier un premier fichier dans votre compte: cp ~gbma/test1 test1
Essayez quelques commandes dans la fenêtre 'xterm'. Voir les commandes Unix de base sur ce site Web. A l'aide du fichier copié ci-dessus, vous pouvez notamment vous familiariser avec les commandes les plus importantes: ls, cp, mv, rm, cat, more (éventuellement: cd et mkdir si vous voulez créer des sous-répertoires).
La touche "flêche vers le haut" permet de réafficher les commandes précédentes pour les modifier et/ou les relancer. Essayez.
Les fonctions copier/coller sous Unix-Xwindows sont réalisées à l'aide des boutons de la souris. Bouton de gauche pour copier, bouton central (ou deux boutons en même temps) pour coller.
Créez un texte, modifiez-le et sauvegardez-le avec l'editeur xedit (commande xedit <nom de fichier> & ). Utilisez dans xedit les fonctions de recherche (CONTROL-S), couper (CONTROL-W) et coller (CONTROL-Y).

d) Récupération de génomes complets par ftp

Ftp est le grand classique des protocoles de transfert de fichiers sur Internet. Ce protocole est est disponible sur toutes les systèmes (Windows, Unix, Macintosh). Nous allons l'employer pour récupérer le génome de Mycoplasma genitalium.

Taper "ftp ftp.tigr.org"
Il s'agit d'un serveur ftp anonyme (c'est à dire d'accès public). Le username est donc "anonymous" et le mot de passe ce que vous voulez.

A partir du moment où vous êtes connectés au serveur ftp, vous pouvez entrer les commandes suivantes:

cd <repertoire>	pour changer de répertoire
cd ..	pour remonter d'un répertoire
ls	pour voir les fichiers présents
bin	pour passer en mode binaire (indispensable pour récupérer des fichiers compressés (terminaison en .gz ou .Z)
get <fichier>	Pour télécharger un fichier
bye	Pour terminer

Avec "cd" rendez-vous dans le répertoire "pub/data/m_genitalium/". Tapez ls.
Tapez "bin", puis avec "get" récupérez les fichiers "L43967.Z" (la séquence complète au format Genbank) et "GMG.pep.Z" (les séquences protéiques traduites, au format Fasta).
Quittez ftp quand ces transferts sont terminés.
Vérifiez que les fichiers sont bien sur votre compte, avec la commande "ls -l".
Décompressez les deux fichiers avec la commande uncompress <fichier>. Les fichiers changent de nom, perdant l'extension ".Z". Vérifiez avec "ls".

e) Analyse d'un fichier au format Genbank

Regardez le fichier "L43967" à l'aide de la commande "more". Repérez les séquences protéiques. Que veut dire "CDS"? Que veut dire "complement" après CDS? Où se trouve la séquence nucléotidique? Quelles informations sont disponibles sur chaque gène?

Nous allons effectuer des recherches automatiques dans ce génome à l'aide de la commande "egrep", variante de "grep". "egrep" est un filtre, c'est à dire un programme qui selectionne automatiquement les lignes d'un fichier possédant telle ou telle propriété. Le filtre "egrep" permet de sélectionner les lignes contenant une certaine expression régulière, c'est à dire un motif flexible décrivrant un ensemble de chaines de caractères.
Par exemple, l'expression "...di" décrit les chaines "lundi" et "mardi" (et toute autre chaine de 3 caractères se terminant par "di"). L'expression "[Pp]hosphorylase" décrit les chaines "Phosphorylase"et "phosphorylase"
La commande "egrep" a la forme: egrep <expression regulière> <fichier> (si l'on veut afficher toutes les lignes répondant à l'expression), ou bien egrep -c <expression regulière> <fichier> (si l'on veut juste compter toutes les occurences).
Voici les caractères que l'on peut utiliser dans les expressions régulières Unix.

^	Le début d'une ligne
.	Tout caractère (sauf newline)
$	La fin d'une ligne
\|	Choix. A\|B: A ou B
()	groupement de caractères
[]	Classe de caracteres. [AGUC]: A,G,U ou C
\	Avant un caractère spécial qu'on ne veut pas prendre en compte comme tel car il fait partie de la chaine recherchée
	Les commandes suivantes sont à placer après le caractère concerné
*	0 fois ou plus
+	une fois ou plus
?	une fois ou zero
{n}	exactement n fois
{n,}	au moins n fois
{n,m}	de n a m fois

Utilisez la commande "egrep" pour rechercher n'importe quelle expression dans le génome au format Genbank (par exemple le mot "toto").
Avec la commande "egrep -c", comptez les élements suivants (lancez toujours une fois egrep sans l'option -c pour vérifier que vous êtes bien entrain de comptez ce que vous croyez):
- les gènes protéiques annotés (468)
- les gènes protéiques présents sur le brin inverse (196)
- les tRNA (33)
- Les gènes prédits, mais sans homologue connu (96)
- Les gènes prédits par similarité, avec un pourcentage d'identité inférieur à 30% (93)

f) Recherche d'homologies dans le génome de M. Genitalia avec Fasta

Récupérez sur le compte 'gbma1' le fichier de séquence test.seq. A l'aide de la commande cp ~gbma1/test.seq . (ne pas oublier le point).
Visualisez cette séquence avec more. De quoi s'agit-il?
A l'aide du programme fasta ( ~gbma1/fasta <séquence à rechercher> <banque de données>) effectuez une recherche de séquences similaires à la DNAJ de Plasmodium dans le génome de M. genitalium (banque de données: GMG.pep). Vous devez donner un nom de fichier pour la sortie, puis regarder ce fichier avec la commande more.

g) Alignement de séquences par Clustalw

Récupérez les 5 premières séquences identifiées ci-dessus par fasta, dans le fichier GMG.pep. Vous utiliserez l'éditeur xedit (Utiliser CTRL-S pour rechercher une chaine de caractère). Copiez ces séquences dans une autre fenêtre xedit, avec la souris. Sauvegardez ces séquences en format fasta, dans un fichier unique.
Lancez clustalw ( ~gbma1/clustalw) et alignez les séquences extraites. Le programme est interactif. L'option "1" est employée pour lire les séquences non alignées (fichier créé ci-dessus). L'option "2" permet de lancer l'alignement. Attention: on vous demnande un nom pour les fichiers de sortie. Acceptez les noms par défaut, et souvenez-vous du nom du fichier d'alignement.
Quittez Clustalw à la fin de l'exécution, puis visualisez l'alignement avec more.

h) Arbre Phylogénétique avec la méthode Neighbor Joining

Lancez clustalw et réalignez les 5 séquences comme ci-dessus.
Dans le menu "Phylogenetic tree", choisissez "draw tree now". Clustalw ne dessine rien, mais vous demande un nom de fichier dans lequel l'arbre sera sauvegardé. Retenez ce nom.
Quittez Clustal et visualisez avec more le fichier de l'arbre.
Utilisez Njplot ( ~gbma1/njplot <fichier-arbre> ) pour visualiser l'arbre. Les HSP devraient être clairement séparées des "intrus".

TP Bioinformatique ESIL 2eme Annee: Partie II