Bioinformatique
des Séquences
EMBIA1CM
TP
Recherche de similarités
Exercice 1 : les
séquences
D16349 et M81829 comparées lors du TD1
- Utilisez
le
programme BLAST pour
comparer les séquences nucléiques avec blastn puis avec tblastx (vous devez cocher la case Align two or more sequences)
Quelles sont vos conclusions ?
- A partir
de
la séquence D16349, faire un nucleotide blast
(blastn), contre la banque nr.
- pourquoi a-t-on une série
de "t" minuscules dans le premier match ?
- dans quels organismes trouvez-vous des homologues ?
- trouvez-vous la séquence précédente M81829 ? pourquoi ?
- Relancer
Blastn en sélectionnant les séquences d'oiseaux (taper
"aves" dans Organism) et cocher la case Exclude Models (XM/XP)
Comparer les résultats en faisant un megablast ou "somewhat
similar sequences (blastn)".
Quels résultats vous paraissent significatifs avec blastn ?
- Lancer
BlastX contre la banque SwissProt
- pourquoi n'a-t-on pas d'alignement sur toute la
séquence de départ ?
- à quoi correspondent les + dans l'alignement ?
- à quoi correspond ce morceau de séquence laladalatstl ?
- quels résultats vous paraissent significatifs ?
- un alignement avec une E-value de l'ordre de e-50, vous
parait-il un "bon" alignement ?
Exercice 2 : Analyse d'un EST de souris avec BLASTX
La séquence
EMBL W99073 est un EST de souris. Comparez cette séquence
nucléique à la banque SwissProt
Répondez aux questions suivantes :
- Est-ce-que cet EST correspond à une séquence codante ?
- Est-ce-que l'EST couvre la totalité de la séquence protéique
de souris ?
- Regardez les résultats : l'alignement est-il toujours en un
seul morceau ? Comment/où le voyez-vous ?
- Regardez en particulier l'alignement avec la séquence de
souris Q6PCZ4
- Cherchez dans l'annotation de la séquence à quoi correspond
ce domaine.
- Comparez avec les BLASTX sur l'EBI ou UniProt en sélectionnant chaque fois UniProt/SwissProt
- Vous pouvez aussi tester FASTA à l'EBI
Exercice 3 : Comparaison BLAST et BLAT
Sur le site
d'ENSEMBL, comparer la CDS d'une
peroxidase TPO humaine au génome humain, avec BLAST et avec BLAT.
Conclusions ?
Comparer
maintenant la CDS de TPO du panda contre le génome humain avec les 2 programmes.
Conclusions ?
Pour
information, la CDS humaine et celle de panda sont composée de 16
exons.
Exercice 4 : BLAST et BLAT sous Unix
Vous allez vous connecter
au serveur de GenoToul genologin.toulouse.inra.fr
en tant que : cosmos cyclamen dahlia digitale geranium gerbera glaieul hortensia iris jacinthe jonquille laurier lavande lilas liseron lotus lys muguet narcisse pensee
Sous Windows : Utilisez MobaXterm
Sous Linux : ssh -CX -l nom_fleur genologin.toulouse.inra.fr
Dans le répertoire /work vous disposez de 2 fichiers : marchantia.fasta et peroxibase.fa
Connection au serveur de calcul SLURM : srun --pty bash
Installation des modules :
(BLAST) module load bioinfo/blast-2.2.26
(BLAT) module load bioinfo/blatSuite.36
Faire
une base de données BLAST avec le fichier peroxibase.fa :
Commande : formatdb -i peroxibase.fa -p T
Faire un BLAST et un BLAT avec les séquences de marchantia contre la peroxibase :
blastall -p blastp -d peroxibase.fa -i marchantia.fasta -b1 -v1 -m 8 -o marchantia_vs_pb.blastp
blat -prot peroxibase.fa
marchantia.fasta
marchantia_vs_pb.psl
Regarder les résultats.
On peut, par exemple, filtrer les résultats de BLAT (avec au moins 80% de couverture sur la Query) :
cat
marchantia_vs_pb.psl
| awk '{if
((/^[0-9]+/)&&($10!=$14)&&($1/$11>0.8)&&($18==1))
print
$10,$14;}'