Bioinformatique des Séquences
EMBIA1CM

TP Recherche de similarités


    Exercice 1 : les séquences D16349 et M81829 comparées lors du TD1

  1. Utilisez le programme BLAST pour comparer les séquences nucléiques avec blastn puis avec tblastx (vous devez cocher la case Align two or more sequences)
    Quelles sont vos conclusions ?
  2. A partir de la séquence D16349, faire un nucleotide blast (blastn), contre la banque nr.
    - pourquoi a-t-on une série de "t" minuscules dans le premier match ?
    - dans quels organismes trouvez-vous des homologues ?
    - trouvez-vous la séquence précédente M81829 ? pourquoi ?
  3. Relancer Blastn en sélectionnant les séquences d'oiseaux (taper "aves" dans Organism) et cocher la case Exclude Models (XM/XP)
    Comparer les résultats en faisant un megablast ou "somewhat similar sequences (blastn)".
    Quels résultats vous paraissent significatifs avec blastn ?
  4. Lancer BlastX contre la banque SwissProt
    - pourquoi n'a-t-on pas d'alignement sur toute la séquence de départ ?
    - à quoi correspondent les + dans l'alignement ?
    - à quoi correspond ce morceau de séquence
    laladalatstl ?
    - quels résultats vous paraissent significatifs ?
    - un alignement avec une E-value de l'ordre de e-50, vous parait-il un "bon" alignement ?



    Exercice 2 : Analyse d'un EST de souris avec BLASTX

La séquence EMBL W99073 est un EST de souris. Comparez cette séquence nucléique à la banque SwissProt

Répondez aux questions suivantes :



    Exercice 3 : Comparaison BLAST et BLAT

Sur le site d'ENSEMBL, comparer la CDS d'une peroxidase TPO humaine au génome humain, avec BLAST et avec BLAT.
Conclusions ?
Comparer maintenant la CDS de TPO du panda contre le génome humain avec les 2 programmes. Conclusions ?
Pour information, la CDS humaine et celle de panda sont composée de 16 exons.


    Exercice 4 : BLAST et BLAT sous Unix

Vous allez vous connecter au serveur de GenoToul genologin.toulouse.inra.fr
en tant que : cosmos cyclamen dahlia digitale geranium gerbera glaieul hortensia iris jacinthe jonquille laurier lavande lilas liseron lotus lys muguet narcisse pensee
Sous Windows : Utilisez MobaXterm
Sous Linux : ssh -CX -l nom_fleur genologin.toulouse.inra.fr

Dans le répertoire /work vous disposez de 2 fichiers : marchantia.fasta et peroxibase.fa
Connection au serveur de calcul SLURM : srun --pty bash
Installation des modules :
(BLAST) module load bioinfo/blast-2.2.26
(BLAT) module load bioinfo/blatSuite.36
Faire une base de données BLAST avec le fichier peroxibase.fa :
Commande : formatdb -i peroxibase.fa -p T

Faire un BLAST et un BLAT avec les séquences de marchantia contre la peroxibase :
blastall -p blastp -d peroxibase.fa -i marchantia.fasta -b1 -v1 -m 8 -o marchantia_vs_pb.blastp
blat
-prot peroxibase.fa marchantia.fasta marchantia_vs_pb.psl
Regarder les résultats.
On peut, par exemple, filtrer les résultats de BLAT (avec au moins 80% de couverture sur la Query) :
cat marchantia_vs_pb.psl | awk '{if ((/^[0-9]+/)&&($10!=$14)&&($1/$11>0.8)&&($18==1)) print $10,$14;}'