TP3

TP Alignements multiples et motifs

NCBI ExPASy EMBOSS EBI MaxPlanck Pasteur

Alignements multiples et domaines protéiques

Voici 3 protéines : celle de Escherichia coli possède 2 fonctions enzymatiques (EC 4.1.1.48 et EC 5.3.1.24) et 2 protéines de Xylella fastidiosa ayant chacune une de ces 2 fonctions :

>trpC, EC:4.1.1.48 et EC:5.3.1.2, E. coli
MMQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECKKASP
SKGVIRDDFDPARIAAIYKHYASAISVLTDEKYFQGSFNFLPIVSQIAPQPILCKDFIID
PYQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVSNEEEQERAIALGAK
VVGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTYAQVRELSHFANGFLIGSAL
MAHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAGAIYGGLIFVATSPRCVNVEQAQEV
MAAAPLQYVGVFRNHDIADVVDKAKVLSLAAVQLHGNEEQLYIDTLREALPAHVAIWKAL
SVGETLPAREFQHVDKYVLDNGQGGSGQRFDWSLLNGQSLGNVLLAGGLGADNCVEAAQT
GCAGLDFNSAVESQPGIKDARLLASVFQTLRAY

>EC:5.3.1.24, Xfa
MALAYGSECMNISPYRTRIKFCGMTRVGDVRLASELGVDAVGLIFASGSSRLLTVSAACA
IRRTVAPMVNVVALFQNNSADEIHTVVRTVRPTLLQFHGEEEDAFCRTFNVPYLKAIPMA
GAEAKRICTRTLYLKYPNAAGFIFDSHLKGGTGQTFDWSRLPIDLQHPFLLAGGITPENV
FDAIAATVPWGVDVSSGIELQPGIKDGDKMRQFVEEVRRADGRRLFGVA

>EC:4.1.1.48, Xfa
MSNILTKIIAWKVEEIAERLLHVSQAELVARCADLPTPRGFAGALQATIAHGDPAVIAEI
KKASPSKGVLREDFRPAEIAISYELGGASCLSVLTDVHFFKGHDDYLSQARDACTLPVLR
KDFTIDPYQVYEARVLGADCILLIVAALDDAQLVDLSGLALQLGMDVLVEVHDIDELERA
IQISAPLIGINNRNLSTFNVSLETTLTMKGLVPRDRLLVSESGILTSADVQRLRAAGVNA
FLVGEAFMRATEPGESLREMFFIT

Aligner ces 3 séquences avec ces 3 programmes d'alignement multiple : ClustalW, Dialign, Multalin

Lequel retourne l'alignement attendu ?
Tester Dialign avec T=4 (seuil sur les segments initiaux)

Alignement de tRNA synthétase de E. coli

Aligner ces séquences, avec différents programmes d'alignement (Clustalo, Muscle, Mafft, T-Coffee...) disponibles à l'EBI et comparez-les.
Ces séquences présentent 2 motifs propres aux tRNA synthétases de type I : HIGH et KMSKS. Les trouvez-vous ?

Etude de la famille des THAP

Première partie : alignement multiple

1. Chercher sur le NCBI les séquences protéiques "THAP", chez l'homme, la souris (mus musculus seulement), le poulet et le zebrafish.
Filtrer pour ne garder que celle de RefSeq.
Pour supprimer tous les modèles (accession XP_) : enlevez les séquences avec Best-placed RefSeq (voir dans les Comment)
Récupérez les séquences au format FASTA
(attention, il faut changer le Display pour afficher toutes les séquences)

Il faudra peut-être supprimer les séquences redondantes : skipredondant dans EMBOSS permet de faire ça

2. Faites un alignement multiple (tester plusieurs programmes)
Regardez l'alignement.

Que pensez-vous de cet alignement ?

Supprimez des séquences si nécessaire
Quels sont les résidus caractéristiques de la famille ?
Vous pouvez regarder ici un Logo de ce domaine.
Le motif 'AVPTIF' marque la fin du domaine : le trouvez-vous sur toutes les séquences ?

3. Regarder votre alignement avec WebLOGO.

Deuxième partie : caractérisation d'un domaine/motif

1. Le pattern suivant décrit-il l'ensemble des séquences ?

M-x(3,4)-C-x(4)-C-x(9,15)-F-x(2)-[FL]-P-x(8,9)-W-x(10,17)-P

2. Essayer d'écrire un pattern jusqu'à AVPTIF à partir de l'alignement multiple précédent.

- Tous les éléments de l'expression sont séparés par des tirets.

- Le joker est la lettre x, à utiliser lorsque le nombre d'AA rencontrés dans une colonne dépasse 4.

- On peut préciser le nombre d'occurrences avec des parentheses x(5) : 5 x ou D(2,4) : 2 à 4 D.

- Le choix entre plusieurs acides aminés possibles se note avec des crochets [APC].

- L'exclusion d'un ou plusieurs acides aminés en une position se note entre accolades {DEV}.

3. Tester votre pattern contre les séquences THAP avec ScanProsite sur ExPASy..
S'il donne des résultat, rechercher dans SwissProt l'ensemble des séquences qui possède votre pattern.

Combien de séquences obtenez-vous ?

3. Regarder la fiche de la première séquence obtenue : les liens dans la rubrique Family and domains :

- Regarder View Protein in InterPro
- Regarder le lien Pfam PF05485 : afficher l'alignement (combien de séquences ?), le Logo
- Regarder l'entrée dans Prosite PS50950 : de quel type d'entrée s'agit-il ?

- Afficher l'alignement multiple.
- Afficher le format Logo.

Y-a-il des différences dans la façon de définir le domaine (ou motif) THAP ? (longueur, résidus conservés...)

4. Lancer ScanProsite avec ce profile.
Combien de séquences obtenez-vous ? Pourquoi en a-t-on plus qu'avec le pattern ?
Le domaine THAP est-il toujours en position N-terminale ?

Autre exemple de détermination et recherche de motif

Vous allez vous intéresser à une famille de protéines, dont les séquences sont contenues dans le fichier prot.fas.
Ces protéines ont la particularité de présenter le même type d'activité catalytique.

Faites un alignement multiple des séquences avec le logiciel multalin. Vous devez voir apparaitre un motif approché commun, avec des positions parfaitement conservées.
Essayez manuellement de construire une signature pouvant décrire le motif conservé dans les séquences.
Utilisez le logiciel PRATT sur ExPASy ou à l'EBI pour extraire automatiquement le motif(s) conservé(s) des séquences précédentes.
Essayez de "fusionner" 2 motifs pour en faire un plus long, à la main ou en changeant les paramètres
Utilisez ScanProsite pour rechercher dans Swissprot les séquences contenant votre motif, et essayez de voir si elles ont d'autres points communs.

Un cas d'école pour comparer les différents programmes d'alignements

Tester les différents programmes d'alignements avec ces séquences
Vous utiliserez les programmes en lignes sur le serveur genologin (genologin.toulouse.inra.fr), en tant que : cosmos cyclamen dahlia digitale geranium gerbera glaieul hortensia iris jacinthe jonquille laurier lavande lilas liseron lotus lys muguet narcisse pensee
Sous Windows : Utilisez MobaXterm
Sous Linux : ssh -CX -l nom_fleur genologin.toulouse.inra.fr

Aller dans le répertoire /work
Connection au serveur de calcul SLURM : srun --pty bash
Installation des modules :
module load bioinfo/mafft-7.313
module load bioinfo/clustalo-1.2.4
module load bioinfo/T-COFFEE_11.00.8cbe486
module load bioinfo/muscle3.8.31
mafft, clustalo, t_coffee, muscle...
search_module "nom_programme" pour connaitre le chemin d'accès (et faire module load)
en général nom_programme -help pour avoir les explications

Vous regarderez les alignements avec Seaview.

Voici l'alignement correct souhaité.

Recherche d'un motif inconnu sur des séquences non alignées

Voici une partie des séquences promotrices de 10 gènes corégulés.

1. Faire un alignement multiple de ces 10 séquences d'ADN avec Multalign

Quelles sont vos conclusions ?

>seq1
AACCCCTTACCGCTTCCAACCTTTACACCCTTATCTTCTGCCTATACTGCATGTCACTCTATTGCAGACTATCTGAGATAGC
TACAACCTAACGACTTAAGGTGAGGACACGTGTATCTCCAAAACCCACTTCGTCACCCTTACCACCACGTCATCATACCACG
TGCCAACATGCATGCTAGTATCTTCTCTACTATACACATACTTATGTACTATATATATTCACCAAAATTACATGCATGTTAG
CACCCTCAATTGTACAACACAACTTAACAACTTAAGTTAAAAGAGTGAACAAAA
>seq2
AACCCCTTACCGCTTCCAACCTTTACACCCTTATCTTCTGCCTATACTGCATGTCACTCTATTGCAGACTATCTGAGATAGC
TACAACCTAACGACTTAAGGTGAGGACACGTGTATCTCCAAAACCCACTTCGTCACCCTTACCACCACGTCATCATACCACG
TGCCAACATGCATGCTAGTATCTTCTCTACTATACACATACTTATGTACTATATATATTCACCAAAATTACATGCATGTTAG
CACCCTCAATTGTACAACACAACTTAACAACTTAAGTTAAAAGAGTGAACAAAA
>seq3
CATTCGTTAATAGTAAAATACTTAAAGCAGGTGTTGTAAGTCGTGCTGATATTTACGACCAAACTCGTGCGACGTCAAGTCA
TAGACGAATACACTAGCCAGCCAGCCATAGAATATTACAAGTGTTTTTGTGAAGCACGTGAAGTAATGTTCATCTACCTACC
CTCTAATATCCACTCTTCCTTTCATATAAAATCTTCCCTCTGCAACCATCTTTCCACCACAACACTCTTCCAACCCTTTCTT
TTTCCATAACAAGTACTCAAAACCAATTGAATTCTGCTACCAAATATATCAATA
>seq4
CATTATTCTATACAGCTTTTTCATGTAATTATTTTGAATTTTGATCATTTTCGAGAATATTTCAAAATTTGTATCGCAAATA
TATTATAATATAGAAATATATTACAATATACAAAAATATATAAAATAAACTTTTATGCGACTAAAATATATAAAAATATTCA
TATTATACTATAATCACACTTTACGTAACTACAAAATTTGGTAATATAGGTTAGTTTCGAGAGTTAAGCCATTGTTGTTACT
TACTTAAATTGCAACTCAAAAAAATATACGTGAAGGAGAAAAAGACAAAATTAC
>seq5
AAAAGAAAAAAAGAAAAAAAAGAAAACGTGTAATGTTTGATCTGAAATTGGAAAGTACACTAGGCATGCAACAACGCAGTAA
TAATACACTACCAAACTAAATATAACAGGCTGATGTGCCAACCGGACAGATGGCTATTTGAAAGGGGGTTGGTCACGTGCTG
CTTCTAGCTACCATACTTATTTATTTATCGCTTATAAATACATTTCCGTAACTTACAAACATTTAACACAACCAAGCTTTCT
AGTTTCTACTACAAAATAATATTTGTTTGTGTTCTAAATATTTCTGGCTAGAGA
>seq6
TCGCATTAACCAAATGATTTCCCCCATAAATAAAACAAAATACTGGTCAAAATTTGTTTGCACAATAATTATTAGAAAAATG
ATCTTCAAAGTCATGCGGGTATATATTTTCCACGAAACATCTTTAAGGTTGTTGAATATATTAATTCTTATAATGTTTAGGT
TTTAGTAAACCACGTGATGTTCAGCTACCTTCCAATATCCTTACTATAAAACCATCTCATCCTCACTCATCTTTCCACCACA
ACACTCTTCATCTTATTCCTTTTCTACAACAGCTTCTGCACATCAAGATCAACA
>seq7
AAAATAGTGGTCAAATTTGGTTATAAAATAATTGTTAAGACAAAGGATTAGACTAAAGAGGGTATTCAAAGTCATGCGTATT
TGCCATCAAACACATTCAGGTCATTGAGTCTAATTGGTTATTAAGTTGAATATATAATTAGTATGATGTTTTATTGAAAGGT
TTTAGTAAACCACGTTATGTTCAGCTACCTTCCAATATTCTTCCTATAAAACCATCTCACCCTCACTCATCTTTCCAAAACA
ACACTCTTCATCTTATTCCTTTTCTACAACTACTTCTGCACATCAAGATCAACA
>seq8
ATCTTCTTTATTACACTTGTTTCTTTTCTCAAATTTCGACGCGTGTTGATGTAATATTGGTATAAACAAGAAACTACAAAAC
GCAGCTGCCATAATGTCACAATTTTTCTCAAATCTTGTGGCTCTCAAACACTGTATAAAACACGACAAATGTGGACCCAAAA
TATATACCTTACACTTCTGAGTTAGAGAAGCAGAGCCCCATAATTAAGCCTATTTTATGAAAAAAATAATATTATGTTGAGT
CATATATCCATAAGAATCCCCACAGTCACACATGGAAGAGCAGCATTGGATACA
>seq9
AGACTCAACTTATATATAAATAAACTCAAAAAGAAAACACGGAGGCGAGAGGATCATACTCTCACACAGAAAGAGTCACATT
ATTATATCCTCTAAAAAACCAAACTAAAACGACACGTGAAGTCTTGATCAGCCGATAAATAGCTACCGACATAAGGCAAAAC
TGATCGTACCATCAAATGTAATCCACGTGGTTTTAGATTACTCGTGGCACCACACTCCCTTTAGCCTATAAATATAAACCAT
TAAGCCCACATCTCTTCTCATCATCACTAACCAAAACACACTTCAAAAACGATT
>seq10
AATAAATAAAGTCGAAAAGAAAACACGGAGGCGAGAGGACCACACACTCGCACAGAAAGAGTCTCATATCCTCTATAACAAA
TTGATAAACTAAACTAAAACGACACGTGATGTCTTGATCAGCCAATAAAAAGCTACCGACATAAGCCAAAAATGATCGTACC
ATTAAACGTAATCCACGTGGTTTCAGATTACACGTGGCACCACACAAGTATCTCCATTTGGCCTATAAATATAAACCCTTAA
GCCCACATATCTTCTCAATCCATCACAAACAAAACACACATCAAAAACGATTTT

2. Utiliser le programme MEME
(ou regardez les résultats)

les séquences THAP