NCBI
ExPASy EMBOSS
EBI MaxPlanck Pasteur
Alignements multiples
et domaines protéiques
Voici 3 protéines : celle de Escherichia coli possède 2 fonctions enzymatiques (EC 4.1.1.48 et EC 5.3.1.24) et 2 protéines de Xylella fastidiosa ayant chacune une de ces 2 fonctions :
>trpC, EC:4.1.1.48 et EC:5.3.1.2, E. coli
MMQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECKKASP
SKGVIRDDFDPARIAAIYKHYASAISVLTDEKYFQGSFNFLPIVSQIAPQPILCKDFIID
PYQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVSNEEEQERAIALGAK
VVGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTYAQVRELSHFANGFLIGSAL
MAHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAGAIYGGLIFVATSPRCVNVEQAQEV
MAAAPLQYVGVFRNHDIADVVDKAKVLSLAAVQLHGNEEQLYIDTLREALPAHVAIWKAL
SVGETLPAREFQHVDKYVLDNGQGGSGQRFDWSLLNGQSLGNVLLAGGLGADNCVEAAQT
GCAGLDFNSAVESQPGIKDARLLASVFQTLRAY
>EC:5.3.1.24, Xfa
MALAYGSECMNISPYRTRIKFCGMTRVGDVRLASELGVDAVGLIFASGSSRLLTVSAACA
IRRTVAPMVNVVALFQNNSADEIHTVVRTVRPTLLQFHGEEEDAFCRTFNVPYLKAIPMA
GAEAKRICTRTLYLKYPNAAGFIFDSHLKGGTGQTFDWSRLPIDLQHPFLLAGGITPENV
FDAIAATVPWGVDVSSGIELQPGIKDGDKMRQFVEEVRRADGRRLFGVA
>EC:4.1.1.48, Xfa
MSNILTKIIAWKVEEIAERLLHVSQAELVARCADLPTPRGFAGALQATIAHGDPAVIAEI
KKASPSKGVLREDFRPAEIAISYELGGASCLSVLTDVHFFKGHDDYLSQARDACTLPVLR
KDFTIDPYQVYEARVLGADCILLIVAALDDAQLVDLSGLALQLGMDVLVEVHDIDELERA
IQISAPLIGINNRNLSTFNVSLETTLTMKGLVPRDRLLVSESGILTSADVQRLRAAGVNA
FLVGEAFMRATEPGESLREMFFIT
Aligner
ces 3 séquences avec ces 3 programmes d'alignement multiple : ClustalW, Dialign, Multalin
Alignement de tRNA synthétase de E. coli
Etude de la famille des THAP
Première
partie : alignement multiple
1. Chercher sur le NCBI
les séquences protéiques "THAP", chez l'homme, la souris (mus musculus seulement), le poulet et le zebrafish.
Filtrer pour ne garder que celle de RefSeq.
Pour supprimer tous les modèles (accession XP_) : enlevez les séquences avec Best-placed RefSeq (voir dans les Comment)
Récupérez les séquences au format FASTA
(attention, il faut changer le Display pour afficher toutes les séquences)
2. Faites un alignement multiple (tester plusieurs programmes)
Regardez l'alignement.
Que pensez-vous de cet alignement ?
Supprimez des séquences si nécessaire
Quels sont les résidus caractéristiques de la famille ?
Vous pouvez regarder ici un Logo de ce domaine.
Le motif 'AVPTIF' marque la fin du domaine : le trouvez-vous sur toutes les séquences ?
3. Regarder votre alignement avec WebLOGO.
Deuxième partie : caractérisation d'un domaine/motif
M-x(3,4)-C-x(4)-C-x(9,15)-F-x(2)-[FL]-P-x(8,9)-W-x(10,17)-P
- Tous les éléments de l'expression sont séparés par des tirets. |
- Le joker est la lettre x, à utiliser lorsque le nombre d'AA rencontrés dans une colonne dépasse 4. |
- On peut préciser le nombre d'occurrences avec des parentheses x(5) : 5 x ou D(2,4) : 2 à 4 D. |
- Le choix entre plusieurs acides aminés possibles se note avec des crochets [APC]. |
- L'exclusion d'un ou plusieurs acides aminés en une position se note entre accolades {DEV}. |
3. Tester votre pattern contre
les séquences THAP avec ScanProsite
sur ExPASy..
S'il
donne des résultat, rechercher dans SwissProt l'ensemble des
séquences qui possède votre pattern.
Combien de séquences obtenez-vous ?
- Regarder View Protein in InterPro
- Regarder le lien Pfam PF05485 : afficher l'alignement (combien de séquences ?), le Logo
- Regarder l'entrée dans Prosite PS50950 : de quel type
d'entrée s'agit-il ?
4. Lancer ScanProsite
avec ce profile.
Combien de séquences
obtenez-vous ? Pourquoi en a-t-on plus qu'avec le pattern
?
Le domaine THAP est-il toujours en position N-terminale ?
Autre exemple de détermination et recherche de motif
Un cas d'école pour comparer les différents programmes d'alignements
Tester les différents programmes d'alignements avec ces séquences
Vous utiliserez les programmes en lignes sur le serveur genologin (genologin.toulouse.inra.fr),
en tant que : cosmos cyclamen dahlia digitale geranium gerbera glaieul hortensia iris jacinthe jonquille laurier lavande lilas liseron lotus lys muguet narcisse pensee
Sous Windows : Utilisez MobaXterm
Sous Linux : ssh -CX -l nom_fleur genologin.toulouse.inra.fr
Aller dans le répertoire /work
Connection au serveur de calcul SLURM : srun --pty bash
Installation des modules :
module load bioinfo/mafft-7.313
module load bioinfo/clustalo-1.2.4
module load bioinfo/T-COFFEE_11.00.8cbe486
module load bioinfo/muscle3.8.31
mafft, clustalo, t_coffee, muscle...
search_module "nom_programme" pour connaitre le chemin d'accès (et faire module load)
en général nom_programme -help pour avoir les explications
Vous regarderez les alignements avec
Voici l'alignement correct souhaité.
Recherche d'un motif inconnu sur des séquences non alignées
Voici une partie
des séquences promotrices de 10 gènes
corégulés.
1. Faire un
alignement multiple de ces 10 séquences d'ADN avec Multalign
Quelles sont vos conclusions ?
>seq1
AACCCCTTACCGCTTCCAACCTTTACACCCTTATCTTCTGCCTATACTGCATGTCACTCTATTGCAGACTATCTGAGATAGC
TACAACCTAACGACTTAAGGTGAGGACACGTGTATCTCCAAAACCCACTTCGTCACCCTTACCACCACGTCATCATACCACG
TGCCAACATGCATGCTAGTATCTTCTCTACTATACACATACTTATGTACTATATATATTCACCAAAATTACATGCATGTTAG
CACCCTCAATTGTACAACACAACTTAACAACTTAAGTTAAAAGAGTGAACAAAA
>seq2
AACCCCTTACCGCTTCCAACCTTTACACCCTTATCTTCTGCCTATACTGCATGTCACTCTATTGCAGACTATCTGAGATAGC
TACAACCTAACGACTTAAGGTGAGGACACGTGTATCTCCAAAACCCACTTCGTCACCCTTACCACCACGTCATCATACCACG
TGCCAACATGCATGCTAGTATCTTCTCTACTATACACATACTTATGTACTATATATATTCACCAAAATTACATGCATGTTAG
CACCCTCAATTGTACAACACAACTTAACAACTTAAGTTAAAAGAGTGAACAAAA
>seq3
CATTCGTTAATAGTAAAATACTTAAAGCAGGTGTTGTAAGTCGTGCTGATATTTACGACCAAACTCGTGCGACGTCAAGTCA
TAGACGAATACACTAGCCAGCCAGCCATAGAATATTACAAGTGTTTTTGTGAAGCACGTGAAGTAATGTTCATCTACCTACC
CTCTAATATCCACTCTTCCTTTCATATAAAATCTTCCCTCTGCAACCATCTTTCCACCACAACACTCTTCCAACCCTTTCTT
TTTCCATAACAAGTACTCAAAACCAATTGAATTCTGCTACCAAATATATCAATA
>seq4
CATTATTCTATACAGCTTTTTCATGTAATTATTTTGAATTTTGATCATTTTCGAGAATATTTCAAAATTTGTATCGCAAATA
TATTATAATATAGAAATATATTACAATATACAAAAATATATAAAATAAACTTTTATGCGACTAAAATATATAAAAATATTCA
TATTATACTATAATCACACTTTACGTAACTACAAAATTTGGTAATATAGGTTAGTTTCGAGAGTTAAGCCATTGTTGTTACT
TACTTAAATTGCAACTCAAAAAAATATACGTGAAGGAGAAAAAGACAAAATTAC
>seq5
AAAAGAAAAAAAGAAAAAAAAGAAAACGTGTAATGTTTGATCTGAAATTGGAAAGTACACTAGGCATGCAACAACGCAGTAA
TAATACACTACCAAACTAAATATAACAGGCTGATGTGCCAACCGGACAGATGGCTATTTGAAAGGGGGTTGGTCACGTGCTG
CTTCTAGCTACCATACTTATTTATTTATCGCTTATAAATACATTTCCGTAACTTACAAACATTTAACACAACCAAGCTTTCT
AGTTTCTACTACAAAATAATATTTGTTTGTGTTCTAAATATTTCTGGCTAGAGA
>seq6
TCGCATTAACCAAATGATTTCCCCCATAAATAAAACAAAATACTGGTCAAAATTTGTTTGCACAATAATTATTAGAAAAATG
ATCTTCAAAGTCATGCGGGTATATATTTTCCACGAAACATCTTTAAGGTTGTTGAATATATTAATTCTTATAATGTTTAGGT
TTTAGTAAACCACGTGATGTTCAGCTACCTTCCAATATCCTTACTATAAAACCATCTCATCCTCACTCATCTTTCCACCACA
ACACTCTTCATCTTATTCCTTTTCTACAACAGCTTCTGCACATCAAGATCAACA
>seq7
AAAATAGTGGTCAAATTTGGTTATAAAATAATTGTTAAGACAAAGGATTAGACTAAAGAGGGTATTCAAAGTCATGCGTATT
TGCCATCAAACACATTCAGGTCATTGAGTCTAATTGGTTATTAAGTTGAATATATAATTAGTATGATGTTTTATTGAAAGGT
TTTAGTAAACCACGTTATGTTCAGCTACCTTCCAATATTCTTCCTATAAAACCATCTCACCCTCACTCATCTTTCCAAAACA
ACACTCTTCATCTTATTCCTTTTCTACAACTACTTCTGCACATCAAGATCAACA
>seq8
ATCTTCTTTATTACACTTGTTTCTTTTCTCAAATTTCGACGCGTGTTGATGTAATATTGGTATAAACAAGAAACTACAAAAC
GCAGCTGCCATAATGTCACAATTTTTCTCAAATCTTGTGGCTCTCAAACACTGTATAAAACACGACAAATGTGGACCCAAAA
TATATACCTTACACTTCTGAGTTAGAGAAGCAGAGCCCCATAATTAAGCCTATTTTATGAAAAAAATAATATTATGTTGAGT
CATATATCCATAAGAATCCCCACAGTCACACATGGAAGAGCAGCATTGGATACA
>seq9
AGACTCAACTTATATATAAATAAACTCAAAAAGAAAACACGGAGGCGAGAGGATCATACTCTCACACAGAAAGAGTCACATT
ATTATATCCTCTAAAAAACCAAACTAAAACGACACGTGAAGTCTTGATCAGCCGATAAATAGCTACCGACATAAGGCAAAAC
TGATCGTACCATCAAATGTAATCCACGTGGTTTTAGATTACTCGTGGCACCACACTCCCTTTAGCCTATAAATATAAACCAT
TAAGCCCACATCTCTTCTCATCATCACTAACCAAAACACACTTCAAAAACGATT
>seq10
AATAAATAAAGTCGAAAAGAAAACACGGAGGCGAGAGGACCACACACTCGCACAGAAAGAGTCTCATATCCTCTATAACAAA
TTGATAAACTAAACTAAAACGACACGTGATGTCTTGATCAGCCAATAAAAAGCTACCGACATAAGCCAAAAATGATCGTACC
ATTAAACGTAATCCACGTGGTTTCAGATTACACGTGGCACCACACAAGTATCTCCATTTGGCCTATAAATATAAACCCTTAA
GCCCACATATCTTCTCAATCCATCACAAACAAAACACACATCAAAAACGATTTT