Les banques de données en génomique et les systèmes d'interrogation/extraction GQuery


Un petit tour d'horizon :


Exercice n°1 :  GQuery -  rechercher l'entrée qui a pour numéro d'accession Y10810 :

1. Est-ce une séquence d'ADN ou d'ARN ?
2. De quel organisme provient cette séquence ?
3. Est-ce un eucaryote ou un procaryote ?
4. Quelle est la taille de la séquence ?
5. Combien de séquences codantes (CDS) compte cette entrée ?
6. Cela vous semble-t-il normal étant donné la nature moléculaire de la séquence (ADN/ARN) et son origine (eucaryote/procaryote) ?
7. D'aprés les commentaires présents dans l'entrée, est-ce que les annotations vous semblent fiables ?
8. Rechercher cette meme entree à l'EBI (EMBL)
9. Afficher l'entrée au format texte et comparer les deux formats

Exercice n°2 :  GQuery -  que contient la banque .... ? 

1. Quelles sont les banques accessibles par GQuery ?
2. Quelles sont les banques protéiques requêtables ?
3. Que contient la banque RefSeq ?
4. Peut-on effectuer une recherche dans EMBL ?

Exercice n°3 : EBI - utilisation des liens vers d'autres banques pour l'analyse d'une séquence

1. Retrouver l'entrée complète sur la banque UniProtKB de la protéine RET_human 
2. Parcourir la section "Database cross-references"
3. Retrouver la séquence d'un mRNA codant pour cette protéine
4. Liens vers Ensembl (pourquoi plusieurs ?) combien d'exon code pour cette proteine

Exercice n°4 : GQuery - Ensembl
 

1. Chez Bos taurus ("cow") retrouver la localisation chromosomique du gene codant pour la protéine GPR125
2. Combien de chromosomes chez Bos taurus
3. Visualiser la région á l'aide des deux autres Genome Browser (Cf. ci dessus)
4. Ensembl : explorer l'interface ("Configure this page")

Exercice n°5 : Alignement et base de données spécialisées


1. A partir de UniProtKB, récupérer les deux séquences protéiques qui ont pour accession : P13669 et P0ACL6 (P52072:obsolète). Récupérez les séquences au format fasta.
!! Attention problème avec le bl2seq no hit found !!!
2. A partir du serveur multalin, aligner les deux séquences protéiques (utliser les paramétres par défaut). Que pensez-vous de l'alignement global obtenu?
3. A partir du serveur BLAST NCBI, sélectionner le serveur BLAST 2 séquences (bl2seq) et lancer un alignement local entre les deux séquences. Que pensez-vous du résultat obtenu  par rapport au précédent. Qu'avez-vous mis en évidence ?
4. A partir du serveur de PRODOM, obtener la décomposition en domaines des deux séquences. Partagent-elles un domaine ? Qu'elle est sa fonction ?
5. A l'aide des deux "accession number" d'UniProtKB utiliser PROSITE pour rechercher ces deux protéines. Que pouvez-vous dire de ces deux protéines ?

Exercice n°6 : Base de données spécialisée - miRBase et diagramme de venn


1. Rechercher dans miRBase les mir exprimés chez l'homme dans les tissus suivants:

2. Comparaison d'ensemble en utilisant un diagramme de venn (Jvenn) 3. Exporter l'image au format PNG et les données au format CSV.

Exercice n°7 : SRA/ENA - stockage des données de NGS (Next Generation Sequencing)


1. Visiter les sites de stockage des données de NGS :
2. Rechercher l'entrée correspondant à l'expérience SRX002048 dans SRA et ENA, et parcourir les métadonnées : 3. Télécharger les "fastq" des runs SRR007327 et ERR000017. Quelles sont les différences entre les formats "fasta" et "fastq" ?
4. Télécharger fastqc (a quality control tool for high throughput sequence data) et analyser les deux "fastq".