Biologie Virtuelle

icon

19

pages

icon

Français

icon

Documents

Écrit par

Publié par

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

19

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

maîtrise, Supérieur, Maîtrise (bac+4)
  • cours - matière potentielle : du temps
  • cours - matière : biologie
  • exposé
Biologie Virtuelle. Introduction-Présentation. R. Christen 1 Biologie Virtuelle Ce document présente de façon très rapide l'ensemble des outils et des bases de données dont la maîtrise devra être acquise à la fin du cours de Biologie Virtuelle1 1/ Introduction – Présentation De nombreux biologistes pensent que la biologie moderne, et ses technologies de production massive de données (séquençage des génomes, banques EST, puces à ADN, protéomique) a apporté plus de problèmes que de solutions.
  • ab058962 ab058962
  • ab058964 ab058964
  • ab058963
  • ax410737 ax410737
  • bc041770
  • ac009179 ac009179
  • al512506 al512506
  • af061936
  • séquences
  • séquence
  • bases de données
  • base des données
  • base données
  • bases de donnée
  • base de donnée
  • base de données
  • base donnée
Voir icon arrow

Publié par

Langue

Français

¾
¾
¾
¾
Biologie Virtuelle
Ce document présente de façon très rapide l'ensemble des outils et des bases de données dont la maîtrise
devra être acquise à la fin du cours de "Biologie Virtuelle1"
1/ Introduction – Présentation
De nombreux biologistes pensent que la biologie moderne, et ses technologies de production massive de données (séquençage
des génomes, banques EST, puces à ADN, protéomique) a apporté plus de problèmes que de solutions. La croissance
10 7exponentielle de données disponibles sur le réseau procure actuellement plus de 10 nucléotides et 10 séquences (Figure 1).
http://www3.ebi.ac.uk/Services/DBStats/
FIGURE 1 : LA CROISSANCE EXPONENTIELLE DES DONNEES.
D'autres bases de données plus spécialisées existent en de très nombreux endroits et cf. une liste sur le serveur infobiogen :
http://www.infobiogen.fr/services/deambulum/fr/banques.html
Ces bases présentent ces données sous des formes différentes, généralement associées avec des annotations faites par des
experts. Enfin, les données de séquences des génomes entiers existent sur des serveurs mondiaux (plus de 1000 génomes dont
>100 génomes bactériens complets, voir figure ci-dessous pour le génome humain). Les sites EBI et NCBI maintiennent des
listes des génomes complets achevés ou en cours :
http://www.ebi.ac.uk/genomes/eukaryotes.html
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome
Par ailleurs, et avec une croissance moindre, on a pu
assister à l'apparition de bases de données de
structures, soit comme simple motifs ou profils, soit
en terme par exemple de structures 3D des protéines.
La PDB par exemple (Protein Data Bank), contient
actuellement 21772 Structures (Last Update: 15-Jul-
2003).
Enfin, l'arrivée des puces a ADN et des banques
d'EST, permettant de mesurer rapidement et dans son
ensemble l'expression des gènes dans un tissu donné
ou dans une condition expérimentale particulière, est
actuellement en passe de devenir un très gros
producteur de données.
Biologie Virtuelle. Introduction-Présentation. R. Christen 1¾
¾
¾
¾
L'utilisation de ces bases de données est compliquée par l'utilisation de format différents. Ces différences de format résultent soit
des annotations qui sont associées avec une donnée, soit du format lui même de la base de données.
En conclusion, l'utilisation efficace de ces données disponibles demanderait que des outils de traitement de l'information
permettent d'intégrer la totalité de ces informations, or ce n'est pas le cas actuellement, et nous verrons qu'une telle possibilité
semble hors de réalisation dans un futur proche. La seule approche actuellement possible est une (relative) bonne connaissance
des informations contenues dans ces bases de données ainsi qu'une bonne connaissance des outils majeurs disponibles pour la
co-exploitation de ces différentes bases. Un minimum de connaissance d'un langage de programmation permet ensuite
d'exploiter pleinement toutes ces informations.
Parmi les scientifiques travaillant dans ce domaine, on peut distinguer schématiquement trois profils :
Ceux qui développent des outils (des interfaces) permettant l'utilisation des données par le biologiste standard.
Ceux qui développent des concepts et des algorithmes nouveaux permettant l'analyse des données.
Enfin, les biologistes, qui utilisent les données pour interpréter ou plannifier leurs expériences.
L'ensemble de ces compétences est souvent regroupé sous le vocable bioinformatique.
Dans cet exposé, nous allons tenter de suivre pas à pas la démarche d'un biologiste qui tente d'extraire le maximum
d'informations pour interpréter un résultat expérimental ou plannifier des expériences.
I. L'OBJECT DES EXPERIENCES VIRTUELLES.
J'utilise souvent l'appellation de "Biologie Virtuelle" pour décrire l'approche qui va être présentée dans ce document. En effet, il
s'agit bien d'expériences, mais elles sont toutes faites à l'aide d'ordinateurs. L'objectif de notre présent travail va être de tenter de
trouver un minimum d'informations fiables pour qualifier un cDNA humain qui a été récemment cloné dans notre laboratoire.
L'hypothèse est que ce cDNA, cloné dans un tissu cancéreux, pourrait être la cible d'une pharmacologie appropriée, et la mise au
point éventuelle d'un nouveau médicament.
L'objectif de ce tutoriel n'est pas de présenter le domaine de la bioinformatique, mais celui de la biologie virtuelle ; Aucun
algorithme qui sous-tend les logiciels utilisés ne sera donc détaillé. Je présenterai simplement les outils les plus utilisés, les sites
www sur lesquels ils sont accessibles et dans les grandes lignes à quoi peut servir chaque outil. Enfin, il faut noter que chacun de
ces outils est susceptible d'artefacts TRES importants. Seule leur étude spécifique (entreprise dans la suite du cours de Biologie
Virtuelle) permet de ne pas connaître de tels problèmes, et on peut apprendre à se servir de blast ou clustall (pour ne citer qu'eux)
de manière correcte sans savoir programmer, tout comme on peut apprendre à conduire sans connaître la mécanique…
II. TRADUCTION D'UNE SEQUENCE DE CDNA EN PROTEINE
La séquence clonée au laboratoire est la suivante. Comme elle a été obtenue avec une amorce oligo-dT, nous sommes persuadés
qu'il s'agit d'un ARNm codant pour une protéine. Nous voulons donc le vérifier, et extraire la région codante (ORF : Open
Reading Frame). >cDNA local
gggaccatcctggctaacacgcggtaaaacatcatctctactaaaaatacaaaaaaatta Note : Rappel sur les 5' et 3'UTR.
gccaggcgtggtagcaggcacctgttgtcccagctactcgggaggctgaggcaggagaat
ggcgtgaacccaggaggcggagctggcagtgagctgagatcacaccactgcaatccagcc
tgggcgacaaagcaagactctgtctcaaaaaaaaaaaatcaattcaggccaagtgtggtg
gtgcacacctgtagtcccagctactgggaaagctgaagaagtgggaggatagcttgggcc
caggagatggatgctgcgggaaggggctgccatttgctgcccctgccagcggcgcgcgga
cttatgaagctaatagaaagctataaaaatggaggcagtctgctaattcagggaccagac cctgcccgcgctcctgcagccgccgccgccgccgccgccagcccgcccggcccctgcagc
cactgttcactccttcactacgcagctaaaaccggcaacggggagattgtgaaatatatc ggcgccgcctgcgctccctccgcggccgccggagcgggcgccatgaaccccagctcctcg
gcgggagaggagaaaggggcgacgggcggcagcagcagcagcggaagcggcgccgggagccttgaccacggaccttccgagttattggatatggcagacagtgaaacgggtgagactgca
tgctgcctgggcgccgagggcggcgcggacccgcggggcgcagggtcagccgcggcggcgctgcacaaggctgcctgccagcggaaccgggctgtgtgccagcttctggtggatgcagga
gcatctctgagaaagacggactccaagggtaagacacctcaagaaagagcacagcaggct ggggccgctgccctggacgagcccgcggccgccggccagaaggagaaggacgaagcgctg
ggggacccagacttggctgcttacctagaaagccgtcagaactataaggtcattggccat gaggagaagctgaggaacttaactttccggaagcaggtctcgtacaggaaagcaatctcc
gaggacctggaaactgctgtttgaccctggtattcgggcaaagaggacatgagcaagcgt cgggcaggcctccagcatctggctcctgcacatcccctcagccttcctgtggcaaatggt
ccagccaaggagcccagagcgactttggactggagtgagaatgccgtgaatggagaacacatcacatctgccctccctgcaattgggcagctcccctggaagaagctgatggaattcata
ctgtggctggagaccaacgtctcgggagacctctgctaccttggagaggagaactgccaatatctgtctctctcctgcaagaatctacctgagaccatgccactagcttttaagggctac
caagatgtacaacagaacatgatagcccattgagaaggaggcaggatacctggagatttg gtcagatttgcaaaatcagctctcaggaggaagtgtgcagtctgtaaaatcgtcgtccac
tggaatacagtacgagttccacaaaatttgatccttattgcttccagcaagtagcatgaa accgcctgcattgagcagctagaaaagattaatttcagatgtaaaccaacatttcgagaa
cttctgtgttcacctgtataatttattttaaagattcaaaggatgttcgtataaatggca ggaggctcaaggtcaccaagagaaaattttgtacgtcatcactgggtgcacaggcgtcgg
caggaggggaaatgtaagcagtgtggtaagggcttccagcaaaagttctccttccacagtctgctccatcctccccctatgcattggtttttttccctgtaccatacaattctactgtaa
aaagagattgtggctatcagctgttcctggtgcaagcaggcgtttcacaataaggtgaccctacccatcaacttaaagaaaaatattatctcttctctttacattcagtcttggaagacc
acaagattgtctgaaggccttctaaaaccttctgaatgtcctgcagaaatataactgtaa tgcttcatgctgcatcacattgaagaaccctgctccctgggggctcatgctgctgttatt
aaccacttccatttctaagactaaatatatcaagactatttagtgactctctctgcatgt gtcccgcccacttggatcattaaggtgaagaaacctcagaactccctgaaggcttcaaat
ccccctcacccgccaaccctccgtttcattatataggagctgggaagtgccacatggata cggaagaagaagagaacaagctttaaaagaaaagccagtaaaagagggatggaacaggaa
aacaaaggtcgtccttttgtgataaaacccatctcttctcctctcatgaaacccttgcttatgtcaacttgtgtgctatatctctgaggaatggtgaggtggcatgggagatgtctgtgc
gtatttgtgaatcccaagagtggaggcaaccagggaaccaaagtcctgcagatgttcatgttggaggtacctcagagaggtaacccaggggtcagcccaggctgctgggctgtagccaat
agccatgcaggactggttcagcttgggctgtctgtacagctccgtactgcctatgtgtag tggtacctgaatccacggcaagtctttgatctttctcaggaagggccaaaagatgcgctt
ccatctttgccttttgctgcaatagaagatgagcaaaggattaaacagaggcccacagct gaattgtataggaaagtaccaaatctgcgaattctggcctgtggtggggatggaacggtg
agtttgcagaaccactcaattttaagtgctgtttaaattgcagagcaaataatcctgtgt ggctggatcctttccatcctggatgaactgcagctgagccctcagcctcctgtgggggtc
cttcctctggggactgggaatgacctggctcgaactctcaactggggagggggctacactgggaactgtggttacaggaaatggagcactctaacaatgtttacttctaaactttgttga
gatgaacctgtttctaagatcctgtgtcaagtggaagatgggacagttgtacagctagatatgataatagaaagcaccct

Voir icon more
Alternate Text