16
pages
Français
Documents
Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres
16
pages
Français
Documents
Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres
Annotation expérimentale de protéines
Il est difficile de trouver expérimentalement la fonction
d’une protéine sans connaissance préalable
Besoin de nombreuses expériences dans diverses conditions
expérimentales
Annotation de protéines Long et coûteux
Besoin d’inactiver tous les gènes, voire des combinaisons de
gènes (knockout, gene silencing [voir wikipedia])
Pas garantie de résultats
Recherche d’informations sur une séquence Il faut trouver la condition dans laquelle le gène s’exprime
protéique inconnue Il faut réussir à observer le phénotype lié au gène ou à son
inactivation
Il existe souvent des voies alternatives pour compenser
l’inactivation d’un gène
Besoin de points de départs pour orienter les recherches
Equipe Bonsai (2011)
2
Que peut-on prédire de façon automatique ? Limite des connaissances
La fonction de la protéine (pas finement) En général, > 30% des gènes d’un génome sont de fonction inconnue
C’est un transporteur de sucre, mais du quel ? Exemple d’une bactérie, Bacillus subtilis
16% des gènes similaires à d’autres gènes de fonction inconnue Certains domaines fonctionnels
26% des gènes sans similarité Cette partie de la protéine se lie à l’ATP (molécule énergétique)
Exemple de la levure
Les modifications post-traductionnelles
6400 gènes dont 2.500 (39%) de fonction complètement inconnue.
C’est une protéine O-glycosylée sur tel acide aminé
Il s'agit de l'un des organismes les plus étudiés du point de vue
Les structures 2D et 3D des protéines expérimental (génétique et biologie moléculaire).
La localisation cellulaire de la protéine Son génome complet est disponible depuis 1996.
C’est une protéine membranaire Pour le génome humain, 60% des gènes sont complètement
inconnus.
Beaucoup de fonctions cellulaires sont encore à découvrir !
3 4
Prédiction de la fonction
Comparaison de séquence
Pb : si la région trouvée ne couvre pas toute la protéine, est-ce qu’il
s’agit de la région importante pour la fonction ?
Prédiction de domaines/motifs protéiques
PRÉDICTION DE LA FONCTION DES PROTÉINES Pb : comment définir puis représenter ces domaines/motifs ?
Pb : comment les identifier sur une protéine inconnue ?
Motifs protéiques
Résidus essentiels à une fonction conservée (site actif)
Résidus pas nécessairement consécutifs sur la séquence primaire,
mais proches dans la structure 3D Partie inspirée du cours de JS Varré
Domaines protéiques
Fragments de séquence contigus conservés dans une ou plusieurs
familles
Se replient indépendamment
5 6 Détection de régions conservées Un exemple : l’hormone pancréatique (PP)
Hormone peptidique produite Processus pour définir un domaine/motif protéique
par le prancréas
Choix d’ une famille de protéines
Régule les fonctions
Recherche de toutes les séquences appartenant à cette famille pancréatiques et gastro-
Construction d’un alignement multiple à partir de ces séquences intestinales
Cas 1 : à partir de connaissances expérimentales Banques de domaines
InterPro: IPR001955, Identification de la région ou des acides aminés essentiels à la
Pancreatic hormone fonction sur une ou plusieurs protéines
PROSITE: PS00265,
Localisation de cette région dans l’alignement PS50276, PDOC00238,
PANCREATIC_HORMONE Correction éventuelle de l’alignement
PFAM: PF00159, Pancreatic
Cas 2 : par détection automatique hormone peptide
Extraction de régions fortement conservées dans l’alignement …
Entrées de structure 3D Etape finale
1FP8 (voir ci-contre)
Extraction de la région conservée puis modélisation
…
7 8
Prosite, une banque de motifs protéiques Prosite par l’exemple: l’hormone pancréatique
Créée en 1988 (http://www.expasy.ch/prosite/)
Motifs protéiques ayant une signification biologique
particulière + documentation complète
Deux représentations des motifs
Matrice poids-position (« profil »)
Pseudo-expression régulière (« pattern »)
Construite manuellement
But : aide à l’annotation protéique
Recherche la présence de motifs dans une séquence
… section technique: …
… … …
2 entrées associées :
l’une représenté par un profil (PS50276),
l’autre par une pattern (PS500265),
9 10
Prosite par l’exemple (1/2): l’entrée PS50276 Matrice poids-position de l’entrée PS50276
… … …
… … …
… … …
… … …
… … …
11 12
Alignement des vrai-positifs de PS50276 Prosite par l’exemple (2/2): l’entrée PS00256
… … … PROFIL:! … … …
… … …
… … …
… … …
… … …
… … …
13 14
Alignement des vrai-positifs de PS00265 Qu’est-ce qu’un bon pattern ?
Pertinent d’un point de vue biologique PATTERN :
[FY]-x(3)-[LIVM]-x(2)-Y-x(3)-[LIVMFY]-x-R-x-R-[YF]!
Représentatif de la fonction décrite :
Suffisamment tolérant
Pas de sur-adaptation (e.g. spécialisation vers une sous-famille)
Limiter le nombre de faux négatifs
Détecte toutes (ou presque) les séquences qui ont la fonction
Suffisamment discriminant
Limiter le nombre de faux positifs
Ne détecte pas trop de séquences qui n’ont pas la fonction
recherchée
Construction d’un pattern
A l’aide du logiciel PRATT (http://www.ebi.ac.uk/pratt/)
Puis amélioration à la main
15 16
Construction d’un pattern selon Prosite Modélisation par expression régulière (pattern)
NEUY CARAU/29-64 AEE..LAKYYSALRHYINLITRQRY
PYY HUMAN/29-64 PEE..LNRYYASLRHYLNLVTRQRY
PMY PETMA/1-36 PEE..LSKYMLAVRNYINLITRQRY
PPY LOPAM/1-36 PED..WASYQAAVRHYVNLITRQRY
PAHO BOVIN/30-65 PEQ..MAQYAAELRRYINMLTRPRY
PAHO CHICK/26-61 VED..LIRFYNDLQQYLNVVTRHRY
PAHO ANSAN/1-36 VED..LRFYYDNLQQYRLNVFRHRY
NPF HELAS/4-39 PNE..LRQYLKELNEYYAIMGRTRF
NPF MONEX/1-39 DNKAALRDYLRQINEYFAIIGRPRF
[FY]-x(3)-[LIVM]-x(2)-Y-x(3)-[LIVMFY]-x-R-x-R-[YF]
17 18 Vérification de la qualité du pattern PS00265 Vérification de la qualité du pattern PS00265
Recherche du pattern dans les protéines de SwissProt
Trouvé dans 84 séquences
81 vrais positifs (hormones pancréatiques possédant le pattern)
3 faux positifs (protéines quelconques possédant le pattern)
7 faux négatifs (hormones sans pattern dont 6 tronquées)
Sélectivité : 96,43 %
Vrais positifs / (vrais positifs + faux positifs)
Aptitude de la méthode à éviter les faux positifs
Sensibilité : 92,05 %
Vrais positifs / (vrais positifs + faux négatifs)
Aptitude de la méthode à trouver les vrais positifs
… … …
… … …
19 20
Vérification de la qualité du pattern PS00265 Exemple de détection du pattern PS00265
La séquence NPF_ARTTR contre le pattern de l’hormone
pancréatique
>NPF_ARTTR
KVVHLRPRSSFSSEDEYQIYLRNVSKYIQLYGRPRF
PS00265 YlrnVskYiqlYgRpRF
… … …
… … …
21 22
Construction d’une matrice de poids (profil) Point de départ : matrice des positions
Même point de départ : alignement multiple A D E F H I K L M N P Q R S T V W Y
1 1 1 0 0 0 0 0 0 0 0 0 5 0 0 0 0 2 0 0 Calcul du poids de chaque acide aminé pour chaque
2 0 0 7 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 position pertinente
Fréquence de chaque acide aminé de la colonne 3 0 3 4 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0
Equivalence entre acides aminés 4 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Recherche d’un profil dans une séquence : 5 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Fréquence de l’acide aminé présent dans la séquence étudiée 6 0 0 0 0 0 0 0 0 7 1 0 0 0 0 0 0 0 1 0
Somme des fréquences trouvées à chaque position 7 3 0 0 0 0 0 1 0 0 0 1 0 0 3 1 0 0 0 0
Profil (motif) trouvé si la somme est supérieure à un seuil propre au 8 0 1 0 1 0 0 0 2 0 0 0 0 2 2 1 0 0 0 0
profil
9 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 8
10 1 0 0 0 0 0 0 0 2 1 0 0 1 0 0 0 0 0 4
11 3 1 0 0 0 0 0 1 1 0 1 0 0 1 1 0 0 0 0
...
23 24 Vers plus de souplesse Exemple
Autoriser des insertions ou des délétions
Ajout de pénalités particulières via une colonne supplémentaire
Autoriser de