Pre tr´ aitements des donn ees´ Inference´ statistique Problemes` et approches statistiques pour l’analyse de spectres de masses issus des techniques SELDI TOF ou MALDI TOF en vue du diagnostic A. Antoniadis, J. Bigot, S. Lambert Lacroix, F. Letu e´ LJK Universite´ Joseph Fourier IMT Universite´ Paul Sabatier ´ ´Seminaire IFR Proteomique et Signal Dijon, Janvier 2008 ´ ´ ´A. Antoniadis, J. Bigot, S. Lambert Lacroix, F. Letu e Analyse de donnees de spectrometrie de massePre tr´ aitements des donn ees´ Inference´ statistique La spectrometr´ ie de masse La spectrometr´ ie de masse (MS) est une technologie emergente´ . Elle permet en particulier une mesure directe de la signature de certaines proteines´ (extraites d’un echantillon´ biologique) et promet des avancees´ consider´ ables pour le diagnostic et le traitement de maladies. Malgre´ les progres` technologiques recents´ sur l’enregistrement des spectres, le traitement de ces derniers afin d’y extraire l’information utile pour le diagnostic et la discrimination reste encore un challenge. Il existe au moins deux types de spectrometres` : ( MALDI TOF ) Matrix Assisted Laser Desorption and Ionization Time Of Flight et ( SELDI TOF ) Surface Enhanced Laser Desorption and Ionization Time Of Flightmass. ´ ´ ´A. Antoniadis, J. Bigot, S. Lambert Lacroix, F. Letu e Analyse de donnees de spectrometrie de massePre tr´ aitements des donn ees´ Inference´ statistique Acquisition des donnees´ Principe de mesure : on dispose de ...
Proble` mes et approches statistiques pour l’analyse de spectres de masses issus des techniques SELDI-TOF ou MALDI-TOF en vue du diagnostic
A.Antoniadis,J.Bigot,S.Lambert-Lacroix,F.Letu´e
LJK Universite´ Joseph Fourier - IMT Universite´ Paul Sabatier
S´eminaireIFR-Prot´eomiqueetSignal Dijon, Janvier 2008
A.Antoniadis,J.Bigot,S.Lambert-Lacroix,F.Letu´e
Analyse de donne´ es de spectrome´ trie de masse
La spectrom
Pr´e-traitementsdesdonn´ees Inf´erencestatistique e´ trie de masse
Laspet´etriedemasse(MS)estunetechnologie´emergente.Elle c rom permet en particulier une mesure directe de la signature de certaines prote´ ines (extraites d’un e´ chantillon biologique) et promet des avanc´eesconsid´erablespourlediagnosticetletraitementde maladies.
Malgre´lesprogre`stechnologiquesr´ecentssurl’enregistrementdes spectres, le traitement de ces derniers afin d’y extraire l’information utile pour le diagnostic et la discrimination reste encore un challenge.
Il existe au moins deux types de spectrome` tres : MALDI-TOF ) Matrix-Assisted Laser Desorption and Ionization Time-Of-Flight et SELDI-TOF ) Surface-Enhanced Laser Desorption and Ionization Time-Of-Flightmass.
A. Antoniadis, J. Bigot, S. Lambert-Lacroix, F. Letue´
Analysededonn´eesdespectrom´etriedemasse
Pre´ -traitements des donnees ´ Infe´ rence statistique Acquisitiondesdonn´ees
Principe de mesure :dionsdeprot´einespssodemeloe´ucel extraites d’un e´ chantillon biologique qui sont ionise´ es en phase gazeuse puis soumises `a un bref champ e´ lectrique qui produit une acce´ le´ ration des ions dans un tube `a vide un de´ tecteur au bout du tube enregistre le temps de vol.
Formatdedonn´ees:un spectre typique est constitu de ´e l’enregistrement se´ quentiel du nombre d’ions qui arrivent sur le de´ tecteur avec les valeurs correspondantes de leurs valeursm/z (rapport masse/charge).
A. Antoniadis, J. Bigot, S. Lambert-Lacroix, F. Letue´
Analysededonn´eesdespectrom´etriedemasse
Pr ´ traitements des donn ´ e- ees Infe´ rence statistique Lespremiersprobl`emesstatistiques
Fl´eaudeladimension:unspectretypiquecontientplusde 10000 mesures d’intensit ´e et on ne dispose relativement que de peu de spectres (individus) He´t´roscedastisticite´:lesmesuresd’unspectrepr´esententune e dispersion (ou e´ chelle) variable en fonction de l’intensit ´ e enregistre´ e, rendant des comparaisons difficiles Rapprochement : pour des causes de fragmentation les pics int´eressantssontassezrapproch´escequirendleurse´paration automatique proble´ matique Alignement : lorsque l’expe´ rience est re´ pe´ te´ e ou porte sur des ´echantillonsbiologiquesdemˆemenature,ilarrivequelespics enregistre´ s ne soient pas alignes. Tout processus de ´ moyennisation est alors rendu impossible sans alignement pr´ealable De´ tection de pics : Identifier les pics importants pour des e´ tudes de dife´ rentiation
A. Antoniadis, J. Bigot, S. Lambert-Lacroix, F. Letue´
Analyse de donne´ es de spectrome´ trie de masse
1
2
Pr ´ traitements des don ´ e- nees Infe´ rence statistique
Pre´-traitementsdesdonn´ees D´ebruitage Suppression du bruit de fond Normalisation, alignement et quantification des spectres
Infe´ rence statistique Analyse de la variance fonctionnelle Extraction de biomarqueurs et classification
A.Antoniadis,J.Bigot,S.Lambert-Lacroix,F.Letu´e
Analysededonne´esdespectrom´etriedemasse
it e Pr´e-traiteInm´efernetsncdeesstdatoisntniqe´uesegabeur´DonsibrduupSesprddtiunofe Normalisation, alignement et quantification des spectres Mode´ lisation statistique d’un spectre
L’id´eeessentielleestdeconsid´ererquechaquespectreestconstitu´e de la superposition de trois composantes : le signal des pics, un bruit defondlisseetunbruital´eatoireadditifdemesure.
bdf z }| { Y(m/z) =B(m/z)
signal des pics z }| { +N S(m/z) +(m/z), |{z} | {z } facteur de normalisation bruit
i(m/z)∼N(0, σ2(m/z))
But:Isolerlesignald’int´ereˆtS De´ bruiter, filtrer le bruit de fond et normaliser. Extraire les pics importants deS
A.Antoniadis,J.Bigot,S.Lambert-Lacroix,F.Letu´e
Analysededonne´esdespectrom´etriedemasse
Pre´-traitementsdesdonn´ees Infe´ rence statistique O `u commence-t-on ?
De´ bruitage Suppression du bruit de fond Normalisation, alignement et quantification des spectres
Le de´ bruitage, le filtrage du bruit de fond et la normalisation sont des processusinterconnect´es.
Oncommencepard´ebruiter(supprimerlebruit)pardes m´ethodesnonparam´etriques.Pourcelaonutilisera und´ebruitageparondelettespuisquelesondelettessontdes fonctionsdebasepermettantderepr´esenterdefa¸con parcimonieusedesfonctionscompos´eesdepics. Pourquoi cela marcherait-il ? Le signal est caracte´ rise´ par un petit nombre de coefficients alors que le bruit est re´ parti sur tous les coefficients . Leseuillageenl`evelebruitsanstropaffecterlesignal.Les ondelettes marchent beaucoup mieux que les me´ thodes ` a noyau oulessplines,quionttendancea`att´enuerlesintensit´esdespics lorsdud´ebruitage.
A. Antoniadis, J. Bigot, S. Lambe t-L ix, F. Let ´ r acro ue
Analyse de donne´ es de spectrome´ trie de masse
Exemple
de
Pre´-traitementsdesdonn´ees Inf´erencestatistique
d´ecomposition
A. Antoniadis, J. Bigot, S. Lambert-Lacroix, F. Letue´
De´ bruitage Suppression du bruit de fond Normalisation, alignement et quantification des spectres en ondelettes TIWT
Le principe sous-jacent pour ce type de de´ bruitage est :
transformer le signal du domaine temporel dans le domaine des coefficients d’ondelettes par la transformation e´ liminer les coefficients en dessous d’un certain seuil faire ensuite la transformation inverse.
Lebruitaffectedemanie`ree´galetouslescoefficientsdesr´esolutions grossie`res,alorsquelevraisignaldespicsestcaract´eris´eparpeu de grand coefficients aux re´ solutions fines.
A. Antoniadis, J. Bigot, S. Lambert-Lacroix, F. Letue´
Analysededonne´esdespectrom´etriedemasse
Debruitage ´
Pr´e-traitementsdesdonn´ ees Inf´erencestatistique
A.Antoniadis,J.Bigot,S.Lambert-Lacroix,F.Letu´e
De´ bruitage Suppression du bruit de fond Normalisation, alignement et quantification des spectres