Problèmes sparses en statistique

icon

25

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

25

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

Mode`le line´aire et se´lection de variables
Minimisation de la normeℓ1
Quelques simulations
Discussion
Proble`mes sparses en statistique
GDR MASCOT NUM - IHP, Paris
Je´re´mie Bigot
Institut de Mathe´matiques de Toulouse, UPS
Avril 2008
`Problemes sparses en statistique Mode`le line´aire et se´lection de variables
Minimisation de la normeℓ1
Quelques simulations
Discussion
1 Mode`le line´aire et se´lection de variables
2 Minimisation de la norme ℓ1
3 Quelques simulations
4 Discussion
`Problemes sparses en statistique Mode`le line´aire et se´lection de variables
Minimisation de la normeℓ1
Quelques simulations
Discussion
Mode`le line´aire
tObservations : Y = (Y ,..., Y ) telles que1 n
∗ 2Y = Xβ +ǫ, avecǫ∼ N(0,σ I ),n
∗ pX = [X ,..., X ] matrice n× p connue, etβ ∈R vecteur de1 p
parame`tres a` estimer.
´ ´ ´Exemple : regression nonparametrique et decomposition dans une
base de Fourier
ℓj
Y = f(x )+ǫ, j = 1,..., n, x = , ou` ℓ ∈{1,..., p}j j j j j
p
p p
j∗ −i2π(k−1)x ∗j= β e +ǫ = β X +ǫ,j jk k k
k=1 k=1
j −i2π(k−1)xjavec X = e .k
Cas orthogonal : n = p et X matrice orthogonale
`Problemes sparses en statistique Mode`le line´aire et se´lection de variables
Minimisation de la normeℓ1
Quelques simulations
Discussion
De´composition en Fourier (sans bruit)
702
1.5 60
1
50
0.5
40
0
30
−0.5
20
−1
10
−1.5
−2 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 10 20 30 40 50 60 70
n = p = 128
∗Remarque : #{k ;β = 0} est petit !k
∗Le vecteurβ est dit sparse (creux) dans ce cas.
`Problemes ...
Voir icon arrow

Publié par

Nombre de lectures

70

Langue

Français

Modelelin´eaireeste´eltcoidnveiaaresblniMisaminoitaledmronQ1euessuelqatioimulcssusniDisnoPoresenparsmessbleProblemessparsesenstatistiqueGDRMASCOTNUM-IHP,ParisAvril2008J´er´emieBigotInstitutdeMathe´matiquesdeToulouse,UPSeuqitsitats
Me´sttceldnoiraveeodlileean´eeirnoedalonmreQ1euiablesMinimisatiissucsiDnoimssuelqnsioatulProbleQuelquessimulations4132MinimisationdelanormeModelelin´eaireets´electiondevariables1equtiistatsnesesrapssemDiscussion
airein´eelelModanelndioQu1meorisseuqlenoitalumelecets´devationelMsirbasitanimisDiscussionarseessplemProbExemple:r´egressionnonparame´triqueetd´ecompositiondansunebasedeFourierYj=f(xj)+ǫj,j=1,...,n,xj=j,ouj∈{1,...,p}ppp=βkei2π(k1)xj+ǫj=βkXkj+ǫj,XXk=1k=1avecXkj=ei2π(k1)xj.Modelelin´eaireObservations:Y=(Y1,...,Yn)ttellesqueY=Xβ+ǫ,avecǫN(02In),X=[X1,...,Xp]matricen×pconnue,etβRpvecteurdeparametresaestimer.qitsCasorthogonal:n=petXmatriceorthogonaleeusnesitat
MsnibaeltaoimisianorndelQuelme1umisseuqDsnoitaliosscuismpco´enDMolednileiae´teerels´tiecdeonriva)tinas(urbsounFerriitosneioRemarque:#{k;βk6=0}estpetit!Levecteurβestditsparse(creux)danscecas.n=p=128equti.500.5-01-1041-5.020302-00.10.20.30.40.50.60.70.80.91010sesrapsssitatsne302050042.51010570060706Probleme
issDssculamuontisopmoitiDnoioce´iondelaninimisatleuqseisroem1uQecels´etreai´einMselbairavednoitleleoMduoirenFnevbcrea()ruit400506706070215.15.00.5-0-13020105001-2000.10.20.30.40.50.60.70.80.910n=p=128Remarque:#{k;βk6=0}estpetit!Levecteurβestditsparse(creux)danscecas..5-1040302tiisequenesatstapsremsslbePor
obPrpssemelsnesesrastiqtatiSoitm=(i1,...,i|m|)unsous-ensembled'indicesdans1,...,p.Modele:supposerqueβk=0pourtoutk/m.Observations:Y=Xmβm+ǫ,avecX=[Xi1,...,i|m|]etβmR|m|.Estimationparmoindrescarre´s:Probleme:commentchoisirlemeilleurmodelem?mRisquedel'estimateur:R(m)=EkXmˆβXβk2mideal=argm⊂{m1,i.n..,p}R(m)noncalculableenpratique!uemkYXmβˆk2=minkYXmβk2.βR|m|ixd'unmodelenoDssiucssoiCnohelQuesqumusitilaoitalednrona1emablevariimissMin´sleertenoedceiteldMoai´einel
edlenuomxi'dle´steerednoitceeldMoai´einelDsnoucsioissohCnelQuesqumusitilataoidnlenaroem1variablesMinimismaisˆR(m)n'estpasunbonestimateurdeR(m)carERˆ(m)R(m)2σ2|m|mIde´enaive:ˆR(m)=kYXmβˆk2mˆnaif=argminRˆ(m)m⊂{1,...,p}esesrapssemelbommˆ=argminkYXmβˆk2+2σ2|m|m⊂{1,...,p}ˆβˆm=argminkYXβk2+2σ2kβk0,pRβMinimisationd'uncriterepe´nalis´e:oukβk0=kp=11{βk6=0}Pueiqsttitans.rP
ulationsDiscussimreQ1euqleussminolaerm1iMnoiminitasednoeltcste´riee´naeleliodeMonalednoitasiminMiesbliaarevndioeuqitsipoukβk1=k=1|βk|etλ0estunparametredere´gularisation.PInt´ereˆtdelanorme1:conduitadeschoixdemodelessparsesi.e.denombreusescomposantesdeβˆsontnullesproblemedeminimisationconvexequiser´eduitadelaprogrammationline´aire:miseenoeuvrerapide!βˆ=argβmiRnpkYXβk2+2λkβk1,Minimisationd'uncriterepe´nalis´eparnorme1(critereLASSO):Probleme:minimisationsurl'ensembledes2pmodelespossibles:impossibleenpratiquecarproblemeNP-difcilesipesttresgrand(ex:n=100,p=1000)!parsmessstatesenlbePor
pssemelsnesesraiqsttitaykλsiykˆβk=0si|yk|≤λyk+λsiyk<λou(y1,...,yp)t=XtY.Casorthogonal:sin=petXorthognalealorsˆβ=argβmiRnpkYXβk2+2λkβk1,Minimisationd'uncriterepe´nalise´parnorme1:est´equivalentafaireduseuillagedouxpourk=1,...,pueegalProbDiscussiulationse1stuelinooNmredeonnolaminitisaeuqlmissemreuQ1lectts´eireen´easeiMailbveraoidnileledoM
anorme1QuelquesMsnimisitaoidnletiecdeonrivaleabnileiae´teerle´scienoefFourtsdeueliapsredcsaleg´enDiossgetauibritalumisucsiDsnoriebolrPpsramesenstaseseiquetist04030201-2000.10.20.30.40.50.60.70.80.910n=p=128Seuillagedouxdescoefcients:λ=σ2log(n).p0170215.10.50-0.5-1-1.56005600704050203ledoM
PblromeepasseSeuillagedescoefcients:λ=σ2log(n).pn=p=12802-00.10.20.30.40.50.60.70.80.91001020304055.1-15.00.0-5-1.1520670srsenetstasiituq07050630041020Modelelin´eaireee´sttceldnoiravebliaMiesminitisa1QuermelanoondeoisnlutassmiqleuruebD´onsiusscDigalliuesrapegaticientsdedescoefFeuoirre
Voir icon more
Alternate Text