Prévision statistique paramétrique par séparation temporelle.

icon

18

pages

icon

Français

icon

Documents

Écrit par

Publié par

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

18

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

Soumis aux Annales de l’I.S.U.P.
PRÉVISION STATISTIQUE PARAMÉTRIQUE PAR
SÉPARATION TEMPORELLE.
Olivier Faugeras
L.S.T.A., Université Paris 6,
175 rue du Chevaleret, Boîte 158, 75013 Paris, France
Résumé Soit X = {X ,t ∈ Z} un processus réél faiblement sta-t
tionnaire de carré intégrable, de loi indexée par un paramètre θ,
observé sur 0 ≤ t ≤ T. On cherche à prédire la variable aléatoire
ˆX non observée par une statistique X qui soit σ(X ,0≤ t≤T+1 T+1 t
T) mesurable avec comme critère l’erreur quadratique de prévision
2ˆE (X −X ) . Il est bien connu que l’espérance conditionnelleθ T+1 T+1
∗ T TX := E (X X ) := r (X ) minimise cette erreur. Néan-T+1T+1 θ 0 θ 0
moins ce prédicteur probabiliste n’est pas accessible au statisticien
car le paramètre θ est inconnu et doit être estimé par une statistique
Tˆθ . Le comportement du prédicteur statistique plug-in r (X ) estT ˆ 0θT
alors difficile à étudier. On se propose de construire un prédicteur
statistique lorsque le prédicteur probabiliste r dépend approximati-θ
vement des k dernières valeurs (X ,i = 1,··· ,k ) avec k →∞.T T−i T T
ˆEn estimant θ par θ sur l’intervalle [0,ϕ(T)], on construit alorsφ(T)
T
le prédicteur statistique r (X ) et on étudie sa consistanceˆ T−kθ Tϕ(T)
et sa loi limite asymptotique sous des hypothèses de régularité, de
mélangeance et des conditions entre k et ϕ(T).T
Abstract Let X = {X ,t ∈ Z} be a real-valued weakly stationaryt
square integrable time series, with law indexed by a parameter θ,
observed on a ...
Voir icon arrow

Publié par

Nombre de lectures

146

Langue

Français

Soumis aux Annales de l’I.S.U.P.
PRÉVISION STATISTIQUE PARAMÉTRIQUE PAR SÉPARATION TEMPORELLE. Olivier Faugeras L.S.T.A., Université Paris 6, 175 rue du Chevaleret, Boîte 158, 75013 Paris, France Résumé Soit X = { X t , t Z } un processus réél faiblement sta-tionnaire de carré intégrable, de loi indexée par un paramètre θ , observé sur 0 t T . On cherche à prédire la variable aléatoire ˆ X T +1 non observée par une statistique X T +1 qui soit σ ( X t , 0 t T ) mesurable avec comme critère l’erreur quadratique de prévision ˆ +1 ) 2 e conditionnelle E θ ( X T +1 X T . Il est bien connu que l’espéranc X T +1 := E θ ( X T +1 X 0 T ) := r θ ( X 0 T ) minimise cette erreur. Néan-moins ce prédicteur probabiliste n’est pas accessible au statisticien car le paramètre θ est inconnu et doit être estimé par une statistique ˆ T ) est θ T . Le comportement du prédicteur statistique plug-in r θ ˆ T ( X 0 alors difficile à étudier. On se propose de construire un prédicteur statistique lorsque le prédicteur probabiliste r θ dépend approximati-vement des k T dernières valeurs ( X T i , i = 1 , ∙ ∙ ∙ , k T ) avec k T → ∞ . ˆ En estimant θ par θ φ ( T ) sur l’intervalle [0 , ϕ ( T )] , on construit alors le prédicteur statistique r θ ˆ ϕ ( T ) ( X TTk T ) et on étudie sa consistance et sa loi limite asymptotique sous des hypothèses de régularité, de mélangeance et des conditions entre k T et ϕ ( T ) . Abstract Let X = { X t , t Z } be a real-valued weakly stationary square integrable time series, with law indexed by a parameter θ , observed on a time interval 0 t T . We are interested in forecas-ˆ ting the unobserved random variable X T +1 by a function X T +1 of the observations ( X i , i = 0 , ∙ ∙ ∙ , T ) , with the quadratic error criteria E θ ( X ˆ T +1 X T +1 ) 2 . It is well known that the conditional expecta-tion X T +1 := E θ ( X T +1 X 0 T ) := r θ ( X 0 T ) is a solution to this mi-nimization problem. Nonetheless, this probabilistic forecaster is not a genuine statistical one, since it depends on the unknown value of ˆ the parameter θ , which has to be estimated by an estimator θ T . The plug-in statistical forecaster induced r θ ˆ T ( X 0 T ) is then a difficult ob-ject to study. In this paper, we propose to deal with the case where the probabilistic forecaster depends approximatively only on the last k T values of the time series ( X T i , i = 1 , ∙ ∙ ∙ , k T ) . By estimating ˆ θ by θ φ ( T ) on the interval [0 , ϕ ( T )] , we build a statistical predictor r θ ˆ ϕ ( T ) ( X TT k T ) and show its consistency and derive its limit in distri-bution under regularity, mixing, and assumptions on k T and ϕ ( T ) .
Mots-clefs: Prévision, Mélangeance, Statistique paramétrique, Séries temporelles 1
2 1. Introduction. 1.1. Motivation. Soit X = { X t , t Z } un processus à valeurs réelles fai-blement stationnaire de carré intégrable, défini sur , A , P ) , de loi P indexée par un paramètre θ à valeurs dans R d , observé sur 0 t T . On cherche ˆ à prédire la variable aléatoire X T +1 non observée par une statistique X T +1 qui soit σ ( X t , 0 t T ) mesurable, de carré intégrable et qui minimise ˆ T +1 ) 2 En notant X ba la σ -algèbre engen-l’erreur quadratique E θ ( X T +1 X . drée par ( X t , a t b ) et r θ ( X 0 T ) l’espérance conditionnelle E θ ( X T +1 | X 0 T ) , rappelons alors le lemme évident suivant : Lemme 1.1 . L’erreur de prévision se décompose en un terme probabiliste et un terme d’approximation statistique : E θ ( X T +1 X ˆ T +1 ( X 0 T )) 2 = E θ ( X T +1 r θ ( X 0 T )) 2 + E θ ( r θ ( X 0 T ) X ˆ T +1 ( X 0 T )) 2 Le premier terme s’appelle erreur probabiliste et ne dépend que du processus et le second terme s’appelle erreur statistique de prévision et résulte du choix ˆ de X T +1 par le statisticien. L’erreur de prévision est donc minimisée pour le choix ˆ X 0 T ) = E θ ( X T +1 | X 0 T ) := r θ ( X T de X T +1 ( 0 ) . Néanmoins le choix de ce prédicteur, que l’on qualifiera de probabiliste, n’est pas satisfaisant d’un point de vue statistique car le paramètre θ étant inconnu, l’espérance conditionnelle n’est pas accessible au statisticien. On est donc naturellement amené à construire un estimateur r ˆ T de cette espérance conditionnelle r θ ( . ) basé sur l’échantillon ( X i , i = 0 , ∙ ∙ ∙ , T ) pour obtenir le prédicteur statistique r ˆ T ( X 0 T ) . Dans un cadre paramétrique où l’on suppose la forme de la fonction de régression r θ connue, cela se traduit par estimer le ˆ r θT ) . paramètre θ par θ T et construire le prédicteur statistique plug-in ˆ T ( X 0 Cependant, le fait que les variables (dépendantes) ( X 0 , ∙ ∙ ∙ , X T ) servent à la fois dans le problème (statistique) d’estimation de θ et comme valeurs d’entrée dans le calcul (probabiliste) de la fonction de régression, rend l’étude de l’erreur de prévision statistique malaisé. Une manière usuelle de procéder dans la littérature est d’introduire une hypothèse supplémentaire sur la struc-ture de dépendance du processus (voir par exemple Caires et Ferreira [2005] pour une discussion), typiquement markovien d’ordre k, afin de simplifier la fonction de régression r θ ( X 0 T ) en r θ ( X TT k +1 ) , ce qui revient à considérer le problème de la prévision à « passé » fini. Dans le cadre simplifié d’un pro-cessus ARMA ayant une structure linéaire, la méthode de Box-Jenkins ou du filtre de Kalman (voir par exemple Box et Jenkins [1994] ou Brockwell et Davis [1996]) permet de traiter ce problème.
3 1.2. Séparation temporelle. On se propose ici de ne pas faire cette hy-pothèse mais de séparer les problèmes probabiliste et statistique de façon temporelle. On se place dans le cadre où la fonction de régression r θ ( . ) dé-pend approximativement des k T dernières valeurs ( X T i , i = 1 , ∙ ∙ ∙ , k T ) avec k T T , k T → ∞ . k T X T +1 := E θ h X T +1 X 0 T i := X r i ( X T i , θ ) + η k T ( X,θ ) i =0 où chaque fonction r i représente la contribution (additive) de la X T i va-leur, et où η k T ( X, θ ) est une fonction de carré intégrable asymptotiquement négligeable dans un sens à préciser. Ce modèle additif est une extension d’un cas particulier étudié par Bosq [2005]. Pour plus de détails concernant les modèles additifs, on pourra se référer à, par exemple, Härdle et al. [2004]. Dans le cas étudié par Bosq [2005] chapitre 2, le prédicteur probabiliste a pour structure X T + h := E θ ( X T + h | X T ) = r T ,h ( Y T , θ ) Y T est une variable σ ( X πT ( T ) ) mesurable, telle que 0 < π ( T ) T et lim T →∞ π ( T ) /T = 1 , i.e. qui représente le proche passé. Le prédicteur sta-ˆ tistique est alors construit à partir d’un estimateur θ ψ ( T ) du paramètre, ˆ ˆ X T + h = r T + h ( θ ψ ( T ) , Y T ) avec 0 < ψ ( T ) < T , π ( T ) ψ ( T ) → ∞ et ψ ( T ) /T 1 . La consistance, la vitesse de convergence et la loi limite du prédicteur statistique sont alors obtenues. ˆ Dans cet article, on suppose qu’on dispose d’un estimateur consistant θ T ˆ de θ . En estimant θ par θ φ ( T ) sur l’intervalle [0 , ϕ ( T )] avec ϕ ( T ) → ∞ , on construit alors le prédicteur statistique X ˆ t +1 = r θ ˆ ϕ ( T ) ( X TT k T ) Cette étude a pour but de montrer que si le processus est mélangeant, alors on peut séparer le problème d’estimation de θ sur [0 , ϕ ( T )] , du problème probabiliste sur la « mémoire » du processus entre [ T k T , T ] . Plus précisément, on montrera dans la section 2 la consistance du pré-dicteur, i.e. la convergence vers 0 de l’erreur statistique de prévision, avant de montrer un exemple d’application inspiré par la décomposition de Wold dans la section 3, pour finir par l’étude de la loi asymptotique du prédicteur statistique dans la section 4.
4 1.3. Discussion sur le modèle. On a dit que le processus est approxima-tivement k T markovien, ce qui revient à considérer que k T est imposé par le processus. On peut aussi considérer le modèle ci-dessus comme un modèle additif non-linéaire généralisé au sens où le processus vérifie + X T +1 = X r i ( X T i ; θ ) + ε T +1 i =0 où l’innovation ( ε ) est telle que E [ ε T +1 | X T −∞ ] = 0 et où la convergence de la série est à comprendre au sens de la convergence en moyenne quadratique. Une condition pour la convergence de cette série est donnée dans le corollaire 3.1 de Rio [2000] (le premier corollaire 3.1 p.51), rappelé dans le lemme ci-dessous. Lemme 1.2 . Soit ( Y i ) i N une suite de variables réelles centrées de va-riance finie. Soit Q i est la fonction de quantile de | Y i | i.e. l’inverse géné-ralisé continu à droite de la fonction H Y i ( t ) = P ( | Y i | > t ) , et α ( y ) = α [ y ] [ y ] désigne la partie entière de y et α ( k ) le coefficient de mélange fort de Rosenblatt [1956] (voir ci-dessous). Alors la série P i =1 Y i converge p.s. si la condition suivante est réalisée : 1 i = X 1 Z α 1 ( u ) Q i 2 ( u ) du < + 0 On notera que ce lemme généralise le théorème des deux séries de Kolmo-gorov qui traite du cas i.i.d. et requière la convergence des moments d’ordre 1 et 2 . La convergence de la série P i += 0 r i ( X T i ; θ ) entraîne à son tour que + X r i ( X T i ; θ ) p. s. 0 i = k pour k + . En posant η k T = P i += k T +1 r i ( X T i ; θ ) , l’écriture k T X T +1 := E θ h X T +1 | X 0 T i := X r i ( X T i , θ ) + η k T ( X,θ ) i =0 avec l’introduction de η k T ( X, θ ) peut se comprendre comme un choix du statisticien de prendre un k T + de façon à rendre la contribution du passé lointain dans la prévision négligeable, i.e. à avoir η k T ( X, θ ) 0 pour T + .
5 2. Consistance du prédicteur statistique. On rappelle la notion de α -mélangeance (cf. Rosenblatt [1956]) : Définition 2.1. Soit , A , P ) un espace probabilisé et B , C deux sous-tribus de A . On définit le coefficient de α -mélange entre les deux tribus B , C par α ( B , C ) = sup | P ( B C ) P ( B ) P ( C ) | B ∈B C ∈C et le coefficient de α -mélange d’ordre k pour le processus X = { X t , t N } défini sur l’espace probabilisé , A , P ) par α ( k ) = sup α ( σ ( X s , s t ) , σ ( X s , s t + k )) t N On rappelle en outre l’inégalité de Davydov (cf. Bosq [1998], p. 21) : Notons σ ( X ) la σ -algèbre des événements engendrés par la variable X et k X k q = E ( X q ) 1 /q pour 1 q ≤ ∞ . Lemme 2.2 . Soient X L q ( P ) et Y L r ( P ) , si q > 1 , r > 1 et 1 r + 1 = q 1 p 1 , alors 1 | Cov ( X, Y ) | ≤ 2 p 2 α ( σ ( X ) , σ ( Y )) p k X k q k Y k r . On se place donc dans le cadre suivant : – Le processus X est du second ordre, faiblement stationnaire, α mélan-geant. – On suppose que le prédicteur probabiliste s’écrit : k T X T +1 := E θ h X T +1 | X 0 T i = X r i ( X T i , θ ) + η k T ( X,θ ) i =0 On effectue alors les hypothèses suivantes : Hypothèse H 0 sur le processus X . (i) T li m E θ ( η 2 k T ( X, θ )) = 0 ; (ii) pour tout i N , k r i ( X T i , θ 1 ) r i ( X T i , θ 2 ) k ≤ H i ( X T i ) k θ 1 θ 2 k , θ 1 , θ 2 ; (iii) il existe r > 1 tel que sup E θ H i 2 r ( X T i ) < . i N
6 ˆ Hypothèse H 1 sur l’estimateur θ T . On suppose qu’on dispose d’un estima-ˆ teur consistant θ T de θ à la vitesse (paramétrique) T. (i) lim sup T .E θ ( θ ˆ T θ ) 2 < ; T →∞ ˆ (ii) il existe q > 1 tel que lim sup T q E ( θ T θ ) 2 q < . T →∞ Hypothèse H 2 sur les coefficients. (i) ϕk ( T 2 T ) T 0 ; (ii) ( T k T ϕ ( T )) T . On est alors en mesure de formuler le théorème suivant : Théorème 2.3 . Si les hypothèses H 0 , H 1 , H 2 sont vérifiées, alors lim sup E θ ( X ˆ T +1 X T +1 ) 2 = 0 T →∞ Démonstration. ˆ 2 E θ ( X T +1 X T +1 ) = E θ ik = X T 0 ( r i ( X T i , θ ) r i ( X T i , θ ˆ ϕ ( ) 2 T ) )) + η k T ( X, θ 2 E θ ( η 2 k T ( X, θ )) + 2 E θ ik = X T 0 ( r i ( X T i , θ ) r i ( X T i , θ ˆ ϕ ( T ) )) 2 k T 2 E θ ( η k 2 T ( X, θ )) + 2( k T + 1) X E θ r i ( X T i , θ ) r i ( X T i , θ ˆ ϕ ( T ) ) 2 i =0 k T θ ˆ ϕ ( T ) 2 2 E θ ( η k T ( X, θ )) + 2( k T + 1) X E θ H i ( X T i ) θ 2 i =0 par application de l’hypothèse H 0 (ii), d’où ˆ 2 ( η 2 k ( X, θ )) E θ ( X T +1 X T +1 ) 2 E θ T k T 2 + 2( k T + 1) X E θ H i 2 ( X T i ) E θ θ ˆ ϕ ( T ) θ i =0 k T + 2( k T + 1) X δ i,T i =0 I 1 + I 2 + I 3
7 où on a appliqué l’inégalité du lemme 2.2 avec X = H i 2 ( X T i ) et Y = ˆ 2 θ ϕ ( T ) θ , et où on a posé I 1 = 2 E θ ( η 2 k T ( X, θ )) 2( k T + 1) k X T E θ H 2 ˆ 2 I 2 = i ( X T i ) E θ θ ϕ ( T ) θ i =0 k T I 3 = 2( k T + 1) X δ i,T i =0 avec δ i,T = 2 p (2 α ( T i ϕ ( T ))) 1 /p E θ H i 2 r ( X T i ) 1 /r E θ ˆ 2 q 1 /q θ ϕ ( T ) θ h 0 (i), lim I 1 = 0 . Par l’ ypothèse H T →∞ Par l’hypothèse H 1 (i), li T m sup ϕ ( T ) .E θ ( θ ˆ ϕ ( T ) θ ) 2 < Donc, →∞ li T m su p I 2 lim sup k T ) ik = X T 0 E θ H i 2 ( X T i ) T →∞ ϕ ( T Or par H 1 (iii), il existe r > 1 tel que sup E θ H i 2 r ( X T i ) < , donc i N I 2 lim sup k T 2 li T m s up T →∞ ϕ ( T ) . 1 ˆ 2 I 3 = 4 pk T E θ θ ϕ ( T ) θ q q ik = X T 0 (2 α ( T i ϕ ( T ))) 1 /p E θ H i 2 r ( X T i ) 1 r Par les hypothèses H 0 (iii) et H 1 (ii), on a 1 /r s i u N p E θ H i 2 r ( X T i ) < lim sup ˆ 2 q < T →∞ ϕ ( T ) q E ( θ ϕ ( T ) θ ) Donc, I 3 6 4 p. li up k k T ( T i ϕ ( T ))) 1 /p lim su p T m s ϕ ( T T ) X (2 α Ti =0
8 Comme X est α -mélangeant, α ( k ) est décroissant lorsque k croît, donc les coefficients de la somme ci dessus sont majorés par α ( T k T ϕ ( T )) , donc li T m s up I 3 li T m su p ϕk ( 2 T T ) α 1 /p ( T k T ϕ ( T )) Les conditions H 2 (i), et H 2 (ii) sur les coefficients assurent alors que lim sup I 3 = lim sup I 2 = 0 . T →∞ T →∞
Dans le cadre d’une prévision à « mémoire fixe », i.e. où k T = k , les hypothèses se simplifient et on peut formuler le corollaire suivant : Corollaire 2.4 . On suppose que le prédicteur probabiliste s’écrit : k X T +1 := E θ h X T +1 X 0 T i = X r i ( X T i , θ ) + η T ( X,θ ) i =0 On garde les hypothèses H 0 , H 1 , H 2 que l’on modifie de la façon suivante : – pour l’hypothèse H 0 (i) sur le processus X par T lim E θ ( η 2 T ( X, θ )) = 0 ; →∞ – pour les hypothèses H 2 sur les coefficients par H 2 (i) ϕ ( T ) → ∞ ; H 2 (ii) T ϕ ( T ) T . ses, lim sup E θ ( 1 ) Alors, sous ces nouvelles hypothè T →∞ X ˆ T +1 X T + 2 = 0 . 3. Exemple d’application. Dans cette section on explicite les hypo-thèses du théorème 2.3 en basant notre discussion sur la décomposition de Wold d’un processus (cf. par exemple Brockwell & Davis [1996]) : pour un processus linéaire à temps discret, faiblement stationnaire, centré, purement non déterministe et inversible, sa décomposition peut s’écrire sous la forme suivante : k T X T = e T + X ϕ i ( θ ) X T i + X ϕ i ( θ ) X T i i =1 i>k T
avec P ϕ i 2 ( θ ) < . On a alors i =1 X T +1 := E h X T +1 X T i k T +1 = X ϕ i ( θ ) X T +1 i + X ϕ i ( θ ) X T +1 i + E h e T +1 X T i i =1 i>k T +1 k T := X r i ( X T i , θ ) + η k T ( X,θ ) i =0
9
avec r i ( X T i , θ ) := ϕ i +1 ( θ ) X T i η k T ( X, θ ) := X ϕ i +1 ( θ ) X T i + E [ e T +1 | X T −∞ ] i>k T Si pour tout i , ϕ i est dérivable et ϕ 0 i ( . ) est borné, on peut écrire pour tous θ 1 et θ 2 , k r i ( X T i , θ 1 ) r i ( X T i , θ 2 ) k = k ( ϕ i +1 ( θ 1 ) ϕ i +1 ( θ 2 )) X T i k 6 ϕ 0 i +1 ( . ) k θ 1 θ 2 k k X T i k et les hypothèses H 0 (ii), (iii), sont vérifiées avec H i = id . H 0 (iv) est vérifiée si X admet un moment d’ordre 2 r , pour un r > 1 . Si E h e T +1 X T i = 0 , k 2 T ( X, θ ) = X X ϕ i +1 ( θ ) ϕ j +1 ( θ ) cov( X T i , X T j ) i>k T j>k T en utilisant l’inégalité du lemme 2.2, 2 k T ( X, θ ) 6 2 (2 p +1) /p p k X 0 k q k X 0 k r X ϕ i +1 ( θ ) ϕ j +1 ( θ ) α 1 /p ( | i j + 1 | ) i,j>k T et la condition, X ϕ i +1 ( θ ) ϕ j +1 ( θ ) α 1 /p ( | i j + 1 | ) < i,j assure la validité de l’hypothèse H 0 (i). On a donc montré la proposition suivante : Proposition 3.1 . Si X vérifie les conditions
Voir icon more
Alternate Text