9.3 El bootstrap para la predicción con datos dependientes

Dado un proceso estocástico en tiempo discreto, \(\{X_{t}\}_{t\in \mathbb{ Z}}\), un problema importante en este contexto es predecir un valor futuro del proceso. Habiendo observado una trayectoria del proceso, hasta el tiempo \(n\): \(X_1,X_2,\ldots ,X_n\), la cuestión es encontrar un predictor, tan preciso como sea posible, para el valor del proceso a \(k\) retardos, \(X_{n+k}\). Puede construirse un predictor puntual o un intervalo de predicción, que es típicamente más informativo.

9.3.1 Modelos de dependencia paramétrica

Al igual que en el caso de estimación, cuando la estructura de dependencia sigue un modelo paramétrico, esta información puede usarse para adaptar el bootstrap ordinario al contexto de predicción. La mayor parte de los mecanismos bootstrap presentados en la sección anterior para la estimación en el contexto paramétrico son también válidos para la predicción con muy pocos cambios.

Stine (1987) propone un método bootstrap (ya presentado antes) para estimar el error cuadrático medio de predicción del mejor predictor lineal estimado en el contexto de un modelo \(AR(p)\). Usa versiones bootstrap de los parámetros estimados y la remuestra bootstrap para obtener \[\widehat{X}_{n+j}^{\ast}=\widehat{\phi}_1^{\ast}\widehat{X} _{n+j-1}^{\ast}+\widehat{\phi}_2^{\ast}\widehat{X}_{n+j-2}^{\ast }+\cdots +\widehat{\phi}_{p}^{\ast}X_{n+j-p}^{\ast},\quad j=1,2,\ldots ,k,\]con \(\widehat{X}_{t}^{\ast}=X_{t}^{\ast}\) para \(t\leq n\), cuya distribución bootstrap se usa para estimar la verdadera distribución en el muestreo del predictor.

Thombs y Schucany (1990) proponen método bootstrap primero hacia atrás y luego hacia adelante para obtener intervalos de predicción a \(k\) retardos para procesos \(AR(p)\). El método procede como sigue:

Construir los residuos hacia atrás:\[\widehat{e}_i=X_i-\widehat{\phi}_1X_{i+1}-\widehat{\phi} _2X_{i+2}-\cdots -\widehat{\phi}_{p}X_{i+p},\quad i=1,2,\ldots ,n-p,\]y calcular su versión corregida, \(\widehat{e}_i^{\prime}\) (tal y como se hace en el método de Stine en la sección anterior).
Arrojar errores bootstrap hacia atrás, \(\widehat{e}_i^{\ast}\), de la función de distribución empírica de los residuos hacia atrás corregidos.
Definir réplicas bootstrap hacia atrás:\[X_i^{\ast}=\widehat{\phi}_1X_{i+1}^{\ast}+\widehat{\phi} _2X_{i+2}^{\ast}+\cdots +\widehat{\phi}_{p}X_{i+p}^{\ast}+\widehat{e} _i^{\ast},\quad i=n-p,\ldots ,1,\]con \(X_i^{\ast}=X_i\) para \(t=n-p+1,n-p+2,\ldots ,n\).
Calcular versiones bootstrap de los estimadores, \(\widehat{\phi} _1^{\ast},\widehat{\phi}_2^{\ast},\ldots ,\widehat{\phi}_{p}^{\ast}\).
Construir residuos hacia adelante:\[\widehat{a}_i=X_i-\widehat{\phi}_1X_{i-1}-\widehat{\phi} _2X_{i-2}+\cdots -\widehat{\phi}_{p}X_{i-p},\quad i=p+1,p+2,\ldots ,n,\] y su versión corregida \(\widehat{a}_i^{\prime}\).
Arrojar errores bootstrap hacia adelante, \(\widehat{a}_i^{\ast}\), de la función de distribución empírica de los residuos hacia adelante corregidos.
Definir las réplicas bootstrap hacia adelante:\[X_{n+j}^{\ast}=\widehat{\phi}_1^{\ast}X_{n+j-1}^{\ast}+\widehat{\phi} _2^{\ast}X_{n+j-2}^{\ast}+\cdots +\widehat{\phi}_{p}^{\ast }X_{n+j-p}^{\ast}+\widehat{a}_{n+j}^{\ast},\quad j=1,2,\ldots ,k.\]

Thombs y Schucany (1990) prueban la validez asintótica del bootstrap demostrando que, cuando el tamaño muestral, \(n\), tiende a infinito, \[P^{\ast}\left( X_{n+k}^{\ast}\leq x \right) -P\left( X_{n+k}\leq x|_{X_{n-p+1},X_{n-p+2},\ldots ,X_n} \right) \rightarrow 0,\]de forma casi segura, para casi todo \(x\). Este resultado implica la validez asintótica del intervalo de predicción bootstrap \((x_{\alpha /2}^{\ast},x_{1-\alpha /2}^{\ast})\), donde \(x_{\beta }^{\ast}\) se define mediante \(P^{\ast}\left( X_{n+k}^{\ast}\leq x_{\beta }^{\ast} \right) =\beta\). Algunos estudios de simulación muestran los beneficios de este método sobre los métodos clásicos cuando la distribución del error no es normal.

García-Jurado, González-Manteiga, Prada-Sánchez, Febrero-Bande y Cao (1995) demuestran la validez del bootstrap de Thombs y Schucany para modelos \(ARI(p,d)\). Supongamos que \(X_{t}\sim ARI(p,d)\), la idea principal de esta extensión es la siguiente:

Construir la serie de diferencias, \(Y_{t}=\nabla^{d}X_{t},\) donde

\(\nabla\) es el operador diferencia definido por \(\nabla X_{t}=X_{t}-X_{t-1}\). Obviamente \(Y_{t}\) tiene una estructura \(AR(p)\).
Aplicar el bootstrap de Thombs y Schucany a esta serie para obtener la serie bootstrap \(\{Y_{t}^{\ast}\}\).
Calcular réplicas bootstrap \(X_{t}^{\ast}\) mediante \(d\) integraciones de la serie \(Y_{t}^{\ast}\), fijando las primeras observaciones bootstrap: \(X_{t}^{\ast}=X_{t}\) para \(t\leq n\).

Cao, Febrero-Bande, González-Manteiga, Prada-Sánchez y García-Jurado (1997) estudian un método bootstrap, alternativo al de Thombs y Schucany, que es computacionalmente más rápido y también consistente. Puede resumirse en los siguientes pasos:

Construir la distribución empírica de los residuos hacia adelante corregidos, \(F_n^{\widehat{a}^{\prime}}\).
Generar \(\widehat{a}_i^{\ast}\) con distribución \(F_n^{ \widehat{a}^{\prime}}\).
Construir réplicas bootstrap futuras \[X_{n+j}^{\ast}=\widehat{\phi}_1X_{n+j-1}^{\ast} +\widehat{\phi}_2X_{n+j-2}^{\ast} + \cdots +\widehat{\phi}_{p}X_{n+j-p}^{\ast} +\widehat{a}_{n+j}^{\ast},\quad j=1,2,\ldots ,k,\] donde \(X_i^{\ast}=X_i\) para \(i=n,n-1,\ldots ,n-p+1.\)

Estos autores demuestran la validez asintótica de este método bootstrap (en el mismo sentido que Thombs y Schucany) y de una versión suavizada en la cual se reemplaza \(F_n^{\widehat{a}^{\prime}}\) por \(K_{h}\ast F_n^{\widehat{a}^{\prime}}\), en el paso 2. Pascual, Romo y Ruiz (2001) proponen una variante de este método en la que se incorpora la variabilidad en la estimación de los parámetros de la serie.

9.3.2 Situaciones de dependencia general

Cuando la estructura de dependencia de la serie no es explícita los métodos bootstrap existentes para la estimación (como el MBB, el SB o el método de submuestreo) no funcionan para la predicción. El motivo es que estos métodos no estiman consistentemente la distribución condictional \[X_{n+k}|_{X_1,X_2,\ldots ,X_n}.\] Esta situación es completamente diferente del caso en que la dependencia se modeliza paramétricamente, ya que en ese otro caso los métodos bootstrap usados para la estimación permanecen válidos, en general, en el contexto de predicción.

Es poco menos que imposible estimar la distribución condicional anterior sin hacer ninguna suposición sobre el tipo de dependencia. Sin embargo se puede llevar a cabo una estimación cuando se supone que el proceso estocástico es markoviano de orden \(p\), porque entonces, \[X_{n+k}|_{X_1,X_2,\ldots ,X_n}{=}^{\mathrm{d} }X_{n+k}|_{X_{n-p+1},X_{n-p+2},\ldots ,X_n}\] y, por tanto, \[F_{k}(y|_{\mathbf{x}})=F_{k}(y|_{x_1,x_2,\ldots ,x_{p}})=P\left( X_{n+k}\leq y|_{X_{n-p+1}=x_1,X_{n-p+2}=x_2,\ldots ,X_n=x_{p}} \right)\] puede estimarse por medio de un estimador no paramétrico de la distribución condicional, basado en estimadores no paramétricos de la regresión, como, por ejemplo, mediante el estimador tipo núcleo:

\[\widehat{F}_{k,H}(y|_{\mathbf{x}})=\frac{\sum_{i=1}^{q-k}K_{H}(\mathbf{x} -B_{i,p})\cdot 1_{\{X_{i+p+k-1}\leq y\}}}{\sum_{i=1}^{q-k}K_{H}(\mathbf{x} -B_{i,p})},\]

donde \(q=n-p+1,\) \(K_{H}(\mathbf{u})=\det (H)^{-1}K(H^{-1}\mathbf{z})\), \(K\) es una función núcleo, \(H\) es una matriz ventana diagonal definida positiva y \(B_{i,p},\) \(i=1,2,\ldots ,q\) son los bloques muestrales de tamaño \(p\). Este estimador podría usarse para calcular intervalos predicción aproximados para \(X_{n+k}\) dados los valores observados del proceso hasta el instante \(n\).

En el caso \(p=1\) (\(\{X_{t}\}\) es un proceso de Markov) el estimador núcleo puede escribirse como \[\widehat{F}_{k,h}(y|_{\mathbf{x}})=\frac{\sum_{i=1}^{n-k}K_{h}(x-X_i)\cdot 1_{\{X_{i+k}\leq y\}}}{\sum_{i=1}^{n-k}K_{h}(x-X_i)},\]

donde \(K_{h}(u)=h^{-1}K(u/h)\) y \(h>0\). Usar este estimador para calcular el intervalo de predicción de nivel \(\alpha\): \[\left( \widehat{F} _{k,h}^{-1}(\alpha /2|_{\mathbf{x}}),\widehat{F}_{k,h}^{-1}(1-\alpha /2|_{\mathbf{x}}) \right),\] es equivalente a llevar a cabo un método bootstrap de forma que \[P\left( X_{n+k}^{\ast}=X_{i+k} \right) =\widehat{p}_i=\frac{ K_{h}(X_n-X_i)}{\sum_{j=1}^{n-k}K_{h}(X_n-X_j)}\mathrm{,} i=1,2,\ldots ,n-k.\]

Teniendo esto en cuenta ese mecanismo bootstrap puede describirse como sigue:

Construir los bloques muestrales de tamaño \(k+1\): \(B_{i,k+1}\), \(i=1,2,\ldots ,n-k\).
Calcular los valores \(\widehat{p}_i\), \(i=1,2,\ldots ,n-k\).
Arrojar un bloque del conjunto \(\{B_{1,k+1},B_{2,k+1},\ldots ,B_{n-k,k+1}\}\) con probabilidades \(\widehat{p}_i\), \(i=1,2,\ldots ,n-k\) y definir \(X_{n+k}^{\ast}\) como la última observación de los bloques generados.

Está claro que la precisión de este mecanismo bootstrap depende de las propiedades del estimador tipo núcleo de la distribución condicional. Así, por ejemplo, bajo las condiciones impuestas en el Teorema 1 de Gannoun (1990) se obtiene que \[\sup_{x\in C}\sup_{y\in \mathbb{R}}\left\vert P\left( X_{n+k}^{\ast}\leq y|_{X_n=x} \right) -P\left( X_{n+k}\leq y|_{X_n=x} \right) \right\vert \rightarrow 0\] en probabilidad.

Como consecuencia los intervalos de predicción bootstrap tienen probabilidad de cobertura asintóticamente correcta, uniformemente, en probabilidad, sobre la última observación de la muestra. Este resultado puede extenderse fácilmente para procesos de Markov de orden \(p>1\).