9.2 El bootstrap en la estimación con datos dependientes

El objetivo de esta sección es mostrar distintos métodos de remuestreo para realizar inferencia sobre los parámetros de una serie temporal. Comenzaremos tratando los modelos de dependencia explícita para luego abordar la situación en que tan sólo existen condiciones generales de dependencia.

9.2.1 Modelos paramétricos de dependencia

Consideremos uno de los casos más simples, dado por el modelo \(AR(p)\): \[X_{t}=\phi _1X_{t-1}+\phi _2X_{t-2}+\cdots +\phi _{p}X_{t-p}+a_{t},\]donde \(\{a_{t}\}\) es una sucesión de variables aleatorias independientes de media cero (ruido blanco), de tal forma que \(a_{t}\) es independiente del pasado de \(X_{t}\): \(\{X_{t-1},X_{t-2},\ldots \}\).

En el contexto de estimación error cuadrático medio de predicción (PMSE), Stine (1987) propone un método bootstrap que mejora el estimador clásico de sustitución del PMSE del mejor predictor lineal estimado (ver capítulo 2 de Fuller (1976)), cuando la distribución del ruido blanco no tiene porqué ser normal. El método procede como sigue:

  1. Obtener una estimación de los coeficientes de autorregresión: \[\widehat{\phi}_1,\widehat{\phi}_2,\ldots ,\widehat{\phi}_{p}.\]En el artículo de Stine estos estimadores se obtienen por el método de mínimos cuadrados.

  2. Calcular los residuos (para aquellos índices que sea posible): \[\widehat{a}_{t}=X_{t}-\widehat{\phi}_1X_{t-1}-\widehat{\phi} _2X_{t-2}+\cdots -\widehat{\phi}_{p}X_{t-p},\quad t=p+1,p+2,\ldots ,n.\] Estos valores son sustitutos de los errores inobservables \(a_{t}\).

  3. Calcular la distribución empírica de los residuos corregidos (recentrados y reescalados): \[F_n^{\widehat{a}}(x)=\frac{1}{n-p}\sum_{t=p+1}^{n}1_{\{\widehat{a}_{t}^{\prime}\leq x\}},\] donde \(\widehat{a}_{t}^{\prime}=\widehat{a}_{t}-\bar{a}\) y \(\bar{a}=\frac{1}{n-p}\sum_{t=p+1}^{n}\widehat{a}_{t}\).

  4. Arrojar \(a_{t}^{\ast}\), \(t=1,2,\ldots ,n+k\) observaciones iid con distribución \(F_n^{\widehat{a}}\).

  5. Fijar los primeros \(p\) valores de las réplicas bootstrap de la serie: \[X_1^{\ast},X_2^{\ast},\ldots ,X_{p}^{\ast}\] igual a cero (o con igual probabilidad de los \(n-p+1\) bloques posibles de observaciones consecutivas de la serie original) y definir: \[X_{t}^{\ast}=\widehat{\phi}_1X_{t-1}^{\ast}+\widehat{\phi}_2 X_{t-2}^{\ast}+\cdots +\widehat{\phi}_{p}X_{t-p}^{\ast}+a_{t}^{\ast}, \quad t=p+1,\ldots ,n+k.\]

  6. A partir de la remuestra bootstrap (hasta el instante \(n\)), calcular las versiones bootstrap, \(\widehat{\phi}_1^{\ast},\widehat{\phi} _2^{\ast},\ldots ,\widehat{\phi}_{p}^{\ast}\), de los estimadores y obtener \(\widehat{X}_{n+k}^{\ast}\), la predicción de \(X_{n+k}^{\ast}\), usando la versión bootstrap de los estimadores de los parámetros y las últimas observaciones de la remuestra bootstrap.

  7. Aproximar el PMSE mediante su análogo bootstrap: \[PMSE^{\ast}=E^{\ast}\left[ \left( \widehat{X}_{n+k}^{\ast}-X_{n+k}^{\ast } \right)^2\right] .\]

Ferretti y Romo (1996) demuestran la consistencia de un bootstrap basado en los residuos (en el sentido de convergencia débil de la distribución bootstrap) para contrastes de raíz unitaria en series temporales del tipo \(AR(1)\), tanto en el caso de errores iid como cuando el error sigue también un modelo \(AR(1)\). Heimann y Kreiss (1996) dan un resultado similar, sólo para el caso de errores iid, cuando el tamaño muestral de las remuestras bootstrap es \(m_n\), de forma que \(\frac{m_n}{n} \rightarrow 0\) (subremuestreo).

Las ideas generales sobre el bootstrap para modelos autorregresivos pueden extenderse al bootstrap de series temporales autorregresivas y de media móvil. Consideremos un modelo \(ARMA(p,q)\): \[\begin{aligned} X_{t} =&\ \phi _1X_{t-1}+\phi _2X_{t-2}+\cdots +\phi _{p}X_{t-p} \\ &+a_{t}-\theta _1a_{t-1}-\theta _2a_{t-2}-\cdots -\theta _{q}a_{t-q},\end{aligned}\]o, equivalentemente, \[\phi (B)X_{t}=\theta (B)a_{t},\] donde \[\phi (B)=1-\phi _1B-\phi _2B^2-\cdots -\phi _{p}B^{p}\\ \theta(B)=1-\theta _1B-\theta _2B^2-\cdots -\theta _{q}B^{q}\] y \(B\) es el operador retardo: \(BX_{t}=X_{t-1}\). La diferencia principal con respecto al caso autorregresivo es que ahora se necesitan estimar los coeficientes la parte de media móvil, al objeto de calcular los residuos, \(\widehat{a}_{t}\). Así, el algoritmo bootstrap para una serie \(AR(p)\) puede adaptarse a este caso de manera inmediata. En este contexto, Kreiss y Franke (1992) usan la representación
\(MA(\infty )\) del proceso de error en términos de la series original, \[a_{t}=\theta (B)^{-1}\phi(B) X_{t},\] para construir los residuos (utilizando los parámetros estimados en la fórmula anterior) y demuestran la validez asintótica del bootstrap (en el sentido de la distancia de Mallows) para aproximar la distribución en el muestreo del \(M\)-estimador de los parámetros de un modelo \(ARMA(p,q)\).

Paparoditis (1996) demuestra la validez del bootstrap para la inferencia acerca de los parámetros de un proceso \(ARMA\) multidimensional de orden infinito. El autor propone arrojar réplicas bootstrap de modelos \(ARMA\) de orden finito creciente, de forma que ese orden tienda a infinito a cierta tasa, según crece el tamaño muestral. Bühlmann (1997) desarrolla ideas semejantes en el contexto de procesos \(AR\left( \infty \right)\), introduciendo el llamado sieve bootstrap. Este método se ha extendido estimación no paramétrica de la regresión cuando la variable explicativa sigue un modelo \(AR\left( \infty \right)\) (ver Bühlmann (1998)).

9.2.2 Situaciones de dependencia general

En esta sección se estudia el caso en que no se asume ningún tipo de estructura autorregresiva sobre el proceso estocástico. De hecho, asumiremos condiciones generales de dependencia, como condiciones mixing o de \(m\)-dependencia, por ejemplo.

El problema de no tener una ecuación explícita que relacione el valor actual de la serie con sus valores pasados provoca que no sea posible diseñar un plan de remuestreo a partir de un modelo de dependencia explícita.

9.2.3 El bootstrap por bloques

La primeras propuestas para evitar el problema de carecer de una expresión explícita para modelizar la dependencia corresponden a Künsch (1989) y Liu y Singh (1992), que propusieron de forma independiente el llamado bootstrap por bloques (moving blocks bootstrap o MBB). El método procede del siguiente modo:

  1. Fijar un entero positivo, \(b\), el tamaño del bloque, y tomar \(k\) igual al menor entero mayor o igual que \(\frac{n}{b}\).

  2. Definir los bloques (o submuestras): \(B_{i,b}=(X_i,X_{i+1},\ldots ,X_{i+b-1})\), o simplemente \(B_i\), para \(i=1,2,\ldots ,q\) (\(q=n-b+1\))\(.\)

  3. Arrojar \(k\) observaciones (bloques), \(\xi _1,\xi _2,\ldots ,\xi _{k}\), con distribución equiprobable sobre el conjunto de posibles bloques: \(\{B_1,B_2,\ldots ,B_{q}\}\). Cada \(\xi _i\) es un vector \(b\)-dimensional \((\xi _{i,1},\xi _{i,2},\ldots ,\xi _{i,b})\).

  4. Definir \(\mathbf{X}^{\ast}\) como el vector formado por las \(n\) primeras componentes de \[(\xi _{1,1},\xi _{1,2},\ldots ,\xi _{1,b},\xi _{2,1},\xi _{2,2},\ldots ,\xi _{2,b},\ldots ,\xi _{k,1},\xi _{k,2},\ldots ,\xi _{k,b}).\]

Si tomamos \(b=1\), entonces \(k=n\) y se obtiene el bootstrap ordinario. Por otra parte, si \(b=n\), tenemos \(k=1\) y se obtiene el remuestreo degenerado, ya que todas las réplicas bootstrap coincidirían con la muestra original.

Künsch (1989) y Liu y Singh (1992) demuestran la validez asintótica de este método bajo condiciones poco restrictivas sobre el grado de dependencia y el tamaño del bloque. Por ejemplo, Liu y Singh (1992) demuestran que si el proceso estocástico es \(m\)-dependiente (i.e., \((X_{t},X_{t+1},\ldots )\) y \((X_{s},X_{s-1},\ldots )\) son independientes siempre que \(s+m<t\)), si \(T\) es un funcional dos veces Frechet diferenciable y el tamaño del bloque satisface \(b\rightarrow \infty\) y \(b\log n/n\rightarrow 0\), entonces \[\sup_{x\in \mathbb{R}}\left\vert P^{\ast}\left\{ \sqrt{n}\left( T(F_n^{\ast})-T\left( F_n \right) \right) \leq x\right\} -P\left\{ \sqrt{ n}\left( T(F_n)-T\left( F \right) \right) \leq x\right\} \right\vert \rightarrow 0\mathrm{,}\]en probabilidad. Naik-Nimbalkar y Rajarshi (1994) demuestran la consistencia del proceso empírico MBB bajo la condición de que \(b=O(n^{1/2-\varepsilon })\), para algún \(\varepsilon \in (\frac{1}{4},\frac{1}{2})\). Bühlmann (1994) lo extiende al caso multivariante y debilita la condición sobre \(\varepsilon\), siendo \(\varepsilon \in (0,\frac{1}{2})\).

Carlstein, Do, Hall, Hesterberg y Künsch (1998) propusieron una modificación del MBB. Su idea consiste en seleccionar las remuestras de bloques de acuerdo a una cadena de Markov. El primer bloque de la remuestra bootstrap se genera igual que para el MBB ordinario. Una vez que se se seleccionado en la remuestra el bloque \(B_i\), el siguiente bloque de la remuestra bootstrap se elige dentro de todos los posibles bloques, \(B_j\), poniendo más probabilidad a aquellos que son precedidos por un bloque, \(B_{j-1}\), cuyo último valor, \(X_{j+b-2}\), es más cercano al último valor, \(X_{i+b-1}\), del bloque \(B_i\). En el caso \(j=1\), esta regla no tiene sentido, ya que no existe un bloque anterior al \(B_1\), así que, en ese caso los autores proponen hacer que la probabilidad dependa de la distancia entre \(X_1\) (el primer valor del bloque \(B_1\)) y el valor siguiente al último del bloque \(B_i\), es decir \(X_{i+b}\). De nuevo esto sólo es posible si \(i<q\). Si \(i=q\) usan \(X_1\) en lugar de \(X_{i+b}\). Estas probabilidades se calculan usando pesos de tipo núcleo. Estos autores demuestran la consistencia de esta versión del MBB para el estimador bootstrap de la varianza de la media muestral.

9.2.4 Elección de \(b\)

Un asunto importante en el método bootstrap por bloques es la elección del tamaño del bloque, \(b\). Hall, Horowitz y Jing (1995) considera este problema en el contexto de la estimación bootstrap del sesgo y la varianza. Obtienen una expresión asintótica para el error cuadrático medio: \[n^{-2}(C_1b^{-2}+C_2n^{-1}b),\] donde \(C_1\) y \(C_2\) son constantes desconocidas que dependen del problema de estimación del que se trate. Está claro entonces que el tamaño óptimo del bloque (en el sentido del error cuadrático medio) es de orden \(n^{1/3}\).

Un resultado importante de utilidad para probar la validez del MBB en muchos contextos es el dado por Radulović (1996). Este autor demuestra que siempre que una sucesión de variables aleatorias fuertemente mixing satisface el Teorema Central del Límite, dicho resultado también es válido para la versión bootstrap por bloques.

9.2.5 El bootstrap estacionario

Consideremos el bootstrap por bloques para una muestra, \((X_1,X_2,\ldots ,X_n)\), de tamaño \(n=100\) y el tamaño del bloque \(b=10\). Podemos calcular fácilmente las distribuciones bootstrap conjuntas de \((X_{10}^{\ast},X_{11}^{\ast})\) y \((X_{9}^{\ast},X_{10}^{\ast})\): \[\begin{aligned} P^{\ast}\left\{ (X_{10}^{\ast},X_{11}^{\ast})=(X_i,X_j)\right\} = \frac{1}{91^2},\quad \hbox{para}\quad i &= 10,11,\ldots ,100; \\ j &= 1,2,\ldots ,91 \\ P^{\ast}\left\{ (X_{9}^{\ast},X_{10}^{\ast})=(X_i,X_j)\right\} =\frac{ 1}{91},\quad \hbox{para}\quad i &= 9,10,\ldots ,99;\,\,j=i+1.\end{aligned}\]Como estas distribuciones bootstrap son diferentes entonces el MBB no es estacionario.

Con el fin de remediar la falta de estacionariedad del MBB, Politis y Romano (1994a) proponen el llamado bootstrap estacionario (stationary bootstrap, SB). El método necesita de la elección de un número \(p\in \lbrack 0,1]\) y puede presentarse de dos formas equivalentes:

SB1:

  1. Arrojar \(X_1^{\ast}\) de \(F_n\), la distribución empírica construida con las muestra \((X_1,X_2,\ldots ,X_n).\)

  2. Una vez que se ha arrojado el valor \(X_i^{\ast}=X_j\) (para algún \(j\in \{1,2,\ldots ,n-1\}\)) con \(i<n\), se define la siguiente observación bootstrap, \(X_{i+1}^{\ast}\), como \(X_{j+1}\), con probabilidad \(1-p\) y arrojada de la función de distribución empírica de la muestra, con probabilidad \(p\). En el caso \(j=n\), la observación \(X_{j+1}\) se reemplaza por \(X_1\).

SB2:

  1. Definir los bloques circulares \(B_{i,b}=(X_i,X_{i+1},\ldots ,X_{i+b-1})\) con \(b\in \mathbb{N}\), \(i=1,2,\ldots ,n\) y \(X_{t}=X_{\left(\left( t-1 \right) \mathrm{mod\ }n \right) +1}\) si \(t>n\).

  2. Arrojar realizaciones iid, \(L_1,L_2,\ldots\), con distribución geométrica de parámetro \(p\), i.e. \[P(L_1=m)=p(1-p)^{m-1},m=1,2,\ldots\]

  3. Obtener enteros aleatorios, \(I_1,I_2,\ldots\), con distribución equiprobable sobre el conjunto \(\{1,2,\ldots ,n\}\).

  4. Definir \(X_1^{\ast},X_2^{\ast},\ldots ,X_n^{\ast}\) como los \(n\) primeros valores obtenidos al unir los bloques \(B_{I_1,L_1},B_{I_2,L_2},\ldots\)

A continuación se comentan algunos aspectos interesantes en relación con el SB.

  • El número mínimo de bloques necesario, \(k\), en el método de remuestreo SB2, de forma que el conjunto de bloques \(B_{I_1,L_1},B_{I_2,L_2},\ldots ,B_{I_{k},L_{k}}\) tenga, al menos, \(n\) observaciones, coincide con el menor entero \(k\) para el cual \(\sum_{i=1}^{k}L_i\geq n\).

  • Eligiendo \(p=1\) se tiene el bootstrap clásico. La elección \(p=0\) corresponde a una permutación circular aleatoria de la muestra, que conduce a una distribución bootstrap degenerada si el estadístico es funcional (i.e., si es sólo función de la distribución empírica, pero no depende del orden de los datos).

  • Condicionalmente a la muestra observada, el proceso bootstrap, \(\{X_i^{\ast}\}\), es estacionario. Más aún, si no hay datos empatados, entonces el proceso bootstrap es un proceso de Markov. En general, es un proceso markoviano de orden \(r+1\), donde \[r=\max \left\{ b\in \mathbb{N}\,/\,\,\exists i,j,\,\,i\neq j\quad \hbox{con} \quad B_{i,b}=B_{j,b}\right\} .\]

  • Observando el esquema de remuestreo SB2 resulta fácil generalizar el método a casos en los que la distribución de \(L_i\) no es geométrica y la distribución de los \(I_i\) no tiene porqué ser equiprobable. En tales casos, debe ponerse mucho cuidado en la elección de esas distribuciones para no destruir la estacionariedad del proceso bootstrap. Con esta generalización del remuestreo SB2, el MBB puede pensarse como un caso particular, tomando \[\begin{aligned} P(L_i &= m)=\left\{ \begin{array}{lll} 1 & \mathrm{si} & m=b \\ 0 & \mathrm{si} & m\neq b \end{array} \right. \\ P(I_i &= j)=\left\{ \begin{array}{lll} 1/q & \mathrm{si} & j=1,2,\ldots ,q \\ 0 & \mathrm{si} & j=q+1,q+2,\ldots ,n \end{array} \right. \\ \quad \hbox{con}\quad q&= n-b+1.\end{aligned}\]

  • Como el tamaño medio del bloque en el SB es \(\frac{1}{p}\), en cierto sentido el valor \(p\) juega el papel inverso del tamaño del bloque en el MBB (\(p=1\) es comparable con \(b=1\) y \(p=0\) con \(b\rightarrow \infty\)).

Dado un proceso estocástico estrictamente estacionario con función de autocovarianza \(\gamma\), cumpliendo \(\gamma (0)+\sum_{r}\left\vert r\gamma (r)\right\vert <\infty ,\) con momento finito de orden \(d+2\) (para algún \(d>0\)) y la siguiente condición para los coeficientes mixing: \[\sum_{k}\alpha _{k}^{\frac{d}{d+2}}<\infty ,\]Politis y Romano (1994a) demostraron la validez asintótica del bootstrap estacionario: \[\sup_{x\in \mathbb{R}}\left\vert P^{\ast}\left\{ \sqrt{n}(\bar{X}_n^{\ast }-\bar{X}_n)\leq x\right\} -P\left\{ \sqrt{n}(\bar{X}_n-\mu )\leq x\right\} \right\vert \rightarrow 0,\]en probabilidad, siempre que \(p\rightarrow 0\) y \(np\rightarrow \infty\). Estos autores también dan una idea acerca de cómo generalizar este resultado a estadísticos funcionales, \(T(F_n)\), donde \(T\) es un funcional Frechet diferenciable. Politis y Romano (1994c) también demostraron que el método funciona para una amplia clase de estimadores, incluyendo los de mínima distancia.

9.2.6 El método del submuestreo

Politis y Romano (1994b) proporcionan un método bootstrap que es válido bajo condiciones minimales. Estos autores presentan dos versiones de este método: una para datos independientes y otra para datos dependientes.

Para enunciar el método del submuestreo de forma unificada consideremos las observaciones, \(X_1,X_2,\ldots ,X_n\), que provienen o bien de (a) variables aleatorias iid con distribución \(F\) o (b) un proceso estocástico fuertemente mixing. Consideremos un parámetro \(\theta =\theta (F)\), \(T_n=T_n(X_1,X_2,\ldots ,X_n)\) un estimador de él, y \(J_n(\cdot ,F)\) la función de distribución en el muestreo de \(\tau _n(T_n-\theta )\). Se fija un entero \(b<n\) y se define:

  • en el caso iid, \(S_{n,i}=T_{b}(Y_i),\) \(i=1,2,\ldots ,N\), donde \(Y_1,Y_2,\ldots ,Y_n\) son todas las \(N=\binom{n}{b}\) posibles submuestras de tamaño \(b\) (sin reemplazamiento) de la muestra original.

  • en el caso de datos dependientes, \(S_{n,i}=T_{b}(B_{i,b})\), \(i=1,2,\ldots ,N\), donde \(B_{i,b},\) \(i=1,2,\ldots ,N\), con \(N=n-b+1\), son todos los posibles bloques de tamaño \(b\).

Este método propone usar la función de distribución empírica de los valores \(\tau _{b}(S_{n,i}-T_n)\), \[L_n(x)=\frac{1}{N}\sum_{i=1}^{N}1_{\{\tau _{b}(S_{n,i}-T_n)\leq x\}}\] como aproximación de la distribución en el muestreo de \(\tau_n(T_n-\theta )\). El resultado demostrado por Politis y Romano (1994b) afirma que siempre que \(\tau _{b}/\tau _n\rightarrow 0\), \(b \rightarrow \infty\) y \(b/n\rightarrow 0\), la condición \(\tau _n(T_n-\theta )\overset{d}{\rightarrow}J(\cdot ,F)\) implica que \(L_n(x)\rightarrow J(x,F)\) para cada \(x\), punto de continuidad de \(J(\cdot ,F)\) y \(\left\Vert L_n(\cdot )-J_n(\cdot ,F)\right\Vert _{\infty }\rightarrow 0\) en probabilidad (si \(J(\cdot ,F)\) es continua). A grandes rasgos este resultado garantiza que, bajo condiciones minimales sobre el tamaño del bloque, el método del submuestreo es siempre asintóticamente válido, siempre que el estadístico de interés tenga una distribución límite.