3.6 Validez de la aproximación Bootstrap

Trataremos ahora de dar una justificación teórica del buen funcionamiento del bootstrap uniforme. Para ello, por simplicidad, nos centraremos en el problema de aproximar la distribución en el muestreo del estadístico \[R=R\left( \mathbf{X},F \right) =\sqrt{n}\frac{\bar{X}-\mu }{\sigma },\] donde \(\mathbf{X}=\left( X_1,X_2,\ldots ,X_n \right)\) es una m.a.s. procedente de una distribución \(F\), con media \(\mu\) y desviación típica \(\sigma\). Sabemos que, bajo ciertas condiciones, el teorema central del límite permite obtener la distribución asintótica de \(R\), que es una \(\mathcal{N}\left( 0,1 \right)\), es decir \[\lim_{n\rightarrow \infty }P\left( R\leq u \right) =\Phi \left( u \right), \quad\forall u\in \mathbb{R},\] siendo \(\Phi\) la función de distribución de una normal estándar, cuya función de densidad denotaremos por \(\phi\).

Para ver cómo de buena es la aproximación por normal del estadístico \(R\), debemos razonar cómo de rápida es la convergencia en el límite anteriormente expuesto. La respuesta a esa pregunta viene dada por el Teorema de Cramer que usa los llamados desarrollos de Edgeworth de un estadístico para aproximarlo por una suma de términos, el primero es la función de distribución normal estándar y los siguientes irán tendiendo a cero sucesivamente más rápido cuando el tamaño muestral tiende a infinito. Enunciemos ese resultado.

Teorema 3.1 (Cramer)

Consideremos variables aleatorias \(X_1,X_2,\ldots ,X_n,\ldots\) independientes e idénticamente distribuidas procedentes de una distribución \(F\), con media \(\mu\) y desviación típica \(\sigma\). Supongamos que existe cierto \(j\), natural, para el cual \(E\left( \left\vert X\right\vert^{j+2} \right) <\infty \,\), y que \(\lim_{\left\vert t\right\vert \rightarrow \infty }\left\vert \alpha \left( t \right) \right\vert <1\), siendo \(\alpha \left( t \right) =E\left( e^{itX} \right)\) la función característica de la población. Entonces: \[\begin{aligned} P\left( R\leq u \right) &=P\left( \sqrt{n}\frac{\bar{X}-\mu }{\sigma } \leq u \right) \\ &= \Phi \left( u \right) +n^{-\frac{1}{2}}p_1\left( u \right) \phi \left( u \right) +\cdots +n^{-\frac{j-1}{2}}p_{j-1}\left( u \right) \phi \left( u \right) +O\left( n^{-\frac{j}{2}} \right), \end{aligned}\] siendo los \(p_i\left( u \right)\) polinomios de grado \(3i-1\) cuyos coeficientes dependen de los momentos de \(X\) de orden menor o igual que \(i+2\). En particular \[\begin{aligned} p_1\left( u \right) &= -\frac{1}{6}\frac{k_3}{\sigma^{3}}\left( u^2-1 \right), \\ p_2\left( u \right) &= -u\left[ \frac{1}{24}\frac{k_4}{\sigma^{4}}\left( u^2-3 \right) +\frac{1}{72}\left( \frac{k_3}{\sigma^{3}} \right) ^2\left( u^{4}-10u^2+15 \right) \right] , \end{aligned}\]

siendo \(k_j\) el \(j\)-ésimo cumulante, es decir el términos que acompaña a \(\frac{\left( it \right)^{j}}{j!}\) en el desarrollo en serie del logaritmo de la función característica: \[\log \alpha \left( t \right) =\sum_{j=1}^{\infty }k_j\frac{\left( it \right) ^{j}}{j!}.\]

Además dichos polinomios tienen paridad alternada, es decir, \(p_1\) es simétrico, \(p_2\) es antisimétrico, \(p_3\) es simétrico, y así sucesivamente: \[p_1\left( -u \right) = p_1\left( u \right),\quad p_2\left( -u \right) = -p_2\left( u \right),\quad p_3\left( -u \right) = p_3\left( u \right) ,\cdots\]

Existen ecuaciones que relacionan todos los cumulantes hasta cierto orden con todos los momentos poblacionales hasta ese mismo orden. Dichas ecuaciones permiten expresar los cumulantes en función de los momentos y viceversa.

Como consecuencia de este resultado teórico, el grado de aproximación entre la distribución de \(R\) y la normal estándar límite es \(O (n^{-\frac{1}{2}})\). Sin embargo, puede razonarse fácilmente que este orden de aproximación mejorará cuando utilizamos el bootstrap uniforme, en lugar de la normal estándar, para aproximar la distribución de \(R\). Un desarrollo de Edgeworth para la distribución en el remuestreo de \(R^{\ast}\) permite obtener la siguiente expresión: \[\begin{aligned} P^{\ast}\left( R^{\ast}\leq u \right) &= \Phi \left( u \right) +n^{-\frac{1}{2} }\hat{p}_1\left( u \right) \phi \left( u \right) +\cdots +n^{-\frac{j-1}{2}} \hat{p}_{j-1}\left( u \right) \phi \left( u \right) \\ &+ O_{P}\left( n^{-\frac{j}{2}} \right), \end{aligned}\]

donde los polinomios \(\hat{p}_i\left( u \right)\) tienen la misma estructura que los \(p_i\left( u \right)\) pero reemplazando los cumulantes teóricos por los empíricos y la desviación típica teórica por la empírica. Así pues el grado de aproximación entre cada polinomio \(\hat{p}_i( u )\) y su análogo teórico \(p_i( u )\) es \(\hat{p}_i( u ) -p_i( u ) = O_{P}( n^{-\frac{1}{2}} )\). Como consecuencia, puede obtenerse el orden de aproximación entre la distribución en el muestreo de \(R\) y la distribución en el remuestreo de \(R^{\ast}\): \[\begin{aligned} P\left( R\leq u \right) -P^{\ast}\left( R^{\ast}\leq u \right) &= n^{-\frac{1}{ 2}}\left[ p_1\left( u \right) -\hat{p}_1\left( u \right) \right] \phi \left( u \right) +O_{P}\left( n^{-1} \right) \\ &= O_{P}\left( n^{-1} \right),\end{aligned}\]que es mejor que el orden de aproximación de la normal estándar límite. Dichos órdenes pueden resumirse en la siguiente tabla.

Aproximación	Orden
Normal límite	\(O\left( n^{-\frac{1}{2}} \right)\)
Boot. uniforme	\(O_{P}\left( n^{-1} \right)\)

Usando razonamiento similares pueden encontrarse los órdenes de aproximación, tanto de la normal límite, como del bootstrap uniforme y del bootstrap simetrizado, cuando la distribucional de partida es simétrica. En ese caso, \(p_1\left( u \right) =0\), ya que \(k_3\) es cero debido a la simetría de la distribución poblacional. Sin embargo \(\hat{p}_1\left( u \right)\) no es cero cuando se usa el bootstrap uniforme, aunque sí lo es en el caso del bootstrap simetrizado. La siguiente tabla recoge los órdenes de las distintas aproximaciones.

Aproximación	Orden
Normal límite	\(O\left( n^{-1} \right)\)
Boot. uniforme	\(O_{P}\left( n^{-1} \right)\)
Boot. simetrizado	\(O_{P}\left( n^{-\frac{3}{2}} \right)\)

El siguiente resultado permite generalizar los desarrollos de Edgeworth (Teorema 3.1) a otros estadísticos (estandarizados o studentizados) obtenidos para otros estimadores arbitrarios, \(\hat{\theta}\), no necesariamente iguales a la media muestral.

Teorema 3.2 (Bhattacharya-Ghosh)

Consideremos variables aleatorias \(X_1,X_2,\ldots ,X_n,\ldots\) independientes e idénticamente distribuidas procedentes de una distribución \(F\). Sea \(\theta =\theta \left( F \right)\) un parámetro de dicha distribución y \(\hat{\theta}\) un estimador de dicho parámetro. Supongamos además que\[\sqrt{n}\left( \hat{\theta}-\theta \right) \rightarrow \mathcal{N}\left( 0,\sigma _{\theta }^2 \right),\] en distribución. Entonces, bajo ciertas condiciones de regularidad (pueden verse en Bhattacharya y Ghosh, 1978) se tiene: \[\begin{aligned} P\left( \sqrt{n}\frac{\hat{\theta}-\theta }{\sigma _{\theta }}\leq u \right) = &\ \Phi \left( u \right) +n^{-\frac{1}{2}}p_1\left( u \right) \phi \left( u \right) +\cdots \\ & +n^{-\frac{j-1}{2}}p_{j-1}\left( u \right) \phi \left( u \right) +O\left( n^{-\frac{j}{2}} \right), \\ P\left( \sqrt{n}\frac{\hat{\theta}-\theta }{\hat{\sigma}_{\theta }}\leq u \right) = &\ \Phi \left( u \right) +n^{-\frac{1}{2}}q_1\left( u \right) \phi \left( u \right) +\cdots \\ & +n^{-\frac{j-1}{2}}q_{j-1}\left( u \right) \phi \left( u \right) +O\left( n^{-\frac{j}{2}} \right),\end{aligned}\]

siendo los \(p_i\left( u \right)\) y \(q_i\left( u \right)\) polinomios de grado \(3i-1\) con paridad alternada, es decir, \(p_1\) y \(q_1\) son simétricos, \(p_2\) y \(q_2\) son antisimétricos, \(p_3\) y \(q_3\) son simétricos y así sucesivamente.