6.3 Aproximación Bootstrap de la distribución del estimador de Parzen-Rosenblatt

Antes de proceder a abordar el bootstrap en este contexto conviene presentar la distribución asintótica del estimador y otras aproximaciones posibles. Pueden encontrarse más detalles sobre estos resultados en Cao (1990).

6.3.1 Distribución asintótica del estimador de Parzen-Rosenblatt

Las condiciones mínimas necesarias para que el sesgo y la varianza del estimador tiendan a cero cuando el tamaño muestral tiende a infinito son \(h\rightarrow 0\), \(nh\rightarrow \infty\). En tales circunstancias se tiene \[\sqrt{nh}\left( \hat{f}_{h}\left( x \right) -f\left( x \right) \right) \overset{d}{\rightarrow} \mathcal{N}\left( B,V \right).\] Además, puede probarse que el valor asintóticamente óptimo de \(h\), en el sentido del \(MSE\), es \(h=c_{0}n^{-1/5}\), con \[c_{0}=\left( \frac{c_{K}f\left( x \right)}{d_{K}^2f^{\prime \prime }\left(x \right)^2} \right)^{1/5}.\]

Con esa elección de \(h\) los valores de media y varianza de la distribución normal límite son\[\begin{aligned} B &= \frac{1}{2}c_{0}^{5/2}d_{K}f^{\prime \prime }\left( x \right), \\ V &= c_{K}f\left( x \right).\end{aligned}\]

Para utilizar la distribución asintótica anterior en la construcción de intervalos de confianza para \(f\left( x \right)\) podemos

  1. Estimar \(B\) y \(V\) y utilizarlos en la correspondiente distribución normal (metodo plug-in).

  2. Diseñar un plan de remuestreo y utilizar el método bootstrap.

6.3.2 Aproximación plug-in

Pasa por estimar \(B\) y \(V\) mediante\[\begin{aligned} \hat{B} &= \frac{1}{2}\hat{c}_{0}^{5/2}d_{K}\hat{f}_{g}^{\prime \prime }\left( x \right), \\ \hat{V} &= c_{K}\hat{f}_{h}\left( x \right),\end{aligned}\]siendo \(g\) una ventana adecuada para estimar la derivada segunda de la función de densidad. Utilizando la desigualdad de Berry-Esséen se obtiene el siguiente orden de convergencia:\[\sup_{z\in \boldsymbol{R}}\left\vert P\left[ \sqrt{nh}\left( \hat{f} _{h}\left( x \right) -f\left( x \right) \right) \leq z\right] -\Phi \left( \frac{z-\hat{B}}{\hat{V}^{1/2}} \right) \right\vert =O_{P}\left( n^{-1/5} \right),\]

que empeora la tasa teórica de la aproximación normal basada en la media y varianza exactas (\(B_n=E\left[ \sqrt{nh}\left( \hat{f}_{h}\left( x \right) -f\left( x \right) \right) \right]\) y \(V_n=Var\left[ \sqrt{nh} \left( \hat{f}_{h}\left( x \right) -f\left( x \right) \right) \right]\)): \[\sup_{z\in \boldsymbol{R}}\left\vert P\left[ \sqrt{nh}\left( \hat{f} _{h}\left( x \right) -f\left( x \right) \right) \leq z\right] -\Phi \left( \frac{z-B_n}{V_n^{1/2}} \right) \right\vert =O\left( n^{-2/5} \right),\] aunque no la de la normal asintótica, \(\mathcal{N}\left( B,V \right)\), cuya tasa es igualmente de orden \(O_{P}\left( n^{-1/5} \right)\).

6.3.3 Aproximación bootstrap

Se procede según el siguiente plan de remuestreo.

  1. A partir de la muestra \(\left( X_1,X_2,\ldots ,X_n \right)\) y utilizando una ventana piloto \(g\), se calcula el estimador de Parzen-Rosenblatt \(\hat{f}_{g}\).

  2. Se arrojan remuestras bootstrap \(\left( X_1^{\ast},X_2^{\ast },\ldots ,X_n^{\ast} \right)\) a partir de la densidad \(\hat{f}_{g}\).

  3. Se construye el análogo bootstrap del estimador de Parzen-Rosenblatt \[\hat{f}_{h}^{\ast}\left( x \right) =\frac{1}{nh}\sum_{i=1}^{n}K\left( \frac{ x-X_i^{\ast}}{h} \right).\]

  4. Se aproxima la distribución en el muestreo de \(\sqrt{nh}\left( \hat{f}_{h}\left( x \right) -f\left( x \right) \right)\) por la distribución en el remuestreo de \(\sqrt{nh}\left( \hat{f}_{h}^{\ast}\left( x \right) - \hat{f}_{g}\left( x \right) \right)\).

Si nuestro interés estuviese en el sesgo o la varianza de \(\hat{f} _{h}\left( x \right)\) entonces utilizaríamos, en el paso 4 del algoritmo anterior, los análogos bootstrap del sesgo o la varianza: \(E^{\ast}\left( \hat{f}_{h}^{\ast }\left( x \right) -\hat{f}_{g}\left( x \right) \right)\) o \(Var^{\ast}\left( \hat{f}_{h}^{\ast}\left( x \right) \right)\).

En el algoritmo anterior, la ventana \(g\) ha de ser asintóticamente mayor que \(h\). De hecho, una elección razonable para \(g\) es aquella que minimiza \(E\left[ \left( \hat{f}_{g}^{\prime \prime }\left( x \right) -f^{\prime \prime }\left( x \right) \right)^2\right]\). Asintóticamente esa ventana viene dada por \[g\simeq \left( \frac{5f\left( x \right) \int K^{\prime \prime }\left( t \right)^2dt}{d_{K}^2f^{\left( 4 \right)}\left( x \right)^2n} \right)^{1/9}.\]

El orden de convergencia de para la aproximación bootstrap viene dado por \[\begin{aligned} &\sup_{z\in \boldsymbol{R}}\left\vert P\left[ \sqrt{nh}\left( \hat{f} _{h}\left( x \right) -f\left( x \right) \right) \leq z\right] -P^{\ast}\left[ \sqrt{nh}\left( \hat{f}_{h}^{\ast}\left( x \right) -\hat{f}_{g}\left( x \right) \right) \leq z\right] \right\vert \\ &= O_{P}\left( n^{-2/9} \right),\end{aligned}\]que mejora los ofrecidos por la aproximación normal teórica y el método plug-in.