6.4 El Bootstrap en la selección del parámetro de suavizado.
6.4.1 Expresión asintótica de la ventana óptima
El \(MISE\) tiene una expresión asintótica que puede usarse como criterio para obtener un valor óptimo del parámetro de suavizado:\[MISE\left( h \right) =AMISE\left( h \right) +O\left( h^{6} \right) +O\left( \frac{h}{n} \right),\]con\[AMISE\left( h \right) =\frac{d_{K}^2}{4}h^{4}\int f^{\prime \prime }\left( x \right)^2dx+\frac{c_{K}}{nh}-\frac{1}{n}\int f\left( x \right)^2dx.\]El parámetro de suavizado que minimiza el \(AMISE\) es\[h_{AMISE}=\left( \frac{c_{K}}{nd_{K}^2\int f^{\prime \prime }\left( x \right)^2dx} \right)^{1/5}.\]
Existen multitud de métodos encaminados a dar respuesta al problema de selección del parámetro de suavizado. Entre ellos destacamos los métodos plug-in, los de validación cruzada (suavizada o no) y, desde luego, los métodos bootstrap (ver, por ejemplo, Marron (1992)).
6.4.2 Análogo bootstrap del \(MISE\)
La idea básica (Cao (1993)) consiste en diseñar un plan de remuestreo, del tipo bootstrap suavizado, para estimar el \(MISE\):
A partir de la muestra \(\left( X_1,X_2,\ldots ,X_n \right)\) y utilizando una ventana piloto \(g\), se calcula el estimador de Parzen-Rosenblatt \(\hat{f}_{g}\).
Se arrojan remuestras bootstrap \(\left( X_1^{\ast},X_2^{\ast },\ldots ,X_n^{\ast} \right)\) de la densidad \(\hat{f}_{g}\).
Para cada \(h>0\), se obtiene el análogo bootstrap del estimador de Parzen-Rosenblatt \[\hat{f}_{h}^{\ast}\left( x \right) =\frac{1}{nh}\sum_{i=1}^{n}K\left( \frac{ x-X_i^{\ast}}{h} \right).\]
Se construye la versión bootstrap del \(MISE\):\[MISE^{\ast}\left( h \right) =\int E^{\ast}\left[ \left( \hat{f}_{h}^{\ast }\left( x \right) -\hat{f}_{g}\left( x \right) \right)^2\right] dx.\]
Se minimiza \(MISE^{\ast}\left( h \right)\) en \(h>0\) y se obtiene el selector bootstrap: \[h_{MISE}^{\ast}=\arg \min_{h>0}MISE^{\ast}\left( h \right)\]
6.4.3 Expresión cerrada para \(MISE^{\ast}\)
A diferencia de lo que es habitual, en este contexto es posible obtener una expresión cerrada para el análogo bootstrap del \(MISE\): \[\begin{aligned} MISE^{\ast}\left( h \right) =&\ \int \left[ \left( K_{h}\ast \hat{f}_{g} \right) \left( x \right) -\hat{f}_{g}\left( x \right) \right]^2dx \\ &+\frac{c_{K}}{nh}-\frac{1}{n}\int \left[ \left( K_{h}\ast \hat{f}_{g} \right) \left( x \right) \right]^2dx \\ =&\ \frac{c_{K}}{nh}-\frac{1}{n^{3}}\sum_{i,j=1}^{n}\left[ \left( K_{h}\ast K_{g} \right) \ast \left( K_{h}\ast K_{g} \right) \right] \left( X_i-X_j \right) \\ &+\frac{1}{n^2}\sum_{i,j=1}^{n}\left[ \left( K_{h}\ast K_{g}-K_{g} \right) \ast \left( K_{h}\ast K_{g}-K_{g} \right) \right] \left( X_i-X_j \right).\end{aligned}\]
6.4.4 Elección de la ventana piloto
De nuevo ocurre que el problema de elección óptima de la ventana piloto, \(g\), viene ligado al de estimación óptima de la curvatura de la función de densidad. Así, una buena elección de \(g\) es la que minimiza\[E\left[ \left( \int \hat{f}_{g}^{\prime \prime }\left( x \right)^2dx-\int f^{\prime \prime }\left( x \right)^2dx \right)^2\right] .\]El valor asintótico de dicha ventana \(g\) es\[g_{0}=\left( \frac{\int K^{\prime \prime }\left( t \right)^2dt}{nd_{K}\int f^{\left( 3 \right)}\left( x \right)^2dx} \right)^{1/7}.\]
6.4.5 Resultados teóricos
Utilizando cualquier ventana piloto determinística que cumpla \(\frac{g-g_{0}}{g_{0}}=O\left( n^{-1/14} \right)\), se tiene \[\begin{aligned} \frac{h_{MISE}^{\ast}-h_{MISE}}{h_{MISE}} &= O_{P}\left( n^{-5/14} \right),\\ \frac{MISE\left( h_{MISE}^{\ast} \right) -MISE\left( h_{MISE} \right)}{ MISE\left( h_{MISE} \right)} &= O_{P}\left( n^{-5/7} \right). \end{aligned}\]
Mediante técnicas más sofisticadas que permiten que \(g\) dependa de \(h\) pueden obtenerse tasas ligeramente mejores:\[\frac{h_{MISE}^{\ast}-h_{MISE}}{h_{MISE}}=O_{P}\left( n^{-1/2} \right).\]
6.4.6 Caso particular de núcleo gaussiano
Cuando el núcleo \(K\) es la función de densidad de una \(\mathcal{N}\left( 0,1 \right)\):
\(K_{h}\) es la densidad de una \(\mathcal{N}\left( 0,h^2 \right)\)
\(K_{g}\) es la densidad de una \(\mathcal{N}\left( 0,g^2 \right)\)
\(K_{h}\ast K_{g}\) es la densidad de una \(\mathcal{N}\left( 0,h^2+g^2 \right)\)
\(\left( K_{h}\ast K_{g} \right) \ast \left( K_{h}\ast K_{g} \right)\) es la densidad de una \(\mathcal{N}\left( 0,2h^2+2g^2 \right)\)
\(\left( K_{h}\ast K_{g} \right) \ast K_{g}\) es la densidad de una \(\mathcal{N}\left( 0,h^2+2g^2 \right)\)
\(K_{g}\ast K_{g}\) es la densidad de una \(\mathcal{N}\left( 0,2g^2 \right)\)
con lo cual \[\begin{aligned} MISE^{\ast}\left( h \right) =&\ \frac{c_{K}}{nh}-\frac{1}{n^{3}} \sum_{i,j=1}^{n}K_{\sqrt{2h^2+2g^2}}\left( X_i-X_j \right) \\ &+\frac{1}{n^2}\sum_{i,j=1}^{n}\left[ K_{\sqrt{2h^2+2g^2}}\left( X_i-X_j \right) \right. \\ &\left. -2K_{\sqrt{h^2+2g^2}}\left( X_i-X_j \right) +K_{\sqrt{2g^2} }\left( X_i-X_j \right) \right] . \end{aligned}\]
6.4.7 Comparación con otros selectores
El método bootstrap presentado es muy semejante al de validación cruzada suavizada (SCV) propuesto por Hall, Marron y Park (1992). En estudios de simulación comparativos (ver Cao, Cuevas y González-Manteiga (1993)) puede verse como este método ofrece resultados muy competitivos con otros métodos de selección del parámetro de suavizado. En general es el que mejor comportamiento ofrece junto con el método plug-in tipo solve-the-equation de Sheather y Jones (1991) y el método SCV.
Otros selectores bootstrap con mucho peor comportamiento son:
Hall (1990), en el que se remuestrea de la distribución empírica, con lo cual no se imita el sesgo.
Faraway y Jhun (1990), que eligen \(g\) como la ventana de validación cruzada, que resulta ser demasiado pequeña.
Taylor (1989), que elige \(g=h\) , con lo cual \(MISE^{\ast}\left( h \right) \rightarrow 0\), cuando \(h\rightarrow \infty\), lo cual produce un mínimo global de \(MISE^{\ast}\) inconsistente con \(h_{MISE}\).