7.1 Estimador de Nadaraya-Watson

La función de regresión \(m\left( x \right) =E\left( \left. Y\right\vert_{X=x} \right)\) puede escribirse así: \[\begin{aligned} m\left( x \right) &= \int yf_{2|1}\left( \left. y\right\vert _{x} \right) dy=\int y\frac{f\left( x,y \right)}{f_1\left( x \right)}dy=\frac{\int yf\left( x,y \right) dy}{f_1\left( x \right)} \\ &= \frac{\int yf_{1|2}\left( \left. x\right\vert _{y} \right) f_2\left( y \right) dy}{f_1\left( x \right)}=\frac{\Psi \left( x \right)}{f_1\left( x \right)}, \end{aligned}\] siendo \(f_1\left( x \right)\) la función de densidad marginal de \(X\) y \[\Psi \left( x \right) =\int yf_{1|2}\left( \left. x\right\vert _{y} \right) f_2\left( y \right) dy=E\left( Yf_{1|2}\left( \left. x\right\vert_{Y} \right) \right).\]

Las funciones \(\Psi \left( x \right)\) y \(f_1\left( x \right)\) pueden estimarse mediante el método núcleo: \[\begin{aligned} \hat{f}_{1,h}\left( x \right) &= \frac{1}{nh}\sum_{i=1}^{n}K\left( \frac{ x-X_i}{h} \right), \\ \hat{\Psi}_{h}\left( x \right) &= \frac{1}{nh}\sum_{i=1}^{n}K\left( \frac{ x-X_i}{h} \right) Y_i, \end{aligned}\] resultando así el estimador tipo núcleo de Nadaraya-Watson (ver Nadaraya (1964) y Watson (1964)): \[\hat{m}_{h}\left( x \right) =\frac{\hat{\Psi}_{h}\left( x \right)}{\hat{f} _{1,h}\left( x \right)}=\frac{\frac{1}{n}\sum_{i=1}^{n}K_{h}\left( x-X_i \right) Y_i}{\frac{1}{n}\sum_{i=1}^{n}K_{h}\left( x-X_i \right)},\] donde \(K_{h}\left( x-X_i \right) =\frac{1}{h}K\left( \frac{x-X_i}{h} \right)\).

Para este estimador se pueden probar propiedades semejantes a las mencionadas para el estimador de Parzen-Rosenblatt de la función de densidad.

En esta sección se presentarán métodos de remuestreo bootstrap adecuados para el contexto de la función de regresión. El objetivo es aproximar la distribución en el muestreo del estimador de Nadaraya-Watson. Los resultados reflejan el comportamiento de los métodos de remuestreo bootstrap, tanto en un aspecto condicional a la muestra de la variable explicativa como incondicionalmente.

7.1.1 Distribución asintótica del estimador de Nadaraya-Watson

Antes de proceder a abordar el bootstrap en este contexto conviene presentar la distribución asintótica del estimador de Nadaraya-Watson, dado por \[\hat{m}_{h}\left( x \right) =\frac{\frac{1}{n}\sum_{i=1}^{n}K_{h}\left( x-X_i \right) Y_i}{\frac{1}{n}\sum_{i=1}^{n}K_{h}\left( x-X_i \right)}.\]

De forma semejante al caso de la densidad, puede comprobarse que las condiciones mínimas necesarias para la consistencia del estimador, en términos del parámetro de suavizado, son \(h\rightarrow 0\), \(nh\rightarrow \infty\), cuando \(n\rightarrow \infty\). En tales circunstancias se tiene \[\sqrt{nh}\left( \hat{m}_{h}\left( x \right) -m\left( x \right) \right) \overset {d}{\rightarrow }\mathcal{N}\left( B,V \right) \text{.}\]

Además, puede probarse que el valor asintóticamente óptimo de \(h\), en el sentido del \(MSE\), es de la forma \(h=c_{0}n^{-1/5}\). En tal caso, los valores de media y varianza de la distribución normal límite son \[\begin{aligned} B &= \frac{1}{2}c_{0}^{5/2}d_{K}\frac{m^{\prime \prime }\left( x \right) f\left( x \right) +2m^{\prime}\left( x \right) f^{\prime}\left( x \right)}{ f\left( x \right)}, \\ V &= c_{K}\frac{\sigma^2\left( x \right)}{f\left( x \right)}, \end{aligned}\] siendo \(f\left( x \right)\) la función de densidad marginal de \(X\) y \(\sigma^2\left( x \right) =Var\left( \left. Y\right\vert _{X=x} \right)\) la varianza condicional de \(Y\) dado \(X=x\).

Al igual que en el caso de la densidad, para utilizar la distribución asintótica anterior en la construcción de intervalos de confianza para \(m\left( x \right)\) podemos

Estimar \(B\) y \(V\) y utilizarlos en la correspondiente distribución normal (metodo plug-in).
Diseñar un plan de remuestreo y utilizar el método bootstrap.

7.1.2 Órdenes de convergencia de la distribución del estimador de Nadaraya-Watson a su distribución asintótica

Los órdenes de convergencia de la aproximación de la distribución (condicional o incondicional) del estadístico a la distribución normal límite vienen dados por: \[\begin{aligned} \sup_{z\in \boldsymbol{R}}\left\vert P^{\left. Y\right\vert _{X}}\left[ \sqrt{nh}\left( \hat{m}_{h}\left( x \right) -m\left( x \right) \right) \leq z \right] -\Phi \left( \frac{z-B}{V^{1/2}} \right) \right\vert &= O_{P}\left( n^{-1/5} \right), \\ \sup_{z\in \boldsymbol{R}}\left\vert P\left[ \sqrt{nh}\left( \hat{m} _{h}\left( x \right) -m\left( x \right) \right) \leq z\right] -\Phi \left( \frac{z-B}{V^{1/2}} \right) \right\vert &= O\left( n^{-2/5} \right), \end{aligned}\] donde \(P^{\left. Y\right\vert_{X}}\left( A \right)\) denota \(P\left( \left. A \right\vert_{X_1,X_2,\ldots ,X_n} \right)\).

7.1.3 Aproximación plug-in

Consiste en estimar \(B\) y \(V\) mediante estimadores apropiados de \(f\left(x \right)\), \(f^{\prime}\left( x \right)\), \(m\left( x \right)\), \(m^{\prime}\left( x \right)\), \(m^{\prime \prime }\left( x \right)\) y \(\sigma^2\left( x \right)\). Usando, para cada una de estas seis curvas, selectores de los parámetros de suavizado encaminados a aproximar las ventanas óptimas para cada una de ellas (proceso bastante laborioso), pueden obtenerse estimadores del sesgo, \(\hat{B}\), y la varianza, \(\hat{V}\), que cumplen \(\hat{B}-B=O_{P}\left( n^{-2/9} \right)\) y \(\hat{V}-V=O_{P}\left( n^{-2/5} \right)\). Como consecuencia se tienen los siguientes órdenes de convergencia (condicional e incondicional) para la aproximación plug-in: \[\begin{aligned} \sup_{z\in \boldsymbol{R}}\left\vert P^{\left. Y\right\vert _{X}}\left[ \sqrt{nh}\left( \hat{m}_{h}\left( x \right) -m\left( x \right) \right) \leq z \right] -\Phi \left( \frac{z-\hat{B}}{\hat{V}^{1/2}} \right) \right\vert &= O_{P}\left( n^{-1/5} \right), \\ \sup_{z\in \boldsymbol{R}}\left\vert P\left[ \sqrt{nh}\left( \hat{m} _{h}\left( x \right) -m\left( x \right) \right) \leq z\right] -\Phi \left( \frac{z-\hat{B}}{\hat{V}^{1/2}} \right) \right\vert &= O_{P}\left( n^{-2/9} \right). \end{aligned}\] que iguala y empeora, respectivamente, la tasa teórica de la aproximación normal límite (ver Cao (1991)).