Capítulo 7 Regresión no paramétrica

Bajo la denominación regresión no paramétrica se incluyen todos aquellos métodos que no presuponen ninguna forma concreta de la media condicional (i. e. no se hacen suposiciones paramétricas sobre el efecto de las variables explicativas): \[Y=m\left( X_1, \ldots, X_p \right) + \varepsilon\] siendo \(m\) una función “cualquiera” (se asume que es una función “suave” de los predictores).

La idea detrás de la mayoría de estos métodos consiste en ajustar localmente un modelo de regresión (este capítulo se podría haber titulado modelos locales): suponiendo que disponemos de “suficiente” información en un entorno de la posición de predicción (para lo cual el número de observaciones debe ser relativamente grande), el objetivo es predecir la respuesta a partir de lo que ocurre en las observaciones cercanas.

En este capítulo nos centraremos principalmente en el caso de regresión, aunque la mayoría de los métodos no paramétricos se pueden extender para el caso de clasificación. Para ello se podría, por ejemplo, considerar una función de enlace y realizar el ajuste localmente utilizando máxima verosimilitud.

Los métodos de regresión basados en árboles de decisión, bosques aleatorios, bagging, boosting y máquinas de soporte vectorial, vistos en capítulos anteriores, entrarían también dentro de la categoría de métodos no paramétricos.