Capítulo 5 Otros métodos de clasificación

En los métodos de clasificación que hemos visto en los capítulos anteriores, uno de los objetivos era estimar la probabilidad a posteriori \(P(Y = k | \mathbf{X}=\mathbf{x})\) de que la observación \(\mathbf{x}\) pertenezca a la categoría \(k\), pero en ningún caso nos preocupábamos por la distribución de las variables predictoras. En la terminología de ML estos métodos se conocen con el nombre de discriminadores (discriminative methods). Otro ejemplo de método discriminador es la regresión logística.

En este capítulo vamos a ver métodos que reciben el nombre genérico de métodos generadores (generative methods). Se caracterizan porque calculan las probabilidades a posteriori utilizando la distribución conjunta de \((\mathbf{X}, Y)\) y el teorema de Bayes: \[P(Y = k | \mathbf{X}=\mathbf{x}) = \frac{P(Y = k) f_k(\mathbf{x})}{\sum_{l=1}^K P(Y = l) f_l(\mathbf{x})}\] donde \(f_k(\mathbf{x})\) es la función de densidad del vector aleatorio \(\mathbf{X}=(X_1, X_2, \ldots, X_p)\) para una observación perteneciente a la clase \(k\), es decir, es una forma abreviada de escribir \(f(\mathbf{X}=\mathbf{x} | Y = k)\). En la jerga bayesiana a esta función se la conoce como verosimilitud (es la función de verosimilitud sin más que considerar que la observación muestral \(\mathbf{x}\) es fija y la variable es \(k\)) y resumen la fórmula anterior como \[posterior \propto prior \times verosimilitud\]

Una vez estimadas las probabilidades a priori \(P(Y = k)\) y las densidades (verosimilitudes) \(f_k(\mathbf{x})\), tenemos las probabilidades a posteriori. Para estimar las funciones de densidad se puede utilizar un método paramétrico o un método no paramétrico. En el primer caso, lo más habitual es modelizar la distribución del vector de variables predictoras como normales multivariantes.

A continuación vamos a ver tres casos particulares de este enfoque, siempre suponiendo normalidad.