8.2 Clasificación con ANN

En un problema de clasificación con dos categorías, si se emplea una variable binaria para codificar la respuesta, bastará con considerar una función logística como función de activación en el nodo final (de esta forma se estará estimando la probabilidad de éxito). En el caso general, en lugar de construir un único modelo \(m(\mathbf{x})\), se construyen tantos como categorías, aunque habrá que seleccionar una función de activación adecuada en los nodos finales, típicamente la función softmax (ver Sección 1.2.1).

Por ejemplo, en el caso de una single-hidden-layer feedforward network, para cada categoría \(i\), se construye el modelo \(T_i\) como ya se explicó antes \[T_i(\mathbf{x}) = \gamma_{0i} + \gamma_{1i} h_1 + \gamma_{2i} h_2 + \ldots + \gamma_{Mi} h_M \] y a continuación se transforman los resultados de los \(k\) modelos para obtener estimaciones válidas de las probabilidades \[m_i(\mathbf{x}) = \tilde{\phi}_i (T_1(\mathbf{x}), T_2(\mathbf{x}),\ldots, T_k(\mathbf{x})) \] donde \(\tilde{\phi}_i\) es la función softmax \[\tilde{\phi}_i (s_1,s_2,\ldots,s_k) = \frac{e^{s_i}}{\sum_{j=1}^k e^{s_j}}\]

Como criterio de error se suele utilizar la entropía, aunque se podrían considerar otros. Desde este punto de vista, la regresión logística (multinomial) sería un caso particular.