2.2 Árboles de clasificación CART

En un problema de clasificación la variable respuesta puede tomar los valores \(1, 2, \ldots, K\), etiquetas que identifican las \(K\) categorías del problema. Una vez construido el árbol, se comprueba cuál es la categoría modal de cada región: considerando la muestra de entrenamiento, la categoría más frecuente. Dada una observación, se predice que pertenece a la categoría modal de la región a la que pertenece.

El resto del proceso es idéntico al de los árboles de regresión ya explicado, con una única salvedad: no podemos utilizar RSS como medida del error. Es necesario buscar una medida del error adaptada a este contexto. Fijada una región, vamos a denotar por \(\widehat p_{k}\), con \(k = 1, 2, \ldots, K\), a la proporción de observaciones (de la muestra de entrenamiento) en la región que pertenecen a la categoría \(k\). Se utilizan tres medidas distintas del error en la región:

  • Proporción de errores de clasificación: \[1 - max_{k} (\widehat p_{k})\]

  • Índice de Gini: \[\sum_{k=1}^K \widehat p_{k} (1 - \widehat p_{k})\]

  • Entropía17 (cross-entropy): \[- \sum_{k=1}^K \widehat p_{k} \text{log}(\widehat p_{k})\]

Aunque la proporción de errores de clasificación es la medida del error más intuitiva, en la práctica sólo se utiliza para la fase de poda. Fijémonos que en el cálculo de esta medida sólo interviene \(max_{k} (\widehat p_{k})\), mientras que en las medidas alternativas intervienen las proporciones \(\widehat p_{k}\) de todas las categorías. Para la fase de crecimiento se utilizan indistintamente el índice de Gini o la entropía. Cuando nos interesa el error no en una única región sino en varias (al romper un nodo en dos, o al considerar todos los nodos terminales), se suman los errores de cada región previa ponderación por el número de observaciones que hay en cada una de ellas.

En la introducción de este tema se comentó que los árboles de decisión admiten tanto variables predictoras numéricas como categóricas, y esto es cierto tanto para árboles de regresión como para árboles de clasificación. Veamos brevemente como se tratarían los predictores categóricos a la hora de incorporarlos al árbol. El problema radica en qué se entiende por hacer un corte si las categorías del predictor no están ordenadas. Hay dos soluciones básicas:

  • Definir variables predictoras dummy. Se trata de variables indicadoras, una por cada una de las categorías que tiene el predictor. Este criterio de uno contra todos tiene la ventaja de que estas variables son fácilmente interpretables, pero tiene el inconveniente de que puede aumentar mucho el número de variables predictoras.

  • Ordenar las categorías de la variable predictora. Lo ideal sería considerar todas las ordenaciones posibles, pero eso es desde luego poco práctico: el incremento es factorial. El truco consiste en utilizar un único órden basado en algún criterio greedy. Por ejemplo, si la variable respuesta \(Y\) también es categórica, se puede seleccionar una de sus categorías que resulte especialmente interesante y ordenar las categorías del predictor según su proporción en la categoría de \(Y\). Este enfoque no añade complejidad al modelo, pero puede dar lugar a resultados de difícil interpretación.

References

Shannon, C. E. (1948). A mathematical theory of communication. The Bell System Technical Journal, 27(3), 379-423. https://doi.org/10.2307/410457

  1. La entropía es un concepto básico de la teoría de la información (Shannon, 1948) y se mide en bits (cuando en la definición se utilizan \(log_2\)).↩︎