• Aprendizaje Estadístico
  • Prólogo
  • 1 Introducción al Aprendizaje Estadístico
    • 1.1 Aprendizaje Estadístico vs. Aprendizaje Automático
      • 1.1.1 Machine Learning vs. Data Mining
      • 1.1.2 Las dos culturas (Breiman, 2001b)
      • 1.1.3 Machine Learning vs. Estadística (Dunson, 2018)
    • 1.2 Métodos de Aprendizaje Estadístico
      • 1.2.1 Notación y terminología
      • 1.2.2 Métodos (de aprendizaje supervisado) y paquetes de R
    • 1.3 Construcción y evaluación de los modelos
      • 1.3.1 Equilibrio entre sesgo y varianza: infraajuste y sobreajuste
      • 1.3.2 Datos de entrenamiento y datos de test
      • 1.3.3 Validación cruzada
      • 1.3.4 Evaluación de un método de regresión
      • 1.3.5 Evaluación de un método de clasificación
    • 1.4 La maldición de la dimensionalidad
    • 1.5 Análisis e interpretación de los modelos
    • 1.6 Introducción al paquete caret
      • 1.6.1 Métodos implementados
      • 1.6.2 Herramientas
      • 1.6.3 Ejemplo
      • 1.6.4 Desarrollo futuro
  • 2 Árboles de decisión
    • 2.1 Árboles de regresión CART
    • 2.2 Árboles de clasificación CART
    • 2.3 CART con el paquete rpart
      • 2.3.1 Ejemplo: regresión
      • 2.3.2 Ejemplo: modelo de clasificación
      • 2.3.3 Interfaz de caret
    • 2.4 Alternativas a los árboles CART
      • 2.4.1 Ejemplo
  • 3 Bagging y Boosting
    • 3.1 Bagging
    • 3.2 Bosques aleatorios
    • 3.3 Bagging y bosques aleatorios en R
      • 3.3.1 Ejemplo: Clasificación con bagging
      • 3.3.2 Ejemplo: Clasificación con bosques aleatorios
      • 3.3.3 Ejemplo: bosques aleatorios con caret
    • 3.4 Boosting
    • 3.5 Boosting en R
      • 3.5.1 Ejemplo: clasificación con el paquete ada
      • 3.5.2 Ejemplo: regresión con el paquete gbm
      • 3.5.3 Ejemplo: XGBoost con el paquete caret
  • 4 Máquinas de soporte vectorial
    • 4.1 Clasificadores de máximo margen
    • 4.2 Clasificadores de soporte vectorial
    • 4.3 Máquinas de soporte vectorial
      • 4.3.1 Clasificación con más de dos categorías
      • 4.3.2 Regresión
      • 4.3.3 Ventajas e incovenientes
    • 4.4 SVM con el paquete kernlab
  • 5 Otros métodos de clasificación
    • 5.1 Análisis discriminate lineal
      • 5.1.1 Ejemplo MASS::lda
    • 5.2 Análisis discriminante cuadrático
      • 5.2.1 Ejemplo MASS::qda
    • 5.3 Naive Bayes
      • 5.3.1 Ejemplo e1071::naiveBayes
  • 6 Modelos lineales y extensiones
    • 6.1 Regresión lineal múltiple
      • 6.1.1 Ajuste: función lm
      • 6.1.2 Ejemplo
    • 6.2 El problema de la colinealidad
    • 6.3 Selección de variables explicativas
      • 6.3.1 Búsqueda exhaustiva
      • 6.3.2 Selección por pasos
    • 6.4 Análisis e interpretación del modelo
    • 6.5 Evaluación de la precisión
    • 6.6 Métodos de regularización
      • 6.6.1 Implementación en R
      • 6.6.2 Ejemplo: Ridge Regression
      • 6.6.3 Ejemplo: Lasso
      • 6.6.4 Ejemplo: Elastic Net
    • 6.7 Métodos de reducción de la dimensión
      • 6.7.1 Regresión por componentes principales (PCR)
      • 6.7.2 Regresión por mínimos cuadrados parciales (PLSR)
    • 6.8 Modelos lineales generalizados
      • 6.8.1 Ajuste: función glm
      • 6.8.2 Ejemplo: Regresión logística
      • 6.8.3 Selección de variables explicativas
      • 6.8.4 Análisis e interpretación del modelo
      • 6.8.5 Evaluación de la precisión
      • 6.8.6 Extensiones
  • 7 Regresión no paramétrica
    • 7.1 Regresión local
      • 7.1.1 Vecinos más próximos
      • 7.1.2 Regresión polinómica local
      • 7.1.3 Regresión polinómica local robusta
    • 7.2 Splines
      • 7.2.1 Regression splines
      • 7.2.2 Smoothing splines
      • 7.2.3 Splines penalizados
    • 7.3 Modelos aditivos
      • 7.3.1 Ajuste: función gam
      • 7.3.2 Ejemplo
      • 7.3.3 Superficies de predicción
      • 7.3.4 Comparación y selección de modelos
      • 7.3.5 Diagnosis del modelo
      • 7.3.6 GAM en caret
      • 7.3.7 Ejercicios
    • 7.4 Regresión spline adaptativa multivariante
      • 7.4.1 MARS con el paquete earth
      • 7.4.2 MARS con el paquete caret
    • 7.5 Projection pursuit
      • 7.5.1 Regresión por projection pursuit
      • 7.5.2 Implementación en R
  • 8 Redes neuronales
    • 8.1 Single-hidden-layer feedforward network
    • 8.2 Clasificación con ANN
    • 8.3 Implementación en R
  • Referencias
    • Bibliografía completa
  • Published with bookdown

Aprendizaje Estadístico

Aprendizaje Estadístico

Rubén Fernández Casal (ruben.fcasal@udc.es)

Julián Costa Bouzas (julian.costa@udc.es)

Manuel Oviedo de la Fuente (manuel.oviedo@udc.es)

Edición: Septiembre de 2021. Impresión: 2022-11-29

Prólogo

Este libro contiene los apuntes de la asignatura de Aprendizaje Estadístico del Máster en Técnicas Estadísticas.

Este libro ha sido escrito en R-Markdown empleando el paquete bookdown y está disponible en el repositorio Github: rubenfcasal/aprendizaje_estadistico. Se puede acceder a la versión en línea a través del siguiente enlace:

https://rubenfcasal.github.io/aprendizaje_estadistico.

donde puede descargarse en formato pdf.

Para ejecutar los ejemplos mostrados en el libro sería necesario tener instalados los siguientes paquetes: caret, rattle, gbm, car, leaps, MASS, RcmdrMisc, lmtest, glmnet, mgcv, np, NeuralNetTools, pdp, vivid, plot3D, AppliedPredictiveModeling, ISLR. Por ejemplo mediante los siguientes comandos:

pkgs <- c("caret", "rattle", "gbm", "car", "leaps", "MASS", "RcmdrMisc", 
          "lmtest", "glmnet", "mgcv", "np", "NeuralNetTools", "pdp", "vivid",
          "plot3D", "AppliedPredictiveModeling", "ISLR")

install.packages(setdiff(pkgs, installed.packages()[,"Package"]), dependencies = TRUE)
# Si aparecen errores (normalmente debidos a incompatibilidades con versiones ya instaladas), 
# probar a ejecutar en lugar de lo anterior:
# install.packages(pkgs, dependencies=TRUE) # Instala todos...

Para generar el libro (compilar) serán necesarios paquetes adicionales, para lo que se recomendaría consultar el libro de “Escritura de libros con bookdown” en castellano.

Este obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional (esperamos poder liberarlo bajo una licencia menos restrictiva más adelante…).