Capítulo 1 Introducción al Aprendizaje Estadístico

La denominada Ciencia de Datos (Data Science; también denominada Science of Learning) se ha vuelto muy popular hoy en día. Se trata de un campo multidisciplicar, con importantes aportaciones estadísticas e informáticas, dentro del que se incluirían disciplinas como Minería de Datos (Data Mining), Aprendizaje Automático (Machine Learning), Aprendizaje Profundo (Deep Learning), Modelado Predictivo (Predictive Modeling), Extracción de Conocimiento (Knowlegde Discovery) y también el Aprendizaje Estadístico (Statistical Learning).

Podríamos definir la Ciencia de Datos como el conjunto de conocimientos y herramientas utilizados en las distintas etapas del análisis de datos (ver Figura 1.1). Otras definiciones podrían ser:

  • El arte y la ciencia del análisis inteligente de los datos.

  • El conjunto de herramientas para entender y modelizar conjuntos (complejos) de datos.

  • El proceso de descubrir patrones y obtener conocimiento a partir de grandes conjuntos de datos (Big Data).

Aunque esta ciencia incluiría también la gestión (sin olvidarnos del proceso de obtención) y la manipulación de los datos.

Etapas en el análisis de datos.

Figura 1.1: Etapas en el análisis de datos.

Una de estas etapas (que están interrelacionadas) es la construcción de modelos a partir de los datos para aprender y predecir. Podríamos decir que el Aprendizaje Estadístico (AE) se encarga de este problema desde el punto de vista estadístico.

En Estadística se consideran modelos estocásticos (con componente aleatoria), para tratar de tener en cuenta la incertidumbre debida a que no se disponga de toda la información sobre las variables que influyen en el fenómeno de interés. Esto es lo que se conoce como aleatoriedad aparente:

“Nothing in Nature is random… a thing appears random only through the incompleteness of our knowledge.”

— Spinoza, Baruch (Ethics, 1677)

Aunque hoy en día gana peso la idea de la física cuántica de que en el fondo hay una aleatoriedad intrínseca:

“To my mind, although Spinoza lived and thought long before Darwin, Freud, Einstein, and the startling implications of quantum theory, he had a vision of truth beyond what is normally granted to human beings.”

— Shirley, Samuel (Complete Works, 2002). Traductor de la obra completa de Spinoza al inglés.

La Inferencia Estadística proporciona herramientas para ajustar este tipo de modelos a los datos observados (seleccionar un modelo adecuado, estimar sus parámetros y contrastar su validez). Sin embargo, en la aproximación estadística clásica como primer objetivo se trata de explicar por completo lo que ocurre en la población y suponiendo que esto se puede hacer con modelos tratables analíticamente, emplear resultados teóricos (típicamente resultados asintóticos) para realizar inferencias (entre ellas la predicción). Los avances en computación han permitido el uso de modelos estadísticos más avanzados, principalmente métodos no paramétricos, muchos de los cuales no pueden ser tratados analíticamente (por lo menos no por completo o no inicialmente), este es el campo de la Estadística Computacional1. Desde este punto de vista, el AE se enmarcaría dentro del campo de la Estadística Computacional.

Cuando pensamos en AE pensamos en:

  • Flexibilidad (hay menos suposiciones sobre los datos).

  • Procesamiento automático de datos.

  • Big Data (en el sentido amplio, donde “big” puede hacer referencia a datos complejos).

  • Predicción.

Por el contrario, muchos de los métodos del AE no se preocupan (o se preocupan poco) por:

  • Reproducibilidad/repetibilidad.

  • Cuantificación de la incertidumbre (en términos de probabilidad).

  • Inferencia.

La idea es “dejar hablar a los datos” y no “encorsetarlos” a priori, dándoles mayor peso que a los modelos. Sin embargo, esta aproximación puede presentar diversos inconvenientes:

  • Algunos métodos son poco interpretables (se sacrifica la interpretabilidad por la precisión de las predicciones).

  • Pueden aparecer problemas de sobreajuste (overfitting; en los métodos estadísticos clásicos es más habitual que aparezcan problemas de infraajuste, underfitting).

  • Pueden presentar más problemas al extrapolar o interpolar (en comparación con los métodos clásicos).

References

Lauro, C. (1996). Computational statistics or statistical computing, is that the question? Computational Statistics & Data Analysis, 23(1), 191-193. https://doi.org/10.1016/0167-9473(96)88920-1

  1. Lauro (1996) definió la Estadística Computacional como la disciplina que tiene como objetivo “diseñar algoritmos para implementar métodos estadísticos en computadoras, incluidos los impensables antes de la era de las computadoras (por ejemplo, bootstrap, simulación), así como hacer frente a problemas analíticamente intratables”.↩︎