Capítulo 9 Métodos de remuestreo
Un par de notas:
Etimología: se denomina bootstrap a la cinta de la bota (oreja lateral o trasera para ayudar a calzarse las botas).
Modismo anglosajón: “to pull oneself up by one’s bootstraps”, que podríamos traducir como resolver un problema con medios propios, sin la ayuda de otros. Se cree que esta frase está basada en un libro del siglo XVIII:
“The Baron had fallen to the bottom of a deep lake. Just when it looked like all was lost, he thought to pick himself up by his own bootstraps”.
— Raspe, Rudolph Erich (The Surprising Adventures of Baron Munchausen, 1785)
El bootstrap es un procedimiento estadístico que sirve para aproximar características de la distribución en el muestreo de un estadístico. Para ello se emplea (normalmente) simulación, generando un gran número de muestras mediante algún tipo de remuestreo de la muestra original.
Su ventaja principal es que no requiere hipótesis sobre el mecanismo generador de los datos (aunque los resultados asintóticos requieren de hipótesis generales). Por lo que son de especial utilidad cuando no se dispone la distribución exacta del estadístico y no es posible o adecuado emplear la distribución asintótica.
En este capítulo se incluye una breve introducción al bootstrap desde un punto de vista aplicado. Para información adicional, inluyendo resultados teóricos, ver por ejemplo Davison y Hinkley (1997) o Cao y Fernández-Casal (2020).
En este libro nos centraremos principalmente en los métodos de remuestreo bootstrap, aunque hay otros tipos de remuestreo como el jackknife, para la aproximación del sesgo y varianza de un estimador (ver Sección 2.2 de Cao y Fernández-Casal, 2020), o los empleados en contrastes de permutaciones (ver Sección 5.3 de Cao y Fernández-Casal, 2020).
En los siguientes capítulos se tratarán algunas de las principales aplicaciones de los métodos bootstrap. Entre ellas podríamos destacar:
Aproximación del sesgo y de la varianza de un estimador.
Construcción de intervalos de confianza.
Contraste de hipótesis.
También la simulación (condicional) de nuevas observaciones o la estimación de la probabilidad de superar un determinado umbral (probabilidad de riesgo).