3.2 Bootstrap simetrizado

Supongamos que conocemos que la función de distribución poblacional es simétrica entorno a cierto valor. Eso significa que existe un valor \(c\) tal que \(F\left( c-h \right) =1-F\left( c+h \right)\) para todo \(h>0\). Equivalentemente, una variable aleatoria es simétrica entorno a \(c\) si su función de distribución verifica \[F\left( x \right) = 1 - F\left( 2c - x \right)\] para todo \(x\in \mathbb{R}\). Puede demostrarse que dicho centro de simetría, \(c\), ha de ser la media de la distribución, \(\mu\), en caso de que exista. Esa información (la simetría) sobre la distribución poblacional también se debe incorporarse en el bootstrap. Así, para estimar la función de distribución poblacional, \(F\), supuesto que es simétrica entorno a \(\mu\), es razonable utilizar una versión simetrizada de la distribución empírica, \(F_n^{sim}\). Ese estimador empírico simetrizado de la función de distribución es el que otorga igual masa de probabilidad a una muestra artificialmente construida simetrizando, alrededor de la media muestral, la muestra original:

\[Y_i=\left\{ \begin{array}{ll} X_i & \text{si } i=1,\ldots ,n \\ 2\bar{X}-X_{i-n} &\text{si } i=n+1,\ldots ,2n \end{array} \right.\]

con lo cual \[F_n^{sim}\left( x \right) =\frac{1}{2n}\sum_{i=1}^{2n}\mathbf{1}\left( Y_i\leq x \right).\] Puede demostrarse fácilmente que \[F_n^{sim}\left( x \right) =\frac{1}{2}\left( F_n\left( x \right) +1-F_n\left( 2\bar{X}-x \right) \right).\]

Al diseñar el plan de remuestreo debemos utilizar \(F_n^{sim}\) (bootstrap simetrizado), en lugar de \(F_n\) (bootstrap uniforme).

  1. Para cada \(i=1,\ldots ,n\) arrojar \(X_i^{\ast}\) a partir de \(F_n^{sim}\), es decir \(P^{\ast}\left( X_i^{\ast}=Y_j \right) =\frac{1 }{2n}\), \(j=1,\ldots ,2n\)

  2. Obtener \(\mathbf{X}^{\ast}=\left( X_1^{\ast},\ldots ,X_n^{\ast} \right)\)

  3. Calcular \(R^{\ast}=R\left( \mathbf{X}^{\ast},F_n^{sim} \right)\)

Como veremos más adelante, a veces (muy poco frecuentemente) es posible calcular exactamente la distribución bootstrap de \(R^{\ast}\). Cuando eso no es posible, esa distribución es fácilmente aproximable por Monte Carlo, arrojando una gran cantidad, \(B\), de réplicas de \(R^{\ast}\). En ese caso, el algoritmo se convierte en:

  1. Para cada \(i=1,\ldots ,n\) arrojar \(X_i^{\ast}\) a partir de \(F_n^{sim}\)

  2. Obtener \(\mathbf{X}^{\ast}=\left( X_1^{\ast},\ldots ,X_n^{\ast} \right)\)

  3. Calcular \(R^{\ast}=R\left( \mathbf{X}^{\ast},F_n^{sim} \right)\)

  4. Repetir \(B\) veces los pasos 1-3 para obtener las réplicas bootstrap \(R^{\ast (1)}\), \(\ldots\), \(R^{\ast (B)}\)

  5. Utilizar esas réplicas bootstrap para aproximar la distribución en el muestreo de \(R\)

Para llevar a cabo el paso 1 podemos proceder de dos formas equivalentes. La primera consiste en definir explícitamente la muestra simetrizada en torno a la media, \(\mathbf{Y}\), y luego obtener uno de los valores de dicha muestra con equiprobabilidad. El paso 1 quedaría de la siguiente forma:

  1. Para cada \(i=1,\ldots ,n\) arrojar \(U_i\sim \mathcal{U}\left( 0,1 \right)\) y hacer \(X_i^{\ast}=Y_{\left\lfloor 2nU_i\right\rfloor +1}\)

Alternativamente podemos proceder con el paso 1 utilizando el hecho de que la función de distribución \(F_n^{sim}\left( x \right)\) resultar ser la distribución de una variable aleatoria obtenida en dos etapas: en la primera etapa se genera un valor según la empírica, \(F_n\left( x \right)\), y en la segunda se decide (con equiprobabilidad) si el valor obtenido no se altera o bien si se refleja alrededor de la media muestral, \(\bar{X}\) (equivalentemente, la distribución simetrizada es una mixtura de la distribución empírica \(F_n\left( x \right)\) y de su versión “reflejada” \(1-F_n\left( 2\bar{X}-x \right)\) y se puede simular mediante el método de composición; ver p.e. Fernández-Casal y Cao, 2020, Sección 5.4). Así el paso 1 resulta:

  1. Para cada \(i=1,\ldots ,n\) arrojar \(U_i,V_i\sim \mathcal{U}\left( 0,1 \right)\). Si \(V_i\leq \frac{1}{2}\) entonces hacer \(X_i^{\ast}=X_{\left\lfloor nU_i\right\rfloor +1}\) y en caso contrario hacer \(X_i^{\ast}=2\overline{X }-X_{\left\lfloor nU_i\right\rfloor +1}\)

La utilización de \(F_n^{sim}\left( x \right)\) en lugar de \(F_n\left( x \right)\) altera las propiedades conocidas de la distribución (empírica) de la que se remuestrea en el bootstrap uniforme. Así, en primer lugar, \(F_n^{sim}\left( x \right)\) es simétrica (como se desea) con lo cual todos los momentos impares de esta distribución con respecto a \(\bar{X}\) son cero. En particular la media de \(F_n^{sim}\left(x \right)\) es \[\begin{aligned} \int x~dF_n^{sim}\left( x \right) &= \frac{1}{2n}\sum_{i=1}^{2n}Y_i=\frac{ 1}{2n}\left[ \sum_{i=1}^{n}X_i+\sum_{i=1}^{n}\left( 2\bar{X} -X_i \right) \right] \\ &= \frac{1}{2n}\left( n\bar{X}+2n\bar{X}-n\bar{X} \right) = \bar{X}.\end{aligned}\] También se conservan los momentos centrales de orden par:

\[\begin{aligned} \int \left( x-\bar{X} \right)^{2k}~dF_n^{sim}\left( x \right) &= \frac{ 1}{2n}\sum_{i=1}^{2n}\left( Y_i-\bar{X} \right)^{2k} \\ &= \frac{1}{2n}\left[ \sum_{i=1}^{n}\left( X_i-\bar{X} \right) ^{2k}+\sum_{i=1}^{n}\left[ \left( 2\bar{X}-X_i \right) -\bar{X} \right]^{2k}\right] \\ &= \frac{1}{2n}\left[ \sum_{i=1}^{n}\left( X_i-\bar{X} \right) ^{2k}+\sum_{i=1}^{n}\left( \bar{X}-X_i \right)^{2k}\right] \\ &= \frac{1}{n}\sum_{i=1}^{n}\left( X_i-\bar{X} \right)^{2k}. \end{aligned}\]

En particular, la varianza de \(F_n^{sim}\left( x \right)\) coincide con la de \(F_n\left( x \right)\), que es \(S_n^2\).

En general, cuando la distribución de partida es simétrica, es más adecuado utilizar el bootstrap simetrizado que el bootstrap uniforme. Aún así, cuando se realiza inferencia sobre algún estadístico (como \(\sqrt{n}(\bar{X}-\mu)/\sigma\)) cuya distribución asintótica ya es simétrica (como la normal), la aproximación bootstrap uniforme para distribuciones de partida simétricas, ya es especialmente buena y, por tanto, la ganancia del bootstrap simétrizado aporta una mejora difícil de detectar en la práctica. Ese no es el caso de otros estadísticos (como los asociados a inferencia sobre la varianza) con distribución más alejada de la simetría.

Ejercicio 3.1 (Inferencia sobre la media con varianza conocida empleando bootstrap simetrizado) Modificar adecuadamente el código del Ejemplo 1.1, para implementar un método bootstrap simetrizado, con el objeto de calcular un intervalo de confianza para la media con desviación típica conocida. Qué diferencias se observan entre los intervalos obtenidos por el bootstrap uniforme y por el simetrizado?