10.6 Recorte y redondeo

10.6.1 Recorte de pesos extremos

Un inconveniente que se genera debido a la multitud de ajustes en los factores de expansión es que, si bien el estimador resultante tendrá un sesgo cercano a cero, la distribución de los pesos puede mostrar datos extremos, sobre todo a la derecha de la distribución (valores muy grandes), que hacen que la varianza del estimador crezca y que, por ende, la precisión de la inferencia decrezca. Para hacerle frente a este problema, es posible considerar un procedimiento de trimming o recorte de pesos, siguiendo las recomendaciones de Valliant, Dever, y Kreuter (2018, sec. 14.4), que puede ser resumido en los siguientes pasos:

  1. Recortar cualquier peso mayor a un umbral prestablecido en la distribución de pesos ajustados. Por lo general este umbral se fija alrededor de 3.5 veces la mediana de los pesos. Por tanto, \[ U=3.5\times mediana(\mathbf{w_{k}}) \]
  2. Cualquier peso con magnitud superior a \(U\) se trunca de la siguiente manera \[ w_k^\ast=\left\{\begin{matrix}U,\ \ \ \ \ \ \ si\ w_{k}\geq U\\ w_{k},\ \ \ \ \ \ \ en\ otro\ caso.\\\end{matrix}\right. \]
  3. Determinar la cantidad neta perdida debido al recorte de pesos extremos, siguiendo la siguiente expresión: \[ K=\sum_{s_r}(w_k^\ast - w_{k}) \]
  4. Distribuir \(K\) equitativamente entre las unidades que no fueron recortadas.
  5. Iterar hasta que todos los nuevos pesos calibrados estén por debajo del umbral \(U\).

Al final del proceso se debe asegurar que los datos extremos en los factores de expansión han sido correctamente manejados y que la distribución general de los pesos no sufrió cambios estructurales en los subgrupos poblacionales de interés.

10.6.2 El problema del redondeo de los factores de expansión

Cuando el factor de expansión no es entero, entonces su interpretación se torna compleja desde el punto de vista práctico, aunque teóricamente no tenga ninguna repercusión negativa. Sin embargo, este inconveniente puede hacer que, en la práctica, las oficinas nacionales de estadística y los usuarios de las bases de datos de encuestas de hogares tomen la decisión (bienintencionada pero errada) de redondear estas cantidades al entero más cercano. Esta práctica es perjudicial porque le añade sesgo a la inferencia y causará problemas de sobre o sub estimación en algunos dominios de estudio. Sartore et al. (2019) plantean que el redondeo de los factores de expansión puede ser problemático puesto que las estimaciones ponderadas pueden crecer o decrecer enormemente.

Los siguientes ejemplos prácticos muestran de forma directa las repercusiones perjudiciales que conlleva esta práctica y que son consecuencia directa del sesgo de redondeo:

  • En encuestas de establecimientos redondear el factor de expansión en las unidades que tienen flujos de ventas grandes trae problemas de sesgo en este dominio de estudio.

  • En encuestas agropecuarias, si una unidad productiva produce un cuarto de la producción nacional, el redondeo de su factor de expansión es nefasto.

  • En encuestas de hogares, en donde los diseños de muestreo son generalmente auto-ponderados (en donde todas las viviendas comparten el mismo factor de expansión) dentro de los estratos, redondear el factor de expansión implica sesgar por completo todo el estrato.

Suponiendo que una muestra probabilística \(s=(I_1,\ldots,I_k,\ldots,I_N)'\) fue seleccionada de una población finita \(U\) mediante un diseño de muestreo que induce probabilidades de inclusión \(\pi_k= E(I_k)\) para todos los individuos \(k \in U\) (en donde \(I_k\) toma el valor uno si fue seleccionado o cero en otro caso) entonces desde el punto de vista teórico los estimadores de muestreo \(\hat t_y = \sum_s d_k \ y_k\) son insesgados cuando el factor de expansión \(d_k\) es idéntico al inverso de la probabilidad de inclusión, puesto que

\[ E(\hat t_y) = E \left( \sum_s \frac{y_k}{\pi_k} \right) = E \left(\sum_U I_k \frac{y_k}{\pi_k} \right) = \sum_U E(I_k) \frac{y_k}{\pi_k} = \sum_U \pi_k \frac{y_k}{\pi_k} = t_y \]

De las anteriores relaciones es evidente que, cuando el factor de expansión se redondea de forma determinística, entonces \(E(\hat t_y) \neq t_y\). Para evadir el sesgo de redondeo, es necesario emplear un método aleatorio que induzca insesgamiento en los estimadores de muestreo. En general, este problema puede ser abordado desde una perspectiva probabilística. De hecho, si en primera instancia se utiliza como redondeo la parte entera (el entero máximo que sea menor o igual) del factor de expansión, entonces bastará con añadir aleatoriamente una unidad a algunos factores de expansión para asegurar que la suma de los factores redondeados sea idéntica a la original. Con esta simple idea se le devuelve la propiedad del insesgamiento a los estimadores de muestreo.l procedimiento se describe a continuación:

  1. Para \(k \in s\), definir \[\phi_k = d_k - \lfloor d_k \rfloor\]

  2. Seleccionar una submuestra \(s_a=(c_1,\ldots,c_k,\ldots,c_n)'\) de \(s\) con probabilidades de inclusión \(\phi_k\), para \(k\in s\). Note que \(c_k\) tomará el valor de uno, si el elemneto \(k\) está en la submuestra y de cero, si no fue seleccionado en la submuestra.

  3. Si \(c_k = 0\), entonces \(\tilde d_k = \lfloor d_k \rfloor\); en otro caso, si \(c_k = 1\), entonces \(\tilde d_k = \lfloor d_k \rfloor + 1\).

En primera instancia, nótese que la submuestra \(s_a\) no necesariamente será de tamaño fijo, puesto que \(\sum_s\phi_k\) no será entera en todos los casos; por ende, es posible utilizar un algoritmo de muestreo Poisson (H. A. Gutiérrez 2016, sec. 4.1) para seleccionar esta submuestra. Sin embargo, si esta suma es entera, es posible utilizar un algoritmo de muestreo más eficiente que induzca una submuestra de tamaño fijo como por ejemplo el método de Brewer (Tillé 2006a). Por otro lado, la esperanza de estos factores redondeados condicionados a la submuestra \(s_a\) es igual a los factores de expansión originales, tal y como se muestra a continuación

\[ E(\tilde d_k | s_a) = \lfloor d_k \rfloor + E(c_k|s_a) = \lfloor d_k \rfloor + \phi_k = d_k \]

Por lo anterior, es importante notar que el uso de este método aleatorio de redondeo siempre induce insesgamiento en los estimadores de muestreo, puesto que

\[ E \left( \sum_s \tilde d_k y_k \right) = E \left[ E \left( \sum_s \tilde d_k y_k | s_a\right) \right] = E \left( \sum_s E(\tilde d_k | s_a) y_k \right) = E \left( \sum_s d_k y_k \right) = t_y \]

Por último, cuando los factores de expansión de la encuesta están calibrados se presenta un problema de optimización un poco más complejo, puesto que al utilizar el redondeo aleatorio, los factores de expansión perderán la propiedad de calibración. Sartore et al. (2019) y Tillé (2019) han presentado diferentes soluciones a este problema, siendo la última mucho más fácil de implementar en el software estadístico R. Bajo esta perspectiva, la calibración de los factores de expansión crea nuevos pesos denominados \(w_k\) que conservan la siguiente propiedad para un conjunto de totales auxiliares \(\mathbf{t_x}\) disponibles para toda la población

\[ \sum_s w_k \mathbf{x}_k = \mathbf{t_x} \]

El siguiente algoritmo hace uso del muestreo balanceado (Tillé 2006b, cap. 8), el cual representa una forma de calibración desde el diseño de muestreo y es una solución óptima para seleccionar la submuestra \(s_a\) y por ende preservar la consistencia de los pesos calibrados con los totales auxiliares.

  1. Para \(k \in s\), definir \(\phi_k = w_k - \lfloor w_k \rfloor\) y \[ \tilde{\mathbf{x}}_k = \phi_k \ \mathbf{x}_k \]

  2. Seleccionar una submuestra balanceada \(s_a=(c_1,\ldots,c_k,\ldots,c_n)'\) de \(s\) con probabilidades de inclusión \(\phi_k\), tal que \[ \sum_{k \in s_a} \frac{\tilde{\mathbf{x}}_k}{\phi_k} \cong \sum_{k \in s} \tilde{\mathbf{x}}_k \]

  3. Si \(c_k = 0\), entonces \(\tilde w_k = \lfloor w_k \rfloor\); en otro caso, si \(w_k = 1\), entonces \(\tilde w_k = \lfloor w_k \rfloor + 1\).

Es importante recalcar que la restricción en la submuestra balanceada implica que los pesos redondeados cumplan la siguiente relación

\[ \sum_s c_k \ \mathbf{x}_k \cong \sum_U \mathbf{x}_k - \sum_U \lfloor w_k \rfloor \ \mathbf{x}_k \]

Lo cual conlleva inmediatamente a que los nuevos pesos, además de estar redondeados, también estén calibrados; es decir \[ \sum_s \tilde w_k \mathbf{x}_k \cong \mathbf{t_x} \]

Nótese que el redondeo aleatorio depende de la selección de la submuestra \(s_a\) para completar los restos de la parte entera. En esta selección intervienen diferentes algoritmos de muestreo que se pueden aplicar fácilmente utilizando la librería sampling (Tillé y Matei 2016a). Por ejemplo, suponga una muestra de tamaño \(n= 200\) que fue seleccionada de una población de tamaño \(N=9200\) con factores de expansión desiguales que no están calibrados. Asuma que el vector de probabilidades de inclusión en la muestra toman la siguiente forma

\[ \boldsymbol{\pi}_s = (\underbrace{15/500}_{50 \ veces}, \ldots, \underbrace{15/800}_{80 \ veces}, \ldots, \underbrace{15/700}_{70 \ veces})' \]

Por lo tanto, el vector de pesos de muestreo estará definido de la siguiente manera:

\[ \mathbf{d}_s = (\underbrace{33.33333}_{50 \ veces}, \ldots, \underbrace{53.33333}_{80 \ veces}, \ldots, \underbrace{46.66667}_{70 \ veces})' \]

De la misma manera, el vector de excesos \(\phi_k = d_k - \lfloor d_k \rfloor\) estará dado por la siguiente expresión:

\[ \boldsymbol{\phi}_s = (\underbrace{0.33333}_{130 \ veces}, \ldots, \underbrace{0.66667}_{70 \ veces})' \]

Luego del cálculo de \(\phi_k\), se selecciona la submuestra \(s_a\). En particular, en este caso se utiliza el algoritmo de Brewer (H. A. Gutiérrez 2016), puesto que \(\sum_s\phi_k = 90\) y es entero. Al final del proceso de redondeo aleatorio la suma de los nuevos factores coincidirá con la suma de los factores originales. Por último, si en una segunda instancia, se considera que los pesos están calibrados mediante sendas covariables de calibración, entonces es posible utilizar el método del cubo, para que la submuestra esté balanceada y los pesos redondeados sigan las restricciones de calibración bajo una tolerancia predefinida.

Referencias

———. 2016. Estrategias de muestreo: diseño de encuestas y estimación de parámetros. Segunda edición. Ediciones de la U.
Sartore, Luca, Kelly Toppin, Linda Young, y Clifford Spiegelman. 2019. «Developing Integer Calibration Weights for Census of Agriculture». Journal of Agricultural, Biological and Environmental Statistics 24 (1): 26-48. https://doi.org/10.1007/s13253-018-00340-4.
Tillé, Yves. 2006b. Sampling Algorithms. Springer Series en Statistics. Springer-Verlag. https://doi.org/10.1007/0-387-34240-0.
———. 2006a. Sampling Algorithms. Springer Series en Statistics. Springer-Verlag. https://doi.org/10.1007/0-387-34240-0.
———. 2019. «A Simple and Efficient Way of Rounding Calibration Weights», 3.
Tillé, Yves, y Alina Matei. 2016a. sampling: Survey Sampling. https://CRAN.R-project.org/package=sampling.
———. 2018. Practical Tools for Designing and Weighting Survey Samples. Statistics for Social y Behavioral Sciences. Springer International Publishing. https://doi.org/10.1007/978-3-319-93632-1.