7.3 Formas comunes del efecto de diseño

Suponiendo que el parámetro de interés es la media poblacional (\(\bar{y}\)) de una variable de interés \(y\) (por ejemplo, el ingreso per cápita mensual), es posible escribir la varianza del estimador bajo el diseño de muestreo complejo como

\[ Var(\hat{\bar{y}}) = \frac{DEFF}{n}\left(1-\frac{n}{N}\right)S^2_{y_U} \]

En donde \(S^2_{y_U}\) corresponde a la varianza poblacional de la características de interés, \(N\) es el tamaño de la población de interés \(U\) y \(n\) el tamaño de la muestra de individuos. Por otro lado, suponiendo que el parámetro de interés es la proporción poblacional (\(P\)) de una variable dicotómica \(y\) (por ejemplo, el porcentaje de individuos de bajo de la línea de pobreza en un país), es posible escribir la varianza del estimador bajo el diseño de muestreo complejo como

\[ Var(\hat P) = \frac{DEFF}{n}\left(1-\frac{n}{N}\right)P(1-P) \]

Cuando se trata de un diseño muestral multietápico, por ejemplo, es común seleccionar UPM en la primera etapa y posteriormente seleccionar hogares dentro de las áreas seleccionadas. En este contexto, el coeficiente de correlación intraclase está definido por

\[ \rho_y=1-\frac{N_I}{N_I-1}\frac{SCD}{SCT} \]

En donde, apelando a la notación clásica de los análisis de varianza, \(SCT=\sum_{U}{(y_k-{\bar{y}}_U)}^2\) hace referencia a la suma de cuadrados total, \(SCE=\sum_{U_I} N_I{({\bar{y}}_{U_I}-{\bar{y}}_U)}^2\) es la suma de cuadrados entre, y \(SCD=SCT-SCE\) es la suma de cuadrados entre. Cuando la característica de interés \(y\) es heterogénea entre los conglomerados, pero los conglomerados son homogéneos entre sí, entonces \(\rho_y\) es cercano a 0; mientras que si los conglomerados son heterogéneos entre sí, pero homogéneos dentro de cada uno, entonces \(\rho_y\) es cercano a 1. En este tipo de escenarios, el efecto de diseño se puede expresar como \(DEFF = 1 + (\bar{n}_{II}-1)\rho_y\). En general, nótese que el efecto de diseño será mayor cuando:

El coeficiente de correlación crezca, lo cual no puede ser controlado de antemano, puesto que se trata de la observación de la realidad. En general, \(\rho_y\) será más grande cuando la distribución de la variable de interés sea explicada por las UPM en el país. Por ejemplo, si el indicador de interés es la pobreza y los hogares pobres están aglomerados, segregados y separados de los hogares más acaudalados, entonces \(\rho_y\) será más grande; además, entre más segregación haya, mayor será su valor.
El promedio de hogares seleccionados por UPM ascienda. Esto es controlado de antemano en la etapa de diseño y será un número fijo y transversal en la encuesta.