11.1 Acerca de las muestras aleatorias y su análisis
Hablemos primero de la selección sin reemplazo, en donde una muestra seleccionada está conformada por algunos elementos de la población que no se repiten. Para seleccionar una muestra sin reemplazo de tamaño \(n=3\), de una población de tamaño \(N=5\), el proceso de selección puede ser de la siguiente manera. Se escoge una unidad de las cinco posibles, luego se selecciona una unidad de las cuatro restantes, y por último, una unidad de las tres restantes. Esto hace que el proceso de selección de la muestra no se lleve a cabo de forma independiente. Por ejemplo, si el muestreo es aleatorio simple, la probabilidad de selección de la primera unidad es 1/5, la probabilidad de selección de la segunda unidad es 1/4 y así sucesivamente. Por otro lado, cuando el muestreo es con reemplazo, la selección se realiza de forma independiente puesto que se trata de realizar el mismo ensayo (seleccionar una unidad de cinco posibles) tres veces, sin importar que las unidades tengan diferentes probabilidades de selección.
Por otra parte, es bien sabido que la teoría de muestreo establece que el valor de la característica de interés, \(y_k\), es eso, un valor; por tanto, no es aleatorio. Luego, es incorrecto decir que \(y_k\) es una variable aleatoria asociada con alguna distribución de probabilidad. Recuerde que en el muestreo lo único aleatorio en la inferencia es la muestra. Ahora, no significa que no podamos construir variables aleatorias en muestreo. Por ejemplo, construyamos la siguiente variable aleatoria \(X_i\) (\(i=1,2,3\)) definida como el valor de la característica de interés en el individuo \(k\)-ésimo, seleccionado en la \(i\)-ésima extracción. En este caso, existen tres variables aleatorias, puesto que la muestra es de tamaño tres.
Si consideramos un muestreo aleatorio sin reemplazo, la primera variable aleatoria \(X_1\), podrá tomar cualquiera de los siguiente cinco valores: \(y_1, y_2, y_3, y_4, y_5\). La segunda variable aleatoria \(X_2\), solo podrá tomar cuatro valores, puesto que \(X_1\) ya fue realizada, y la tercera variable aleatoria \(X_3\) solo podrá tomar tres valores, puesto que \(X_1\) y \(X_2\) ya fueron realizadas. Esto hace que \(X_1\), \(X_2\) y \(X_3\) no constituya una sucesión de variables aleatorias independientes (puesto que la selección sin reemplazo no es un proceso independiente) ni idénticamente distribuidas (puesto que ni siquiera su espacio muestral es el mismo: \(X_1\) puede tomar cinco valores, \(X_2\) solo cuatro y \(X_3\) solo tres). Lo cual quiere decir que a partir de un muestreo sin reemplazo (ni siquiera el tan mencionado muestreo aleatorio simple) no es posible construir una muestra aleatoria, como las que aparecen en los libros de teoría estadística.
Sin embargo, algo muy distinto sucede con el muestreo con reemplazo. Cuando construimos las variables aleatorias \(X_1\), \(X_2\) y \(X_3\), resulta ser que ellas sí conforman una sucesión de variables aleatorias independientes (puesto que el muestreo con reemplazo sí define un proceso de extracciones independientes) e idénticamente distribuidas (puesto que conservan el mismo espacio muestral y mantienen la probabilidad de selección). Es decir, \(X_1\) puede tomar los valores \(y_1, \ldots, y_5\). La probabilidad de que \(X_1=y_1\) es \(p_1\), la probabilidad de selección del primer elemento; la probabilidad de que \(X_1=y_2\) es \(p_2\), la probabilidad de selección del segundo elemento y así sucesivamente hasta obtener que la probabilidad de que \(X_1=y_5\) es \(p_5\), la probabilidad de selección del primer elemento primer elemento. La misma distribución la tienen \(X_2\) y \(X_3\). Por lo tanto, \(X_1\), \(X_2\) y \(X_3\) conforman una muestra aleatoria, como las que aparecen en los libros clásicos de inferencia estadística.
Entonces, hemos llegado a un punto sin retorno, en donde la conclusión es que, si la muestra fue seleccionada con reemplazo, entonces podemos inducir una muestra aleatoria. Sin embargo, existen muchas variantes en el muestreo con reemplazo. A continuación, vamos a dilucidar cuál de ellas es la indicada para analizar la muestra de acuerdo con la teoría de los libros de inferencia.
En primera instancia, veamos que para que la esperanza (bajo el diseño de muestreo \(p\)) de cualquier variable aleatoria \(X_i\) sea igual a la media poblacional, es necesario que, para todos los individuos en la población, la probabilidad de selección sea idéntica e igual a \(1/N\), como se muestra a continuación:
\[ E_p(X_i)=\sum_{k \in U} y_k Pr(X_i = Y_k) = \sum_{k \in U} y_k p_k = \frac{t_y}{N} = \bar{y}_U=\mu_N \]
De la misma manera, para que la varianza de cualquier variable aleatoria \(X_i\) sea igual a la varianza poblacional, se requiere la misma condición, puesto que:
\[ Var_p(X_i) = \sum_{k \in U} (y_k - \bar{y}_U)^2 p_k = \frac{1}{N}\sum_{k \in U} (y_k - \bar{y}_U)^2 = S^2_{y_U} = \sigma^2_N \]
Por lo tanto, la esperanza y la varianza de un estimador clásico como \(\bar{X}\) solo coincidierón con los bien conocidos resultados de la inferencia clásica cuando el muestreo haya sido aleatorio simple con reemplazo. De otra forma, no se tienen las, bien conocidas, propiedades de esta estadística que implican que su esperanza es \(E(\bar{X}) = \mu_N\) y su varianza es \(Var(\bar{X}) = \frac{\sigma^2_N}{n}\).
Este razonamiento de aplicarse de la misma forma para pruebas de hipótesis, construcción de intervalos de confianza, modelos de regresión, y hasta diseño de experimentos. Ahora, para una encuesta cuyos datos no fueron extraídos de manera aleatoria simple con reemplazo, la manera correcta de analizarla confiadamente es incluir los pesos de muestreo en todas las técnicas y metodologías estadísticas, ya sean regresiones simples y logísticas o simples varianzas del promedio.