9.1 Acerca de las muestras aleatorias y su análisis

Hablemos primero de la selección sin reemplazo, en donde una muestra seleccionada está conformada por algunos elementos de la población que no se repiten. Para seleccionar una muestra sin reemplazo de tamaño \(n=3\), de una población de tamaño \(N=5\), el proceso de selección puede ser de la siguiente manera. Se escoge una unidad de las cinco posibles, luego se selecciona una unidad de las cuatro restantes, y por último, una unidad de las tres restantes. Esto hace que el proceso de selección de la muestra no se lleve a cabo de forma independiente. Por ejemplo, si el muestreo es aleatorio simple, la probabilidad de selección de la primera unidad es 1/5, la probabilidad de selección de la segunda unidad es 1/4 y así sucesivamente. Por otro lado, cuando el muestreo es con reemplazo, la selección se realiza de forma independiente puesto que se trata de realizar el mismo ensayo (seleccionar una unidad de cinco posibles) tres veces, sin importar que las unidades tengan diferentes probabilidades de selección.

Por otra parte, es bien sabido que la teoría de muestreo establece que el valor de la característica de interés, \(y_k\), es eso, un valor; por tanto, no es aleatorio. Luego, es incorrecto decir que \(y_k\) es una variable aleatoria asociada con alguna distribución de probabilidad. Recuerde que en el muestreo lo único aleatorio en la inferencia es la muestra. Ahora, no significa que no podamos construir variables aleatorias en muestreo. Por ejemplo, construyamos la siguiente variable aleatoria \(X_i\) (\(i=1,2,3\)) definida como el valor de la característica de interés en el individuo \(k\)-ésimo, seleccionado en la \(i\)-ésima extracción. En este caso, existen tres variables aleatorias, puesto que la muestra es de tamaño tres.

Si consideramos un muestreo aleatorio sin reemplazo, la primera variable aleatoria \(X_1\), podrá tomar cualquiera de los siguiente cinco valores: \(y_1, y_2, y_3, y_4, y_5\). La segunda variable aleatoria \(X_2\), solo podrá tomar cuatro valores, puesto que \(X_1\) ya fue realizada, y la tercera variable aleatoria \(X_3\) solo podrá tomar tres valores, puesto que \(X_1\) y \(X_2\) ya fueron realizadas. Esto hace que \(X_1\), \(X_2\) y \(X_3\) no constituya una sucesión de variables aleatorias independientes (puesto que la selección sin reemplazo no es un proceso independiente) ni idénticamente distribuidas (puesto que ni siquiera su espacio muestral es el mismo: \(X_1\) puede tomar cinco valores, \(X_2\) solo cuatro y \(X_3\) solo tres). Lo cual quiere decir que a partir de un muestreo sin reemplazo (ni siquiera el tan mencionado muestreo aleatorio simple) no es posible construir una muestra aleatoria, como las que aparecen en los libros de teoría estadística.

Sin embargo, algo muy distinto sucede con el muestreo con reemplazo. Cuando construimos las variables aleatorias \(X_1\), \(X_2\) y \(X_3\), resulta ser que ellas sí conforman una sucesión de variables aleatorias independientes (puesto que el muestreo con reemplazo sí define un proceso de extracciones independientes) e idénticamente distribuidas (puesto que conservan el mismo espacio muestral y mantienen la probabilidad de selección). Es decir, \(X_1\) puede tomar los valores \(y_1, \ldots, y_5\). La probabilidad de que \(X_1=y_1\) es \(p_1\), la probabilidad de selección del primer elemento; la probabilidad de que \(X_1=y_2\) es \(p_2\), la probabilidad de selección del segundo elemento y así sucesivamente hasta obtener que la probabilidad de que \(X_1=y_5\) es \(p_5\), la probabilidad de selección del primer elemento primer elemento. La misma distribución la tienen \(X_2\) y \(X_3\). Por lo tanto, \(X_1\), \(X_2\) y \(X_3\) conforman una muestra aleatoria, como las que aparecen en los libros clásicos de inferencia estadística.

Entonces, hemos llegado a un punto sin retorno, en donde la conclusión es que, si la muestra fue seleccionada con reemplazo, entonces podemos inducir una muestra aleatoria. Sin embargo, existen muchas variantes en el muestreo con reemplazo. A continuación, vamos a dilucidar cuál de ellas es la indicada para analizar la muestra de acuerdo con la teoría de los libros de inferencia.

En primera instancia, veamos que para que la esperanza (bajo el diseño de muestreo \(p\)) de cualquier variable aleatoria \(X_i\) sea igual a la media poblacional, es necesario que, para todos los individuos en la población, la probabilidad de selección sea idéntica e igual a \(1/N\), como se muestra a continuación:

\[ E_p(X_i)=\sum_{k \in U} y_k Pr(X_i = Y_k) = \sum_{k \in U} y_k p_k = \frac{t_y}{N} = \bar{y}_U=\mu_N \]

De la misma manera, para que la varianza de cualquier variable aleatoria \(X_i\) sea igual a la varianza poblacional, se requiere la misma condición, puesto que:

\[ Var_p(X_i) = \sum_{k \in U} (y_k - \bar{y}_U)^2 p_k = \frac{1}{N}\sum_{k \in U} (y_k - \bar{y}_U)^2 = S^2_{y_U} = \sigma^2_N \]

Por lo tanto, la esperanza y la varianza de un estimador clásico como \(\bar{X}\) solo coincidierón con los bien conocidos resultados de la inferencia clásica cuando el muestreo haya sido aleatorio simple con reemplazo. De otra forma, no se tienen las, bien conocidas, propiedades de esta estadística que implican que su esperanza es \(E(\bar{X}) = \mu_N\) y su varianza es \(Var(\bar{X}) = \frac{\sigma^2_N}{n}\).

Este razonamiento de aplicarse de la misma forma para pruebas de hipótesis, construcción de intervalos de confianza, modelos de regresión, y hasta diseño de experimentos. Ahora, para una encuesta cuyos datos no fueron extraídos de manera aleatoria simple con reemplazo, la manera correcta de analizarla confiadamente es incluir los pesos de muestreo en todas las técnicas y metodologías estadísticas, ya sean regresiones simples y logísticas o simples varianzas del promedio.

Modelos de superpoblación

Suponga que la estimación de máxima verosimilitud es apropiada para muestras aleatorias simples. Por ejemplo, modelos de regresión simple, múltiple, regresión logística, entre otros. Bajo este esquema, se asume que la función de densidad poblacional es \(f(y | \theta)\) donde \(\theta\) es el parámetro de interés. Con una réplica del ejemplo que David Binder utiliza en un artículo del año 2011 (una excelente lectura para quienes ha seguido el trabajo de Ken Brewer), se introducen algunos conceptos que son de utilidad. Finalmente, todos los resultados se van a plasmar en simulaciones de Monte Carlo, algunas veces anidadas.

Suponga que se generaron \(N=100\) realizaciones de variables aleatorias independientes distribuidas Bernoulli con parámetro de interés \(\theta=0.3\). Los datos que se obtienen se muestran a continuación:

1 1 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 1 0 0 0 1 1 0 0 0 1 1 0 0 1 0 0 0 1 0 0 1 1 1 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0

En esta población finita, que fue generada a partir de un modelo probabilístico (llamado modelo de superpoblación), hay 28 éxitos.

Primer proceso inferencial: el modelo

En este apartado, es notable que la medida de probabilidad que rige la inferencia hasta el momento sea la inducida por la distribución binomial con parámetro 0.3. De esta manera, el estimador insesgado de mínima varianza (todas estas propiedades obtenidas con base en la distribución binomial) está dado por el promedio poblacional. Nótese que la inferencia utiliza todos los datos de la población. Ahora, para reproducirlo computacionalmente, basta con simular muchas poblaciones de 100 variables aleatorias independientes distribuidas Bernoulli con parámetro desconocido \(\theta\)=0.3.

Como es bien sabido, bajo la perspectiva de los modelos poblacionales y la inferencia estadística clásica, el estimador \(\bar{y}_U = \frac{\sum_U y_k}{N}\) es insesgado. Para corroborarlo, es posible introducir la siguiente simulación de Monte Carlo.

N = 100
theta = 0.3
nsim1 = 1000
Est0=rep(NA,nsim1)

for(i in 1:nsim1){
y=rbinom(N, 1, theta)
Est0[i]=mean(y)
}

Esp0 = mean(Est0)

cbind(theta, Esp0)  
theta Esp0
0.3 0.29989

Segundo proceso inferencial: el muestreo

En el primer proceso inferencial, se asume que las variables de estudio son realizaciones de variables aleatorias gobernadas por un modelo probabilístico. Sin embargo, un razonamiento muy válido es que en cualquier población finita en particular, los valores de la medición son fijos aunque desconocidos y no siguen ningún modelo probabilístico; es decir, no corresponden a realizaciones de variables aleatorias. Por ejemplo, suponga que para esa misma población del ejemplo anterior el dato uno corresponde a un individuo desempleado y el dato cero corresponde a un individuo empleado.

Por otra parte, asuma que la población está subdividida en conglomerados, que pueden ser llamados hogares. De esta forma, nuestra población finita toma la siguiente caracterización, mediante una partición de \(N_{I}=27\) hogares:

(1 1 0) (1 0) (0 0 0 0 0 0 1) (1 0) (0 0 0 0 0 0 1) (0 0 1) (0 0 0 0 0 0 0 1) (0 0 1) (0 0 0 1) (0 0 0 0 1) (0 0 0 0 0 0 0 1) (1 0) (1 0) (0 0 1) (1 0) (0 0 1) (1 0) (0 1) (0 0 0 1) (0 0 1) (1 1 0) (0 0 0 0 1) (0 1) (0 1) (0 0 0 0 0 0 0 0 0 1) (0 1) (0)

El proceso de aglomeración en hogares es obviamente artificioso en este ejemplo, pero ilustra que en la vida real las poblaciones finitas siempre están aglomeradas. Suponga por otra parte que tomamos una muestra \(S_{I}\) de \(n_{I}\) hogares y en cada hogar seleccionado realizamos un censo; además la selección de los hogares se hará aleatoriamente, sin reemplazo y con probabilidades de inclusión \(\pi_{Ii}\) proporcionales al tamaño del hogar \(N_{i}\). Siendo la característica de interés \(y_{k}\), el estado del individuo en la fuerza laboral (1, si está desempleado y 0, en otro caso); entonces es bien sabido que bajo este esquema de muestreo un estimador insesgado para la proporción de desempleados \(\bar{y}_{U}\) es el siguiente:

\[ \bar{y}_{\pi S}=\sum_{i\in S_{I}}\frac{t_{y_{i}}}{\pi_{Ii}}=\frac{\sum_{i\in S_{I}}\bar{y}_{i}}{n_{I}} \] En donde \(\bar{y}_{i}=\frac{t_{y_{i}}}{N_{i}}\) es la proporción de desempleados en el hogar \(i\)-ésimo, \(t_{y_{i}}\) es el total de desempleados en el hogar \(i\)-ésimo, \(N_{i}\) es el número de individuos en el hogar y \(n_{I}\) es el número de hogares seleccionados. Por otro lado, un estimador ingenuo, correspondiente a la proporción de desempleados en la muestra, que asume que el agrupamiento de los valores no interfiere en el proceso de inferencia e ignora el diseño de muestreo es el siguiente:

\[ \bar{y}_{S}=\frac{\sum_{i\in S_{I}}t_{y_{i}}}{\sum_{i\in S_{I}}N_{i}} \]

En términos generales el siguiente esquema trata de reproducir gráficamente este proceso de inferencia, en donde un gran número de muestras podrían haber sido extraídas siguiendo el diseño de muestreo. Con la siguiente simulación de Monte Carlo se comprueba fácilmente que es insesgado, mientras que es sesgado:

library(TeachingSampling)
N=100
theta=0.3
y=rbinom(N, 1, theta)
theta_N=mean(y)
nsim2=1000
Est1=Est2=rep(NA,nsim2)

#-----Creación de los clusters---------

clus=c(0,which((y[-N]-y[-1])!=0)+1)
NI=(length(clus)-1)
Ind=matrix(0, nrow=N, ncol=NI)
Tamaños=clus[-1]-clus[-(length(clus))]

for(l in 1:(length(clus)-1)){
a=(clus[l]+1):clus[l+1]
Ind[a,l]=a
}

#Tamaños

nsim2=1000
nI=floor(NI*0.3)

for(j in 1:nsim2){
res <- S.piPS(nI,Tamaños)
sam <- res[,1] 
Ind.sam=Ind[,sam]
Tamaños.sam=Tamaños[sam]
#-------Espacio para las medias
medias=matrix(NA)
for(k in 1:ncol(Ind.sam)){
medias[k]=mean(y[Ind.sam[,k]])
}
#-------
Est1[j]=mean(medias)
Est2[j]=sum(Tamaños.sam*medias)/sum(Tamaños)
}

Esp1=mean(Est1)
Esp2=mean(Est2)

cbind(theta_N, Esp1, Esp2)
theta_N Esp1 Esp2
0.26 0.2788737 0.1037071

Nótese que el primer estimador es insesgado (su esperanza equivale al parámetro de la población finita) porque es función del inverso de la probabilidad de inclusión de los elementos que son inducidas por la medida de probabilidad definida por el plan de muestreo. El segundo estimador es sesgado porque no tiene en cuenta el diseño de muestreo.

Inferencia doble: los modelos y el muestreo

En último lugar, suponga que los valores de las variables de interés sí constituyen realizaciones de variables aleatorias que siguen un modelo probabilístico. Como una población finita está constituida por la realización particular de las variables aleatorias, condicionado a la realización de una población finita, se extrae una muestra aleatoria de elementos, mediante un diseño de muestreo complejo. Nótese que, en este tercer proceso inferencial, tanto el modelo como el diseño de muestreo como la medida de probabilidad que da origen a las superpoblaciones, constituyen dos medidas de probabilidad distintas que deben regir la inferencia del parámetro de interés.

Al respecto, nótese que, dado que el diseño de muestreo es complejo, no es viable utilizar técnicas clásicas, como el método de máxima verosimilitud, puesto que los datos finales no constituyen una muestra aleatoria de variables independientes ni idénticamente distribuidas. Por lo anterior, la forma final de la función de verosimilitud, definida como la densidad conjunta de las variables en la muestra, será muy compleja, intratable e insoluble. Una solución a este problema de estimación es la técnica de máxima pseudo-verosimilitud, la cual induce estimadores que tienen en cuenta las ponderaciones del diseño de muestreo complejo. Para el ejemplo de las proporciones, el estimador \(\bar{y}_{\pi S}\) cumple la siguiente relación:

\[ E_{\xi p}(\bar{y}_{\pi S})=E_{\xi}E_{p}(\bar{y}_{\pi S}|Y)=E_{\xi}(\bar{y}_{U})=\theta=0.3 \] Con la siguiente simulación de Monte Carlo se comprueba fácilmente que \(\bar{y}_{\pi S}\) es insesgado, mientras que es \(\bar{y}_{S}\) sesgado:

library(TeachingSampling)

N=100
theta=0.3
nsim1=100
Esp1=Esp2=rep(NA,nsim1)

for(i in 1:nsim1){
y=rbinom(N, 1, theta)
#-----Creación de los clusters---------
clus=c(0,which((y[-N]-y[-1])!=0)+1)
NI=(length(clus)-1)
Ind=matrix(0, nrow=N, ncol=NI)
Tamaños=clus[-1]-clus[-(length(clus))]

for(l in 1:(length(clus)-1)){
a=(clus[l]+1):clus[l+1]
Ind[a,l]=a
}

Ind
Tamaños

nsim2=100
nI=floor(NI*0.3)
Est1=Est2=rep(NA,nsim2)

for(j in 1:nsim2){
res <- S.piPS(nI,Tamaños)
sam <- res[,1] 
sam
Ind.sam=Ind[,sam]
Tamaños.sam=Tamaños[sam]
#-------Espacio para las medias
medias=matrix(0)
for(k in 1:ncol(Ind.sam)){
medias[k]=mean(y[Ind.sam[,k]])
}

Est1[j]=mean(medias)
Est2[j]=sum(Tamaños.sam*medias)/sum(Tamaños)
}

Esp1[i]=mean(Est1)
Esp2[i]=mean(Est2)

}

cbind(theta, mean(Esp1), mean(Esp2))
theta
0.3 0.3131752 0.1172207

Por supuesto que, dado que el proceso de inferencia es doble, entonces este ejercicio de Monte Carlo debe ser anidado. Es decir, muchas simulaciones dentro de una simulación. Nótese que en primer lugar se debe generar todas las poblaciones finitas y para cada una de ellas se debe generar las posibles muestras.

Los métodos que se explicarán en este capítulo serán la estimación por Máxima Verosimilitud (MV) y Máxima Pseudo Verosimilitud (MPV) para modelos de regresión. El primer método se basa en estimar un parámetro desconocido suponiendo que las variables de interés constituyen una muestra aleatoria de variables independiente e idénticamente distribuidas (IID) para poder hacer inferencia sobre la población de interés. Por otra parte el método de Máxima Pseudo Verosimilitud sigue un razonamiento parecido, pero con la gran diferencia de que la variable de interés se rige por un diseño muestral específico, lo cual induce una probabilidad de inclusión del individuo que debe ser tenida en cuenta al momento de realizar cualquier tipo de inferencia.