11.2 Modelos de superpoblación

Suponga que la estimación de máxima verosimilitud es apropiada para muestras aleatorias simples. Por ejemplo, modelos de regresión simple, múltiple, regresión logística, entre otros. Bajo este esquema, se asume que la función de densidad poblacional es \(f(y | \theta)\) donde \(\theta\) es el parámetro de interés. Con una réplica del ejemplo que David Binder utiliza en un artículo del año 2011 (una excelente lectura para quienes ha seguido el trabajo de Ken Brewer), se introducen algunos conceptos que son de utilidad. Finalmente, todos los resultados se van a plasmar en simulaciones de Monte Carlo, algunas veces anidadas.

Suponga que se generaron \(N=100\) realizaciones de variables aleatorias independientes distribuidas Bernoulli con parámetro de interés \(\theta=0.3\). Los datos que se obtienen se muestran a continuación:

1 1 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 1 0 0 0 1 1 0 0 0 1 1 0 0 1 0 0 0 1 0 0 1 1 1 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0

En esta población finita, que fue generada a partir de un modelo probabilístico (llamado modelo de superpoblación), hay 28 éxitos.

11.2.1 Primer proceso inferencial: el modelo

En este apartado, es notable que la medida de probabilidad que rige la inferencia hasta el momento sea la inducida por la distribución binomial con parámetro 0.3. De esta manera, el estimador insesgado de mínima varianza (todas estas propiedades obtenidas con base en la distribución binomial) está dado por el promedio poblacional. Nótese que la inferencia utiliza todos los datos de la población. Ahora, para reproducirlo computacionalmente, basta con simular muchas poblaciones de 100 variables aleatorias independientes distribuidas Bernoulli con parámetro desconocido \(\theta\)=0.3.

Como es bien sabido, bajo la perspectiva de los modelos poblacionales y la inferencia estadística clásica, el estimador \(\bar{y}_U = \frac{\sum_U y_k}{N}\) es insesgado. Para corroborarlo, es posible introducir la siguiente simulación de Monte Carlo.

N = 100
theta = 0.3
nsim1 = 1000
Est0=rep(NA,nsim1)

for(i in 1:nsim1){
y=rbinom(N, 1, theta)
Est0[i]=mean(y)
}

Esp0 = mean(Est0)

cbind(theta, Esp0)

theta	Esp0
0.3	0.29742

11.2.2 Segundo proceso inferencial: el muestreo

En el primer proceso inferencial, se asume que las variables de estudio son realizaciones de variables aleatorias gobernadas por un modelo probabilístico. Sin embargo, un razonamiento muy válido es que en cualquier población finita en particular, los valores de la medición son fijos aunque desconocidos y no siguen ningún modelo probabilístico; es decir, no corresponden a realizaciones de variables aleatorias. Por ejemplo, suponga que para esa misma población del ejemplo anterior el dato uno corresponde a un individuo desempleado y el dato cero corresponde a un individuo empleado.

Por otra parte, asuma que la población está subdividida en conglomerados, que pueden ser llamados hogares. De esta forma, nuestra población finita toma la siguiente caracterización, mediante una partición de \(N_{I}=27\) hogares:

(1 1 0) (1 0) (0 0 0 0 0 0 1) (1 0) (0 0 0 0 0 0 1) (0 0 1) (0 0 0 0 0 0 0 1) (0 0 1) (0 0 0 1) (0 0 0 0 1) (0 0 0 0 0 0 0 1) (1 0) (1 0) (0 0 1) (1 0) (0 0 1) (1 0) (0 1) (0 0 0 1) (0 0 1) (1 1 0) (0 0 0 0 1) (0 1) (0 1) (0 0 0 0 0 0 0 0 0 1) (0 1) (0)

El proceso de aglomeración en hogares es obviamente artificioso en este ejemplo, pero ilustra que en la vida real las poblaciones finitas siempre están aglomeradas. Suponga por otra parte que tomamos una muestra \(S_{I}\) de \(n_{I}\) hogares y en cada hogar seleccionado realizamos un censo; además la selección de los hogares se hará aleatoriamente, sin reemplazo y con probabilidades de inclusión \(\pi_{Ii}\) proporcionales al tamaño del hogar \(N_{i}\). Siendo la característica de interés \(y_{k}\), el estado del individuo en la fuerza laboral (1, si está desempleado y 0, en otro caso); entonces es bien sabido que bajo este esquema de muestreo un estimador insesgado para la proporción de desempleados \(\bar{y}_{U}\) es el siguiente:

\[ \bar{y}_{\pi S}=\sum_{i\in S_{I}}\frac{t_{y_{i}}}{\pi_{Ii}}=\frac{\sum_{i\in S_{I}}\bar{y}_{i}}{n_{I}} \] En donde \(\bar{y}_{i}=\frac{t_{y_{i}}}{N_{i}}\) es la proporción de desempleados en el hogar \(i\)-ésimo, \(t_{y_{i}}\) es el total de desempleados en el hogar \(i\)-ésimo, \(N_{i}\) es el número de individuos en el hogar y \(n_{I}\) es el número de hogares seleccionados. Por otro lado, un estimador ingenuo, correspondiente a la proporción de desempleados en la muestra, que asume que el agrupamiento de los valores no interfiere en el proceso de inferencia e ignora el diseño de muestreo es el siguiente:

\[ \bar{y}_{S}=\frac{\sum_{i\in S_{I}}t_{y_{i}}}{\sum_{i\in S_{I}}N_{i}} \]

En términos generales el siguiente esquema trata de reproducir gráficamente este proceso de inferencia, en donde un gran número de muestras podrían haber sido extraídas siguiendo el diseño de muestreo. Con la siguiente simulación de Monte Carlo se comprueba fácilmente que es insesgado, mientras que es sesgado:

library(TeachingSampling)
N=100
theta=0.3
y=rbinom(N, 1, theta)
theta_N=mean(y)
nsim2=1000
Est1=Est2=rep(NA,nsim2)

#-----Creación de los clusters---------

clus=c(0,which((y[-N]-y[-1])!=0)+1)
NI=(length(clus)-1)
Ind=matrix(0, nrow=N, ncol=NI)
Tamaños=clus[-1]-clus[-(length(clus))]

for(l in 1:(length(clus)-1)){
a=(clus[l]+1):clus[l+1]
Ind[a,l]=a
}

#Tamaños

nsim2=1000
nI=floor(NI*0.3)

for(j in 1:nsim2){
res <- S.piPS(nI,Tamaños)
sam <- res[,1] 
Ind.sam=Ind[,sam]
Tamaños.sam=Tamaños[sam]
#-------Espacio para las medias
medias=matrix(NA)
for(k in 1:ncol(Ind.sam)){
medias[k]=mean(y[Ind.sam[,k]])
}
#-------
Est1[j]=mean(medias)
Est2[j]=sum(Tamaños.sam*medias)/sum(Tamaños)
}

Esp1=mean(Est1)
Esp2=mean(Est2)

cbind(theta_N, Esp1, Esp2)

theta_N	Esp1	Esp2
0.29	0.2928711	0.11186

Nótese que el primer estimador es insesgado (su esperanza equivale al parámetro de la población finita) porque es función del inverso de la probabilidad de inclusión de los elementos que son inducidas por la medida de probabilidad definida por el plan de muestreo. El segundo estimador es sesgado porque no tiene en cuenta el diseño de muestreo.

11.2.3 Inferencia doble: los modelos y el muestreo

En último lugar, suponga que los valores de las variables de interés sí constituyen realizaciones de variables aleatorias que siguen un modelo probabilístico. Como una población finita está constituida por la realización particular de las variables aleatorias, condicionado a la realización de una población finita, se extrae una muestra aleatoria de elementos, mediante un diseño de muestreo complejo. Nótese que, en este tercer proceso inferencial, tanto el modelo como el diseño de muestreo como la medida de probabilidad que da origen a las superpoblaciones, constituyen dos medidas de probabilidad distintas que deben regir la inferencia del parámetro de interés.

Al respecto, nótese que, dado que el diseño de muestreo es complejo, no es viable utilizar técnicas clásicas, como el método de máxima verosimilitud, puesto que los datos finales no constituyen una muestra aleatoria de variables independientes ni idénticamente distribuidas. Por lo anterior, la forma final de la función de verosimilitud, definida como la densidad conjunta de las variables en la muestra, será muy compleja, intratable e insoluble. Una solución a este problema de estimación es la técnica de máxima pseudo-verosimilitud, la cual induce estimadores que tienen en cuenta las ponderaciones del diseño de muestreo complejo. Para el ejemplo de las proporciones, el estimador \(\bar{y}_{\pi S}\) cumple la siguiente relación:

\[ E_{\xi p}(\bar{y}_{\pi S})=E_{\xi}E_{p}(\bar{y}_{\pi S}|Y)=E_{\xi}(\bar{y}_{U})=\theta=0.3 \] Con la siguiente simulación de Monte Carlo se comprueba fácilmente que \(\bar{y}_{\pi S}\) es insesgado, mientras que es \(\bar{y}_{S}\) sesgado:

library(TeachingSampling)

N=100
theta=0.3
nsim1=100
Esp1=Esp2=rep(NA,nsim1)

for(i in 1:nsim1){
y=rbinom(N, 1, theta)
#-----Creación de los clusters---------
clus=c(0,which((y[-N]-y[-1])!=0)+1)
NI=(length(clus)-1)
Ind=matrix(0, nrow=N, ncol=NI)
Tamaños=clus[-1]-clus[-(length(clus))]

for(l in 1:(length(clus)-1)){
a=(clus[l]+1):clus[l+1]
Ind[a,l]=a
}

Ind
Tamaños

nsim2=100
nI=floor(NI*0.3)
Est1=Est2=rep(NA,nsim2)

for(j in 1:nsim2){
res <- S.piPS(nI,Tamaños)
sam <- res[,1] 
sam
Ind.sam=Ind[,sam]
Tamaños.sam=Tamaños[sam]
#-------Espacio para las medias
medias=matrix(0)
for(k in 1:ncol(Ind.sam)){
medias[k]=mean(y[Ind.sam[,k]])
}

Est1[j]=mean(medias)
Est2[j]=sum(Tamaños.sam*medias)/sum(Tamaños)
}

Esp1[i]=mean(Est1)
Esp2[i]=mean(Est2)

}

cbind(theta, mean(Esp1), mean(Esp2))

theta
0.3	0.3120952	0.1156181

Por supuesto que, dado que el proceso de inferencia es doble, entonces este ejercicio de Monte Carlo debe ser anidado. Es decir, muchas simulaciones dentro de una simulación. Nótese que en primer lugar se debe generar todas las poblaciones finitas y para cada una de ellas se debe generar las posibles muestras.

Los métodos que se explicarán en este capítulo serán la estimación por Máxima Verosimilitud (MV) y Máxima Pseudo Verosimilitud (MPV) para modelos de regresión. El primer método se basa en estimar un parámetro desconocido suponiendo que las variables de interés constituyen una muestra aleatoria de variables independiente e idénticamente distribuidas (IID) para poder hacer inferencia sobre la población de interés. Por otra parte el método de Máxima Pseudo Verosimilitud sigue un razonamiento parecido, pero con la gran diferencia de que la variable de interés se rige por un diseño muestral específico, lo cual induce una probabilidad de inclusión del individuo que debe ser tenida en cuenta al momento de realizar cualquier tipo de inferencia.