Capítulo 7 Día 2 - Sesión 3- Modelo de Fay Herriot - Estimación de la pobreza
El modelo de Fay Herriot, propuesto por Fay y Herriot (1979), es un modelo estadístico de área y es el más comúnmente utilizado, cabe tener en cuenta, que dentro de la metodología de estimación en áreas pequeñas, los modelos de área son los de mayor aplicación, ya que lo más factible es no contar con la información a nivel de individuo, pero si encontrar no solo los datos a nivel de área, sino también información auxiliar asociada a estos datos. Este modelo lineal mixto, fue el primero en incluir efectos aleatorios a nivel de área, lo que implica que la mayoría de la información que se introduce al modelo corresponde a agregaciaciones usualmente, departamentos, regiones, provincias, municipios entre otros, donde las estimaciones que se logran con el modelo se obtienen sobre estas agregaciones o subpoblaciones.
- El modelo FH enlaza indicadores de las áreas \(\theta_d\), \(d = 1, \cdots , D\), asumiendo que varían respeto a un vector de \(p\) covariables, \(\boldsymbol{x}_d\) , de forma constante. El modelo esta dado por la ecuación
\[ \theta_d = \boldsymbol{x}^{T}_{d}\boldsymbol{\beta} + u_d ,\ \ \ \ \ d = 1, \cdots , D \]
- \(u_d\) es el término de error, o el efecto aleatorio, diferente para cada área dado por
\[ \begin{eqnarray*} u_{d} & \stackrel{iid}{\sim} & \left(0,\sigma_{u}^{2}\right) \end{eqnarray*} \]
Sin embargo, los verdaderos valores de los indicadores \(\theta_d\) no son observables. Entonces, usamos el estimador directo \(\hat{\theta}^{DIR}_d\) para \(\theta_d\) , lo que conlleva un error debido al muestro.
\(\hat{\theta}^{DIR}_d\) todavía se considera insesgado bajo el diseño muestral.
Podemos definir, entonces,
\[ \hat{\theta}^{DIR}_d = \theta_d + e_d, \ \ \ \ \ \ d = 1, \cdots , D \]
donde \(e_d\) es el error debido al muestreo, \(e_{d} \stackrel{ind}{\sim} \left(0,\sigma^2\right)\)
Dichas varianzas \(\sigma^2_d = var_{\mathscr{P}}\left(\hat{\theta}^{DIR}_d\mid\theta_d\right)\), \(d = 1,\cdots,D\) se estiman con los microdatos de la encuesta.
Por tanto, el modelo se hace, \[ \hat{\theta}^{DIR}_d = \boldsymbol{x}^{T}_{d}\boldsymbol{\beta} + u_d + e_d, \ \ \ \ \ \ d = 1, \cdots , D \]
El BLUP (best linear unbiased predictor) bajo el modelo FH de \(\theta_d\) viene dado por
\[ \begin{eqnarray*} \tilde{\theta}_{d}^{FH} & = & \boldsymbol{x}^{T}_{d}\tilde{\boldsymbol{\beta}}+\tilde{u}_{d} \end{eqnarray*} \]
Si sustituimos \(\tilde{u}_d = \gamma_d\left(\hat{\theta}^{DIR}_d - \boldsymbol{x}^{T}_{d}\tilde{\boldsymbol{\beta}} \right)\) en el BLUP bajo el modelo FH, obtenemos \[ \begin{eqnarray*} \tilde{\theta}_{d}^{FH} & = & \gamma_d\hat{\theta}^{DIR}_{d}+(1-\gamma_d)\boldsymbol{x}^{T}_{d}\tilde{\boldsymbol{\beta}} \end{eqnarray*} \] siendo \(\gamma_d=\frac{\sigma^2_u}{\sigma^2_u + \sigma^2_d}\).
Habitualmente, no sabemos el verdadero valor de \(\sigma^2_u\) efectos aleatorios \(u_d\).
Sea \(\hat{\sigma}^2_u\) un estimador consistente para \(\sigma^2_u\). Entonces, obtenemos el BLUP empírico (empirical BLUP, EBLUP) de \(\theta_d\) ,
\[ \begin{eqnarray*} \tilde{\theta}_{d}^{FH} & = & \hat{\gamma_d}\hat{\theta}^{DIR}_{d}+(1-\hat{\gamma_d})\boldsymbol{x}^{T}_{d}\hat{\boldsymbol{\beta}} \end{eqnarray*} \]
donde \(\hat{\gamma_d}=\frac{\hat{\sigma}^2_u}{\hat{\sigma}^2_u + \sigma^2_d}\).
Modelo de área para la estimación de la pobreza
El modelo bayesiano estaría definido como:
\[ \begin{eqnarray*} \hat{Y}_d\mid\theta_d,\sigma_d^2 & \sim & N\left(\theta_d,\sigma_d^2\right)\\ \theta_d & = & \boldsymbol{x}^{T}_{d}\boldsymbol{\beta}+u_d \end{eqnarray*} \]
donde \(u_d \sim N(0 , \sigma^2_u)\) y \(\hat{Y}_d\) es la estimación directa de la pobreza en el \(d-ésimo\) dominio.
Las distribuciones previas para \(\boldsymbol{\beta}\) y \(\sigma^2_u\)
\[ \begin{eqnarray*} \beta_p & \sim & N(0, 10000)\\ \sigma^2_u &\sim & IG(0.0001, 0.0001) \end{eqnarray*} \]