Capítulo 5 Modelos empíricos y jerárquicos

En las últimas décadas la formulación de modelos estadísticos ha evolucionado rápidamente, en parte, gracias a la capacidad de procesamiento de los equipos computacionales. En un principio, los modelos establecidos obedecían a reglas estándares que se suponían ciertas para toda la población. Sin embargo, el estado de la naturaleza de la mayoría de los problemas prácticos no sigue una regla común para todos y cada uno de los elementos de una población aleatoria. De hecho el sentido común establece que, para una misma población, pueden existir tendencias comunes entre diferentes miembros de la misma y la estructura de dispersión de los elementos puede obedecer comportamientos disímiles a través de éstos.

Lo anterior ha permitido que el investigador pueda proponer modelos que siguen comportamientos estructurales distintos y en algunos casos que se encuentran anidados en modelos más complejos. En el caso bayesiano, es claro que el momento de coyuntura en el cual el investigador no contempla un punto de retorno está dado en la formulación de la distribución previa para el vector de parámetros de interés \(\boldsymbol \theta\). Más aún, la influencia de la distribución previa en la resultante distribución posterior está dada por la asignación del vector de hiperparámetros \(\boldsymbol \eta\) que parametriza la distribución previa. Cuando los valores exactos de los hiperparámetros se desconocen o cuando no se tiene plena certeza del comportamiento estructural de la distribución previa, entonces es necesario estimarlos. En otras palabras, una mala asignación de los valores de los hiperparámetros conduce a una distribución previa que no es acorde con la realidad y esto puede conllevar a su vez a que la distribución posterior no sea apropiada, produciendo así resultados engañosos.

Siguiendo los fundamentos filosóficos de la estadística bayesiana, tener que estimar el vector de hiperparámetros envuelve al investigador en una paradoja cuya solución no siempre es sencilla. En primer lugar, nótese la forma de la distribución previa del vector de parámetros de interés:

\[p(\boldsymbol \theta\mid \boldsymbol \eta)\]

A simple vista se puede concluir que \(\boldsymbol \eta\) hace parte de la distribución previa, la cual, según la lógica de la filosofía bayesiana, involucra el conocimiento del investigador antes de la recolección de los datos. Por tanto la pregunta directa que surge es ¿por qué estimar algo que se supone conocido?. En segundo lugar, y si se concibe tal estimación, la otra pregunta natural es ¿se deben utilizar los datos para estimar tales hiperparámetros?. Las posibles respuestas a las anteriores preguntas definen caminos alternos en la estadística bayesiana.

  1. Por un lado está la llamada corriente bayesiana empírica que utiliza los métodos de estimación puntual frecuentista para estimar los hiperparámetros y, por consiguiente, definir la distribución previa del vector de parámetros de interés. Carlin y Louis (1996) menciona que en el análisis empírico se estima el vector de hiper-parámetros \(\boldsymbol \eta\) con los datos observados, contradiciendo de alguna manera el espíritu y la filosofía de la corriente bayesiana radical y esta estimación se realiza con métodos frecuentistas ya sean paramétricos o no-paramétricos.
  2. Por el otro lado se tiene la corriente bayesiana jerárquica que asume una posición totalmente bayesiana desde su concepción y establece un modelo posterior para los hiperparámetros.

En este capítulo se suponndrá que la variable de interés sigue un modelo común a toda la población aunque parametrizado por parámetros que toman distintos valores para cada individuo y que está regido por la siguiente expresión \[\begin{equation*} Y_i\sim p(Y_i \mid \theta_i) \end{equation*}\]

Referencias

Carlin, B. P., y T. A. Louis. 1996. Bayes and Empirical Bayes for Data Analysis. 1.ª ed. Chapman; Hall/CRC.