Capítulo 2 Inferencia bayesiana
El enfoque bayesiano, además de especificar un modelo para los datos observados \(\mathbf{Y}=(y_1,\ldots,y_n)\) dado un vector de parámetros desconocidos \(\boldsymbol \theta=(\theta_1,\ldots,\theta_K)\), usualmente en forma de densidad condicional \(p(\mathbf{Y} \mid \boldsymbol \theta)\), supone que \(\boldsymbol \theta\) es aleatorio y que tiene un densidad previa \(p(\boldsymbol \theta\mid \boldsymbol \eta)\), donde \(\boldsymbol \eta\) es un vector de hiper-parámetros. De esta forma, la inferencia concerniente a \(\boldsymbol \theta\) se basa en una densidad posterior \(p(\boldsymbol \theta\mid \mathbf{Y})\).
En términos de estimación, inferencia y predicción, el enfoque Bayesiano supone dos momentos o etapas:
Antes de la recolección de las datos, en donde el investigador propone, basado en su conocimiento, experiencia o fuentes externas, una distribución de probabilidad previa para el parámetro de interés. Con esta distribución es posible calcular estimaciones puntuales y por intervalo con el fin de confirmar que la distribución propuesta se ajusta al problema de estudio. En esta etapa, basados en la distribución previa, también es posible hacer predicciones de cantidades observables.
Después de la recolección de los datos. Siguiendo el teorema de Bayes, el investigador actualiza su conocimiento acerca del comportamiento probabilístico del parámetro de interés mediante la distribución posterior de este. Con esta distribución es posible calcular estimaciones puntuales y por intervalo justo como en el enfoque frecuentista. En esta etapa, basados en la distribución posterior, también es posible hacer predicciones de cantidades observables y pruebas de hipótesis acerca de la adecuación del mejor modelo a los datos observados.
Inferencia previa
Con las anteriores expresiones es posible calcular la probabilidad previa de que \(\boldsymbol \theta\) esté en una determinada región \(G\) como \[\begin{equation} Pr(\boldsymbol \theta\in G)=\int_G p(\boldsymbol \theta\mid \boldsymbol \eta)\ d\boldsymbol \theta \end{equation}\]
En esta primera etapa también es posible calcular, con fines confirmatorios (Carlin y Louis 1996), la estimación puntual para el vector \(\boldsymbol \theta\) dada por alguna medida de tendencia central para la distribución \(p(\boldsymbol \theta\mid \boldsymbol \eta)\). En particular, si se escoge la media, entonces
\[\begin{equation} (\#eq:est.prio) \hat{\boldsymbol \theta}=E(\boldsymbol \theta)=\int \boldsymbol \theta\ p(\boldsymbol \theta\mid \boldsymbol \eta)\ d\boldsymbol \theta \end{equation}\]
También es posible calcular una región \(C\) de \(100\times(1-\alpha)%\) de credibilidad3 para \(\boldsymbol \theta\) que en esta primera etapa es tal que \[\begin{equation} 1-\alpha \leq Pr(\boldsymbol \theta\in C)=\int_Cp(\boldsymbol \theta\mid \boldsymbol \eta)\ d\boldsymbol \theta \end{equation}\]
Inferencia posterior
Una vez recolectados los datos, se actualizan las cálculos descritos en la sección anterior. Podemos calcular la probabilidad posterior de que \(\boldsymbol \theta\) esté en la región \(G\) dados los datos observados como \[\begin{equation} Pr(\boldsymbol \theta\in G \mid \mathbf{Y})=\int_G p(\boldsymbol \theta\mid \mathbf{Y})\ d\boldsymbol \theta \end{equation}\]
También es posible calcular la estimación puntual para el vector \(\boldsymbol \theta\) dados los datos observados. Ésta está dada por alguna medida de tendencia central para la distribución \(p(\boldsymbol \theta\mid \mathbf{Y})\). En particular, si se escoge la media, entonces \[\begin{equation} \hat{\boldsymbol \theta}=E(\boldsymbol \theta\mid \mathbf{Y})=\int \boldsymbol \theta\ p(\boldsymbol \theta\mid \mathbf{Y})\ d\boldsymbol \theta \end{equation}\]
La región \(C\) de \(100\times(1-\alpha)%\) de credibilidad es tal que \[\begin{equation} 1-\alpha \leq Pr(\boldsymbol \theta\in C \mid \mathbf{Y})=\int_Cp(\boldsymbol \theta\mid \mathbf{Y})\ d\boldsymbol \theta \end{equation}\]
También la distribución posterior del parámetro \(\boldsymbol \theta\) es útil para el procedimiento de juzgamiento de hipótesis en el ámbito del análisis bayesiano. Esto se lleva a cabo por medio del factor de Bayes que se presentará más adelante.
Inferencia predictiva
En términos de inferencia predictiva existen dos etapas que cubren las actuales suposiciones acerca del vector de parámetros \(\boldsymbol \theta\). En una primera etapa - antes de la observación de los datos - la suposición actual de \(\boldsymbol \theta\) está dada por la densidad previa \(p(\boldsymbol \theta\mid \boldsymbol \eta)\). En estos términos, utilizando el Resultado 1.4, la distribución predictiva previa de \(\mathbf{Y}\) está dada por
\[\begin{equation} p(\mathbf{y})=\int p(\mathbf{Y} \mid \boldsymbol \theta)p(\boldsymbol \theta\mid \boldsymbol \eta)\ d\boldsymbol \theta \end{equation}\]
La segunda etapa - después de la recolección de los datos - actualiza las suposiciones acerca de \(\boldsymbol \theta\) puesto que ahora éste sigue una distribución posterior dada por (1.1). Por lo tanto, la distribución predictiva posterior de \(\mathbf{Y}\) está dada por
\[\begin{align} \tag{2.1} p(\tilde{\mathbf{y}} \mid \mathbf{Y})&=\int p(\tilde{\mathbf{y}},\boldsymbol \theta\mid \mathbf{y})\ d\boldsymbol \theta\notag \\ &=\int p(\tilde{\mathbf{y}} \mid \boldsymbol \theta,\mathbf{Y})p(\boldsymbol \theta\mid \mathbf{Y})\ d\boldsymbol \theta\notag \\ &=\int p(\tilde{\mathbf{y}} \mid \boldsymbol \theta)p(\boldsymbol \theta\mid \mathbf{Y})\ d\boldsymbol \theta \end{align}\] donde \(p(\tilde{\mathbf{y}} \mid \boldsymbol \theta)\) es la distribución de los datos evaluada en los nuevos valores \(\tilde{\mathbf{y}}\). La segunda línea de la anterior igualdad se obtiene utilizando el resultado 1.1 y la última línea se obtiene del resultado 1.2 de la independencia condicional.
Referencias
La interpretación de las regiones de credibilidad bayesianas difiere de la interpretación de las regiones de confianza frecuentistas. La primera se refiere a la probabilidad de que el verdadero valor de \(\boldsymbol \theta\) esté en la región. La segunda se refiere a la región de la distribución muestral para \(\boldsymbol \theta\) tal que, dados los datos observados, se podría esperar que el \(100\times\alpha%\) de las futuras estimaciones de \(\boldsymbol \theta\) no pertenecieran a dicha región.↩︎