2.1 La distribución previa

La escogencia de una distribución previa es muy importante en el análisis bayesiano, puesto que ésta afecta directamente en la distribución posterior, tal como lo ilustra el teorema de Bayes. En primer lugar, la distribución previa debe describir adecuadamente los conocimientos previos sobre los parámetros objetivos de estimación. Por ejemplo, si se cree que un parámetro toma valores cercanos a 10, entonces la distribución escogida para representarla también debe tomar valores cercanos a 10, como podría ser una distribución normal centrada en ese valor. Por otro lado, dado que en la literatura existe un gran número de distribuciones, algunas muy similares entre ellas, a la hora de escoger una distribución previa también se debe tener en cuenta las implicaciones a la hora de efectuar cálculos de la estimación puntual o del intervalo de crediblidad, procurando en la mayoría de casos, obtener una distribución posterior fácil de manejar. A continuación exponemos algunos aspectos generales relacionados con las distribuciones previas.

2.1.1 Distribuciones conjugadas

Como se verá en los capítulos siguientes, muchos problemas de inferencia bayesiana comparten la agradable cualidad de que la forma funcional de la distribución previa para el parámetro de interés resulta ser la misma de la distribución posterior. Por ejemplo:

  • Cuando se tiene una muestra aleatoria de variables con distribución Bernoulli de parámetro \(\theta\), es factible pensar que una distribución previa apropiada para este parámetro es la distribución Beta; bajo este escenario, la distribución posterior también resulta ser Beta.

  • En el caso en que se quiera modelar el parámetro \(\theta\) concerniente a una variable aleatoria con distribución Poisson, es posible asignar como candidata para distribución previa a la distribución Gamma; en este caso la distribución posterior también resulta ser Gamma.

Las distribuciones conjugadas son deseadas en el análisis bayesiano pues en primer lugar, la distribución posterior del parámetro \(\theta\) es considerada como la actualización del conocimiento acerca de este después de la recolección de los datos, entonces al tener la misma forma funcional que la distribución previa, pueden ser comparadas y así ver claramente cómo es la influencia de los datos observados sobre la creencia inicial acerca de \(\theta\); en segundo lugar, el hecho de que la distribución posterior sea de la misma forma funcional que la previa permite que la actualización de información se pueda llevar a cabo sistemáticamente, pues cada vez que se observan nuevos datos, la anterior distribución posterior puede ser tomada como la distribución previa y así producir una nueva distribución posterior.

A continuación exponemos la definición rigurosa de las distribuciones conjungadas y algunos tópicos relacionados.

Definición 2.1 Sea \(\mathcal{F}=\{p(\mathbf{Y} \mid \boldsymbol \theta)\}\) una familia de distribuciones de probabilidad. Una familia de distribuciones \(\mathcal{P}\) se dice conjugada con respecto a \(\mathcal{F}\) si para toda distribución previa \(p(\boldsymbol \theta) \in \mathcal{P}\) y para toda distribución de muestreo o verosimilitud de las observaciones \(p(\mathbf{Y} \mid \boldsymbol \theta)\), \(p(\boldsymbol \theta\mid \mathbf{Y})\) también pertenece a la familia \(\mathcal{P}\).


Esta definición es, en la mayoría de los casos prácticos, muy útil. Sin embargo, Migon y Gamerman (1999) describe los siguientes dos casos en donde esta definición es completamente inútil:

  1. Caso amplio: sea \(\mathcal{P}=\{\text{Todas las distribuciones de probabilidad}\}\) y \(\mathcal{F}\) cualquier familia de distribuciones de probabilidad. Entonces \(\mathcal{P}\) es conjugada con respecto a \(\mathcal{F}\) puesto que toda posible distribución posterior será un miembro de \(\mathcal{P}\).

  2. Caso restringido: sea \(\mathcal{P}=\{p \mid p(\theta=\theta_0)=1\}\), esto es, \(\mathcal{P}\) corresponde a todas las distribuciones concentradas en un punto. Sea \(\mathcal{F}\) cualquier familia de distribuciones de probabilidad. De esta manera, la distribución posterior de \(\theta\) estará dada por

\[\begin{align*} p(\theta \mid Y)\propto p(Y \mid \theta)p(\theta) &= \begin{cases} p(Y \mid \theta)\times 1 \ \ \ \ \text{si $\theta=\theta_0$}\\ p(Y \mid \theta)\times 0 \ \ \ \ \text{si $\theta\neq\theta_0$}\\ \end{cases}\\ &= \begin{cases} p(Y \mid \theta) \ \ \ \ \text{si $\theta=\theta_0$}\\ 0 \ \ \ \ \text{si $\theta\neq\theta_0$}\\ \end{cases} \end{align*}\]

De lo anterior y dado que \(\int p(\theta \mid Y)\ d\theta=1\), entonces \(p(Y \mid \theta)=1\) si y sólo si \(\theta=\theta_0\). Con el anterior razonamiento, se concluye que \(\mathcal{P}\) es conjugada con respecto a \(\mathcal{F}\).

Por lo tanto, se deben buscar distribuciones previas que sean conjugadas de una forma tan amplia que permita proponer una distribución previa adecuada, pero al mismo tiempo tan restringida para que la definición de conjugada tenga sentido práctico. Ahora introducimos una familia de distribuciones muy importante para el desarrollo de la teoría estadística, tanto en el ámbito bayesiano como en el clásico.

2.1.2 Familia exponencial

Dependiendo de la naturaleza del parámetro \(\theta\), la familia exponencial puede ser uniparamétrica o multiparamétrica. En el primer caso, una distribución de probabilidad pertenece a la familia exponencial uniparamétrica si se puede escribir de la forma

\[\begin{equation} \tag{2.2} p(Y \mid \theta)=\exp\{d(\theta)T(y)-c(\theta)\}h(y) \end{equation}\]

donde \(T(y)\) y \(h(y)\) son funciones que dependen de \(y\) únicamente, y \(d(\theta)\) y \(c(\theta)\) son funciones que depende de \(\theta\) únicamente. Análogamente, una distribución de probabilidad pertenece a la familia exponencial multi-paramétrica si se puede escribir de la forma

\[\begin{equation} \tag{2.3} p(Y \mid \boldsymbol \theta)=\exp\{\mathbf{d}(\boldsymbol \theta)'\mathbf{T}(y)-c(\boldsymbol \theta)\}h(y) \end{equation}\] donde \(\mathbf{T}(y)\) y \(\mathbf{d}(\boldsymbol \theta)\) son funciones vectoriales, \(h(y)\) y \(c(\boldsymbol \theta)\) son funciones reales.

La ventaja de la familia exponencial radica en que es una familia relativamente restringuida de distribuciones que a la vez conservan la propiedad de ser distribuciones conjugadas, tal como muestra el siguiente resultado:

Resultado 2.1 Sea \(Y\) una variable aleatoria con función de densidad perteneciente a la familia exponencial uniparamétrica, entonces la familia exponencial uniparamétrica es conjugada con respecto a sí misma.


Prueba. Observando la expresión (2.2), se debe encontrar una distribución previa en la familia exponencial uniparamétrica, tal que la distribución posterior, resultante del producto de la distribución previa con la verosimilitud sea también miembro de la familia exponencial uniparamétrica. Con base en lo anterior, la distribución previa, parametrizada por el hiperparámetro \(\alpha\), debe ser una función exponencial de los términos \(d(\theta)\) y \(c(\theta)\) como lo afirma Jordan (2004). Esto es, \[\begin{equation} p(\theta \mid \alpha)\propto\exp\{w(\alpha) d(\theta)-\delta c(\theta)\}, \end{equation}\]

donde \(\delta\) es una constante real (posiblemente dependiente de \(\alpha\)). Por otro lado, para garantizar que \(p(\theta \mid \alpha)\) sea una auténtica función de densidad se normaliza de la siguiente manera \[\begin{equation} p(\theta \mid \alpha)=\frac{1}{k(\alpha,\delta)}\exp\{w(\alpha) d(\theta)-\delta c(\theta)\}, \end{equation}\]

con \[\begin{equation*} k(\alpha,\delta)=\int\exp\{w(\alpha) d(\theta)-\delta c(\theta)\} \ d\theta. \end{equation*}\]

De esta manera, no es difícil comprobar que la definición de distribución previa, parametrizada por el hiper-parámetro \(\alpha\), pertenece a la familia exponencial, puesto que \[\begin{equation} p(\theta \mid \alpha)=\exp\{\underbrace{w(\alpha)}_{d(\alpha)} \underbrace{d(\theta)}_{T(\theta)} - \underbrace{\ln k(\alpha,\delta)}_{c(\alpha)}\}\underbrace{\exp\{-\delta c(\theta)\}}_{h(\theta)}. \end{equation}\]

Por otro lado, del teorema de Bayes se tiene que \[\begin{align*} p(\theta \mid Y) &\propto p(Y \mid \theta)p(\theta \mid \alpha)\\ &=\exp\{w(\alpha) d(\theta) + d(\theta)T(y) - c(\theta) -\ln k(\alpha,\delta) \}\exp\{-\delta c(\theta)\}h(y)\\ &=\exp\{\underbrace{[\alpha+T(y)]}_{d(y)} \underbrace{d(\theta)}_{T(\theta)} -\underbrace{[\ln k(\alpha,\delta)-\ln h(y)]}_{c(y)}\} \underbrace{\exp\{-(\delta+1) c(\theta)\}}_{h(\theta)}\\ &\propto \exp\{[w(\alpha)+T(y)] d(\theta)\}\exp\{-(\delta+1) c(\theta)\}. \end{align*}\]

Por lo tanto, la distribución posterior resultante también pertenece a la familia exponencial uniparamétrica.


La extensión del anterior resultado puede ser extendedida para el caso en el que se cuenta con una muestra aleatoria de observaciones, tal como se expone a continuación:

Resultado 2.2 Sean \(\mathbf{Y}=\{Y_1, \ldots, Y_n\}\) una muestra aleatoria de variables distribuidas con función de densidad común perteneciente a la familia exponencial uniparamétrica, cuya función de densidad conjunta \(p(\mathbf{Y} \mid \theta)\) también pertenece a la familia exponencial uniparamétrica. Bajo las anteriores condiciones la familia exponencial uniparamétrica es conjugada con respecto a sí misma.


Prueba. La demostración es inmediata utilizando el resultado anterior y notando que la forma funcional de la densidad conjunta para \(\mathbf{Y}\) es \[\begin{equation} p(\mathbf{Y} \mid \theta)=\exp\left\{d(\theta)\sum_{i=1}^nT(y_i)-nc(\theta)\right\}\prod_{i=1}^nh(y_i) \end{equation}\] la cual hace parte de la familia exponencial.


Otra extensión del resultado 2.1 corresponde al caso cuando la distribución de la observación está reparametrizado por un vector de parámetros \(\boldsymbol \theta\). A continuación se expone el resultado y la prueba correspondiente.

Resultado 2.3 Sea \(Y\) una variable aleatoria con función de densidad perteneciente a la familia exponencial multiparamétrica. Sea \(\boldsymbol \theta\) el parámetro de interés con distribución previa parametrizada por un vector de hiperparámetros \(\boldsymbol \eta\) y perteneciente a la familia exponencial multiparamétrica. Entonces la familia exponencial multiparamétrica es conjugada con respecto a sí misma.


Prueba. En primer lugar, la distribución de probabilidad de \(Y\) perteneciente a la familia exponencial multiparamétrica está dada por (2.3). Siguiendo el mismo razonamiento de la demostración del Resultado 2.1, la distribución previa del parámetro de interés debe estar definida de la siguiente manera \[\begin{equation} p(\boldsymbol \theta\mid \boldsymbol \eta)=\exp\left\{\underbrace{w(\boldsymbol \eta)'}_{\mathbf{d}(\boldsymbol \eta)} \underbrace{\mathbf{d}(\boldsymbol \theta)}_{\mathbf{T}(\boldsymbol \theta)} - \underbrace{\ln k(\boldsymbol \eta,\delta)}_{c(\boldsymbol \eta)}\right\}\underbrace{\exp\{-\delta c(\boldsymbol \theta)\}}_{h(\boldsymbol \theta)}, \end{equation}\]

con \[\begin{equation*} k(\boldsymbol \eta,\delta)=\int\exp\{w(\boldsymbol \eta)'\mathbf{d}(\boldsymbol \theta)-\delta c(\boldsymbol \theta)\} \ d\boldsymbol \theta. \end{equation*}\]

Utilizando el teorema de Bayes, se tiene que, la distribución posterior del parámetro \(\theta\) es \[\begin{align*} p(\boldsymbol \theta\mid Y) &\propto p(Y \mid \boldsymbol \theta)p(\boldsymbol \theta\mid \boldsymbol \eta)\\ &= \exp\{\mathbf{T}(y)'\mathbf{d}(\boldsymbol \theta) - c(\boldsymbol \theta) + w(\boldsymbol \eta)' \mathbf{d}(\boldsymbol \theta) - \delta c(\boldsymbol \theta) - \ln k(\boldsymbol \eta,\delta) +\ln h(y)\}\\ & = \exp\left\{\underbrace{(w(\boldsymbol \eta)+\mathbf{T}(y))'}_{\mathbf{d}(y)} \underbrace{\mathbf{d}(\boldsymbol \theta)}_{\mathbf{T}(\theta)} - \underbrace{\left[\ln k(\boldsymbol \eta,\delta)-\ln h(y)\right]}_{c(y)}\right\}\underbrace{\exp\{-(\delta+1)c(\boldsymbol \theta)\}}_{h(\boldsymbol \theta)} \end{align*}\]

La anterior expresión también hace parte de la familia exponencial biparamétrica y con esto se concluye la demostración


Nótese que el anterior resultado también cobija situaciones donde la verosimilitud sea perteneciente a la familia exponencial uniparamétrica. Más aún, a cualquier familia exponencial multiparamétrica de orden menor o igual al orden de la distribución previa.

Resultado 2.4 Sean \(\mathbf{Y}=\{Y_1, \ldots, Y_n\}\) una muestra aleatoria con función de densidad conjunta o verosimilitud dada por (2.3). Bajo este escenario la familia exponencial multi-paramétrica es conjugada con respecto a sí misma.


Prueba. La demostración sigue los mismos lineamentos que la demostración del resultado anterior concluyendo que la distribución posterior de \(\boldsymbol \theta\) está dada por \[\begin{align*} &p(\boldsymbol \theta\mid \mathbf{Y}) \propto p(\mathbf{Y} \mid \boldsymbol \theta)p(\boldsymbol \theta\mid \boldsymbol \eta)\\ &= \exp\left\{\sum_{i=1}^n\mathbf{T}(y_i)'\mathbf{d}(\boldsymbol \theta) - nc(\boldsymbol \theta) + \boldsymbol \eta' \mathbf{d}(\boldsymbol \theta) - \delta c(\boldsymbol \theta) - \ln k(\boldsymbol \eta,\delta) +\sum_{i=1}^n\ln h(y_i)\right\}\\ & =\exp\left\{\underbrace{\left(\boldsymbol \eta+\sum_{i=1}^n\mathbf{T}(y_i)\right)'}_{\mathbf{d}(\mathbf{y})} \underbrace{\mathbf{d}(\boldsymbol \theta)}_{\mathbf{T}(\theta)} - \underbrace{\left[\ln k(\boldsymbol \eta,\delta)-\sum_{i=1}^n\ln h(y_i)\right]}_{c(\mathbf{y})}\right\} \\ & \times \underbrace{\exp\left\{-(\delta+n)c(\boldsymbol \theta)\right\}}_{h(\boldsymbol \theta)} \end{align*}\] La anterior expresión también hace parte de la familia exponencial.


Ahora, estudiamos las expresiones relacionadas con la distribución predictiva de nuevas observaciones dentro del contexto de la familia exponencial:

Resultado 2.5 Sea \(Y\) una variable aleatoria con función de densidad perteneciente a la familia exponencial, dada por (2.2). Sea \(\theta\) el parámetro de interés con distribución previa en la familia exponencial biparamétrica. La distribución predictiva previa de \(Y\) está dada por

\[\begin{equation} p(Y)=\frac{k(\alpha+T(y),\delta+1)}{k(\alpha,\delta)}h(y) \end{equation}\]

donde \[\begin{equation*} k(a,b)=\int \exp\{w(a) d(\theta)-b c(\theta)\}\ d\theta \end{equation*}\]


Prueba. \[\begin{align*} p(Y)&=\int p(\theta)p(Y \mid \theta)\ d\theta\\ &=\int \exp\{w(\alpha) d(\theta)-\ln k(\alpha,\delta)-\delta c(\theta)\}\exp\{d(\theta)T(y)-c(\theta)\}h(y)d\theta\\ &=\frac{h(y)}{k(\alpha,\delta)}\int \exp\{[w(\alpha)+T(y)]d(\theta)-(\delta+1)c(\theta)\}d\theta\\ &=\frac{k(\alpha+T(y),\delta+1)h(y)}{k(\alpha,\delta)} \end{align*}\]

donde \[\begin{equation*} k(\alpha,\delta)=\int \exp\{w(\alpha) d(\theta)-\delta c(\theta)\}\ d\theta \end{equation*}\]

y \[\begin{equation*} k(\alpha+T(y),\delta+1)=\int \exp\{[w(\alpha)+T(y)]d(\theta)-(\delta+1)c(\theta)\} \ d\theta. \end{equation*}\]


La extensión al caso de contar con una muestra aleatoria de observaciones se encuentra a continuación:

Resultado 2.6 Sea \(\mathbf{Y}=\{Y_1\ldots,Y_n\}\) una muestra aleatoria con función de densidad conjunta perteneciente a la familia exponencial, dada por (2.3). Sea \(\theta\) el parámetro de interés con distribución previa exponencial multiparamétrica. La distribución predictiva previa de \(\mathbf{Y}\) está dada por

\[\begin{equation} p(\mathbf{Y})=\frac{k(\alpha+T(\mathbf{y}),\delta+n)}{k(\alpha,\beta)}h(\mathbf{y}) \end{equation}\] donde \(k\) se define tal como en el resultado anterior.


Prueba. La prueba se tiene de inmediato siguiendo los lineamentos de la demostración del anterior resultado.


Resultado 2.7 En términos de la distribución predictiva posterior, se tiene que para una sola observación \(\tilde{y}\), ésta está dada por \[\begin{equation} p(\tilde{y} \mid Y)=\frac{k(\alpha+T(y)+T(\tilde{y}),\delta+2)}{k(\alpha+T(y),\delta+1)}h(\tilde{y}) \end{equation}\] y en el caso en donde se tiene una muestra aleatoria, entonces la distribución predictiva posterior para una nueva muestra \(\tilde{\mathbf{y}}=\{\tilde{y}_1,\ldots,\tilde{y}_{n^*}\}\) de tamaño \(n^*\) está dada por \[\begin{equation} p(\tilde{\mathbf{y}} \mid \mathbf{Y})= \frac{k(\alpha+T(\mathbf{y})+T(\tilde{\mathbf{y}}),\delta+n+n^*)} {k(\alpha+T(\mathbf{y}),\delta+n)}h(\tilde{\mathbf{y}}) \end{equation}\]


Prueba. De la definición de distribución predictiva posterior dada por la expresión (2.1) se tiene que

\[\begin{align*} p(\tilde{y} \mid Y)&=\int p(\tilde{y} \mid \theta)p(\theta \mid y)\ d\theta\\ &=\int \exp\{d(\theta)T(\tilde{y})-c(\theta)\}h(\tilde{y})\dfrac{\exp\{[w(\alpha)+T(y)]d(\theta)-(\delta+1)c(\theta)\}}{k(\alpha+T(y),\delta+1)}\ d\theta\\ &=\frac{h(\tilde{y})}{k(w(\alpha)+T(y),\delta+1)}\int \exp\{[\alpha+T(y)+T(\tilde{y})]d(\theta)-(\delta+2)c(\theta)\}\ d\theta\\ &=\frac{k(\alpha+T(y)+T(\tilde{y}),\delta+2)}{k(\alpha+T(y),\delta+1)}h(\tilde{y}), \end{align*}\]

con \[\begin{equation*} k(\alpha+T(y)+T(\tilde{y}),\delta+2)=\int \exp\{[w(\alpha)+T(y)+T(\tilde{y})]d(\theta)-(\delta+2)c(\theta)\}\ d\theta. \end{equation*}\]

La demostración para la nueva muestra se lleva a cabo de manera análoga.


2.1.3 Distribuciones previas no informativas

Cuando no existe una base poblacional sobre el parámetro de interés o cuando existe total ignorancia de parte del investigador acerca del comportamiento de probabilístico del parámetro, es necesario definir distribuciones previas que sean no informativas. Es decir, que jueguen un papel mínimo en términos de influencia en la distribución posterior. Una característica de estas distribuciones es que su forma es vaga, plana o difusa. Por tanto la pregunta de interés que surge en este instante es: ¿cómo seleccionar distribuciones previas no informativas4 sobre el parámetro de interés?

En los anteriores términos, la distribución uniforme define una distribución previa que cumple con las características de no información en la mayoría de escenarios. Específicamente en aquellos problemas en donde el parámetro de interés está limitado a un espacio de muestreo acotado. Por ejemplo, en la distribución Binomial, el parámetro de interés está limitado al espacio de muestreo \([0,1]\). Sin embargo, no en todos los problemas encaja la distribución uniforme. Nótese, por ejemplo, que en el caso en que la distribución exponencial se acomode a los datos como candidata a verosimilitud, entonces el espacio de muestreo del parámetro de interés estaría dado por \((0,\infty)\) en cuyo caso la distribución uniforme no sería conveniente puesto que sería una distribución impropia en el espacio de muestreo del parámetro de interés. Es decir

\[\begin{equation*} \text{Si } p(\theta)\propto k\ I_{\Theta}(\theta) \text{, entonces } \int_{\Theta}p(\theta) \ d(\theta)\longrightarrow \infty \end{equation*}\]

donde \(\Theta\) denota espacio de muestreo del parámetro \(\theta\) e \(I\) denota la función indicadora. Por otro lado, una característica importante que debe tener una distribución previa no informativa es que sea invariante en términos de transformaciones matemáticas. Es decir, si el parámetro de interés es \(\theta\) con distribución previa no informativa dada por \(p(\theta)\), y sea \(\phi=h(\theta)\) una transformaición de \(\theta\) por medio de la función \(h\), entonces la distribución previa de \(\phi\) también debería ser no informativa. Sin embargo, la teoría de probabilidad afirma que la distribución de probabilidad de una transformación está dada por

\[\begin{equation} \tag{2.4} p(\phi)=p(\theta) \mid \frac{d\theta}{d\phi} \mid =p(\theta) \mid h'(\theta) \mid ^{-1} \end{equation}\]

y claramente si la función \(h\) no es una función lineal, entonces los resultados encontrados por medio de este enfoque indicarían que la distribución previa \(p(\phi)\) sería informativa contradiciendo los supuestos de \(p(\theta)\). El siguiente ejemplo ilustra este planteamiento:

Ejemplo 2.1 Suponga que el parámetro de interés es \(\theta\) y que está restringido a un espacio de muestreo dado por el intervalo \([0,1]\). Si se supone completa ignorancia acerca del comportamiento del parámetro, entonces una buena opción, con respecto a la distribución previa, sería la distribución uniforme en el intervalo \([0,1]\). Es decir, la distribución previa no informativa estaría dada por \[\begin{equation*} p(\theta) = I_{[0,1]}(\theta) \end{equation*}\]

Suponga ahora que existe una transformación del parámetro de interés dada por \(\phi=h(\theta)=\ln(\theta)\). Por tanto, siguiendo (2.4) se tiene que la distribución de \(\phi\) está dada por \[\begin{equation*} p(\phi)=I_{(-\infty,0)}(\phi)e^{\phi} \end{equation*}\]

la cual es informativa con respecto al parámetro \(\phi\). Sin embargo, es el mismo problema y existe una contradicción en términos de que para \(\theta\) se desconoce todo, pero para una función \(\phi\) existe evidencia de que el parámetro se comporta de cierta manera.


Para palear las anteriores diferencias, es necesario encontrar una distribución previa no informativa que sea invariante a transformaciones matemáticas. La distribución previa no informativa de Jeffreys, definida a continuación, cuenta con esta agradable propiedad.

Definición 2.2 Si la verosimilitud de los datos está determinada por un único parámetro \(\theta\), la distribución previa no informativa de Jeffreys tiene distribución de probabilidad dada por \[\begin{equation} p(\theta)\propto (I(\theta))^{1/2} \end{equation}\]

con \(I(\theta)\) la información de Fisher definida como \[\begin{align*} I(\theta)&=E\left\{\left[\frac{\partial}{\partial\theta}\log{p(\mathbf{Y}\mid\theta)}\right]^2\right\}\\ &=-E\left\{\dfrac{\partial^2}{\partial\theta^2}\log{p(\mathbf{Y}\mid\theta)}\right\} \end{align*}\]

Si la verosimilitud de los datos está determinada por un vector de parámetros \(\boldsymbol \theta\), la distribución previa no informativa de Jeffreys tiene distribución de probabilidad dada por \[\begin{equation} p(\theta)\propto |\mathbf{I}(\boldsymbol \theta)|^{1/2} \end{equation}\]

donde \(\mathbf{I}\) es la matriz de información de Fisher, cuyo elemento en la fila \(i\) y columna \(j\) está definida como \[\begin{align*} \mathbf{I}_{[ij]}(\boldsymbol \theta)&=E\left\{\left[\frac{\partial}{\partial\theta_i}\log{p(\mathbf{Y}\mid\theta)}\right]\left[\frac{\partial}{\partial\theta_j}\log{p(\mathbf{Y}\mid\boldsymbol \theta)}\right]\right\}\\ &=-E\left\{\dfrac{\partial^2}{\partial\theta_i\partial\theta_j}\log{p(\mathbf{Y}\mid\boldsymbol \theta)}\right\} \end{align*}\] donde \(\theta_i\) y \(\theta_j\) son los elementos \(i\) y \(j\) del vector \(\boldsymbol \theta\).


Nótese que si la verosimilitud de las observaciones pertenecen a la familia de distribuciones exponencial, entonces la distribución previa de Jeffreys no es difícil de calcular. Por otro lado nótese que la distribución previa no informativa de Jeffreys depende, de cierta manera, del mecanismo probabilístico que rige a los datos. Lo anterior hace que ciertos críticos de la estadística bayesiana manifiesten su incorformidad puesto que se supone que la formulación de la distribución a previa es independiente de los datos observados.

A continuación se evidencia la propiedad de esta distribución previa de seguir siendo no informativa con diferentes parametrizaciones.

Resultado 2.8 La distribución previa no informativa de Jeffreys es invariante a transformaciones uno a uno. Es decir, si \(\phi=h(\theta)\), entonces \(p(\phi)\propto(I(\phi))^{1/2}\).


Prueba. En primer lugar nótese que \[\begin{align*} I(\theta)=I(\phi) \mid \frac{\partial\phi}{\partial\theta} \mid ^{2} \end{align*}\]

puesto que al utilizar la regla de la cadena del cálculo matemático se tiene que \[\begin{align*} I(\phi)= - E\left[\frac{\partial^2 \log p(\mathbf{Y} \mid \phi)}{\partial\phi^2}\right] &= - E\left[\frac{\partial}{\partial\phi}\left(\frac{\partial \log p(\mathbf{Y} \mid \phi)}{\partial\phi}\right)\right]\\ &= - E\left[\frac{\partial}{\partial\theta}\left(\frac{\partial \log p(\mathbf{Y} \mid \phi)}{\partial\phi}\right) \mid \frac{\partial\theta}{\partial\phi} \mid \right]\\ &= - E\left[\frac{\partial^2 \log p(\mathbf{Y} \mid \phi)}{d\theta^2} \mid \frac{\partial\theta}{\partial\phi} \mid ^{2}\right]\\ &= - E\left[\frac{\partial^2 \log p(\mathbf{Y} \mid \theta =h^{-1}(\phi))}{d\theta^2} \mid \frac{\partial\theta}{\partial\phi} \mid ^{2}\right]\\ &= I(\theta) \mid \frac{\partial\theta}{\partial\phi} \mid ^{2} \end{align*}\]

Ahora, de la definición de función de distribución para una función y utilizando (2.4), se tiene que

\[\begin{align*} p(\phi)&=p(\theta) \mid \frac{\partial\theta}{\partial\phi} \mid \propto (I(\theta))^{1/2} \mid \frac{\partial\theta}{\partial\phi} \mid \propto I(\phi)^{1/2} \mid \frac{\partial\phi}{\partial\theta} \mid \mid \frac{d\theta}{\partial\phi} \mid =I(\phi)^{1/2} \end{align*}\]


En Box y Tiao (1992, 59) es posible encontrar un resumen exhaustivo de distribuciones previas no informativas para las distribuciones de verosimilitud más comunes. A continuación, se exponen algunos ejemplos que utilizan este enfoque.

Ejemplo 2.2 Si \(Y\) es una variable aleatoria con distribución Binomial, entonces el espacio de muestreo del parámetro de interés será el intervalo \([0,1]\); sería conveniente utilizar la función de distribución uniforme sobre este intervalo como distribución previa no informativa. Con el enfoque de Jeffreys se llega a este mismo resultado puesto que la información de Fisher para la distribución binomial es \(J(\theta)=n/\theta(1- \theta)\) dado que \[\begin{equation*} \log p(Y \mid \theta)=\log \binom{n}{y} + y\log(\theta)+(n-y)\log(1-\theta) \end{equation*}\] y \[\begin{equation*} \frac{\partial^2 \log p(Y \mid \theta)}{\partial\theta^2}=-\frac{y}{\theta^2}-\frac{n-y}{(1-\theta)^2} \end{equation*}\] Por lo tanto, al calcular la esperanza, y por consiguiente la información de Fisher, se tiene que \[\begin{equation*} I(\theta)=- E\left[\frac{\partial^2 \log p(Y \mid \theta)}{\partial\theta^2}\right] =\frac{n\theta}{\theta^2}+\frac{n-n\theta}{(1-\theta)^2}= \frac{n}{\theta(1-\theta)} \end{equation*}\] Es decir, la distribución previa no informativa para el parámetro de interés \(\theta\) es proporcional a \(\theta^{-1/2}(1-\theta)^{-1/2}\), la cual comparte la misma forma estructural de una distribución \(Beta(1/2,1/2)\) que a su vez es idéntica a la distribución uniforme. En términos de la distribución posterior para el parámetro de interés, se tiene que \[\begin{align*} p(\theta \mid Y) &\propto p(Y \mid \theta) p(\theta)\\ &\propto \theta^{y}(1-\theta)^{n-y}\theta^{-1/2}(1-\theta)^{-1/2}\\ &=\theta^{y+1/2-1}(1-\theta)^{n-y+1/2-1} \end{align*}\] Por tanto, la distribución de \(\theta \mid Y\) es \(Beta(y+1/2,n-y+1/2)\). Por construcción, esta distribución no está alterada ni influenciada por la distribución previa pues la misma es no informativa.
Ejemplo 2.3 Si \(\mathbf{Y}=\{Y_1,\ldots,Y_n\}\) es una muestra aleatoria de variables con distribución de Poisson, entonces el espacio de muestreo del parámetro de interés será el intervalo \((0,\infty)\); por tanto utilizar la distribución uniforme como distribución previa no informativa no es conveniente. Ahora, la información de Fisher para la distribución conjunta es \(I(\theta)=n/\theta\) puesto que \[\begin{equation*} \log p(\mathbf{Y} \mid \theta)=-n\theta+\log(\theta)\sum_{i=1}^ny_i-\sum_{i=1}^n\log(y_i!) \end{equation*}\] y \[\begin{equation*} \frac{\partial^2 \log p(\mathbf{Y} \mid \theta)}{\partial\theta^2}=-\frac{\sum_{i=1}^ny_i}{\theta^2} \end{equation*}\] Por lo tanto al calcular la esperanza, y por consiguiente la información de Fisher, se tiene que \[\begin{equation*} I(\theta)=- E\left[\frac{\partial^2 \log p(\mathbf{Y} \mid \theta)}{\partial\theta^2}\right] =\frac{\sum_{i=1}^nE(y_i)}{\theta^2}=\frac{n}{\theta} \end{equation*}\] Es decir, la distribución previa no informativa para el parámetro de interés es proporcional a \(\theta^{-1/2}\). En términos de la distribución posterior para el parámetro de interés, se tiene que \[\begin{align*} p(\theta \mid Y) \propto p(Y \mid \theta) p(\theta) \propto e^{-n\theta} \theta^{\sum_{i=1}^ny_i}\theta^{-1/2} =e^{-n\theta} \theta^{\sum_{i=1}^ny_i-1/2} \end{align*}\] Por tanto, la distribución de \(\theta \mid \mathbf{Y}\) es \(Gamma(\sum_{i=1}^ny_i+1/2,n)\). Por construcción, esta distribución no está alterada ni influenciada por la distribución previa pues la misma es no informativa.

Ejemplo 2.4 Suponga que \(\mathbf{Y}=\{Y_1\ldots, Y_n\}\) es una muestra aleatoria con distribución normal de parámetros \((\theta, \sigma^2)'\). Se puede verificar que la matriz de información de Fisher para el vector de parámetros está dada por \[\begin{equation} \begin{pmatrix} \frac{n}{\sigma^2} & 0 \\ 0 & \frac{n}{2\sigma^4} \\ \end{pmatrix} \end{equation}\]

cuyo determinante está dado por \(\frac{n^2}{2\sigma^6}\). Por lo tanto, la distribución a previa no informativa de Jeffreys está dada por \[\begin{equation} p(\theta,\sigma^2)\propto 1/\sigma^3 \end{equation}\]

Referencias

Box, G. E. P., y G. C. Tiao. 1992. Bayesian Inference in Statistical Analysis. 1.ª ed. Wiley.
Jordan, M. I. 2004. «The Exponential Family and Generalized Linear Models».
Migon, H. S., y D. Gamerman. 1999. Statistical Inference: An Integrated Approach. Arnold.

  1. Existen muchas denominaciones para las distribuciones uniformes que no son informativas. Por ejemplo, Box y Tiao (1992) proponen el nombre de distribuciones localmente uniformes para asegurar que cumplan con las condiciones de función de densidad de probabilidad en un rango particular del espacio paramétrico. Sin embargo, en este texto vamos a utilizar la expresión no informativa al referirse a este tipo de distribuciones a previa.↩︎