2.3 Criterios de información
Los criterios de información constituyen una herramienta muy importante en el modelamiento estadístico, pues contribuyen a la selección de modelos de manera simple. Existen una variedad de estos criterios, a continuación se describen los dos criterios más comunes en el análisis bayesiano.
2.3.1 Criterio DIC
El criterio de información de devianza (DIC, por sus iniciales en inglés) es una generalización del popular criterio AIC para los modelos jerárquicos, y se basa en el concepto de la devianza que se define como
\[\begin{equation} D(y, \boldsymbol \theta)=-2*\log(p(y|\boldsymbol \theta)) \end{equation}\]
cuya media posterior es una medida usual del ajuste del modelo. Dempster (1974) sugirió graficar la distribución posterior de la devianza para observar el ajuste del modelo a los datos. Una estimación de esta media posterior se basa en simulación de \(M\) valores \(\boldsymbol \theta^1,\cdots,\boldsymbol \theta^M\) de la distribución posterior de \(\boldsymbol \theta\), y está dada por
\[\begin{equation*} \hat{E}_D=\frac{1}{M}\sum_{m=1}^MD(y,\boldsymbol \theta^m) \end{equation*}\]
El DIC se define como
\[\begin{equation*} DIC=\hat{E}_D+p_D \end{equation*}\]
Donde \(p_D\) es el número efectivo de parámetros. Nótese que en la anterior formulación, el DIC se puede descomponer en dos partes: la parte de la bondad de ajuste del modelo, medido a través de \(E_D\), y la parte que mide la complejidad del modelo \(p_D\). Otra formulación equivalente del DIC se obtiene teniendo en cuenta que
\[\begin{equation*} p_D=\hat{E}_D - \hat{D} \end{equation*}\]
Donde \(\hat{D}=-2*\log(p(y|\hat{\boldsymbol \theta}))\) con \(\hat{\boldsymbol \theta}\) denotando la mediposterior de \(\boldsymbol \theta\); es decir, \(\hat{D}\) es la estimación de la devianza usando \(\hat{\boldsymbol \theta}\), y \(p_D\) se puede ver como la mediposterior de la devianza menos la devianza de las medias posterior (Spiegelhalter et al. 2002). De esta forma, el DIC también se puede escribir como \[\begin{equation*} DIC=\hat{D}+2p_D \end{equation*}\]
Interpretación de DIC: El modelo con el menor DIC es considerado como el modelo que mejor predice un conjunto de datos con la misma estructura que los datos observados. Al respecto se deben tener en cuenta las siguientes consideraciones:
- El DIC puede ser negativo puesto que \(p(y|\theta)\) puede tomar valores mayores a 1 asociado a una devianza pequeña.
- \(p_D\), y por consiguiente el DIC, no es invariante a parametrizaciones del modelo. Se sugiere en la práctica usar parametrizaciones que conducen a la normalidad en la distribución posterior.
2.3.2 Criterios AIC y BIC
El criterio de información de Akaike (AIC) fue formalmente presentado por Akaike (1974). Este criterio mide la pérdida de información al ajustar un modelo a un conjunto de datos; por esto, se buscan modelos que arrojen valores pequeños de AIC. Posteriormente (Cavanaugh 1997) introdujo el factor de corrección para evitar que el AIC escoja modelos con demasiados parámetros en situaciones de tamaño de muestra pequeño.
Por otro lado, el criterio de información bayesiano BIC, también conocido como el criterio de Schwarz (Schwarz 1978), también está formulado en términos de la función de verosimilitudel modelo y del número de parámetros. La expresión de estos criterios es como sigue:
\[\begin{align*} AIC&=-2\log(p(y|\hat{\boldsymbol \theta}))+2p\\ AIC_c&=AIC+\frac{2p^2+2p}{n-p-1}\\ BIC&=-2\log(p(y|\hat{\boldsymbol \theta}))+p\log(n) \end{align*}\]
Donde \(p\) es el número de parámetros en el modelo y \(n\) el número de datos observados. Cabe resaltar que en el criterio BIC hay una mayor penalización por el número excesivo de parámetros que en el criterio AIC, y en la práctica se prefieren los modelos con un BIC menor.
Se debe recalcar que los dos criterios tienen diferentes enfoques, el criterio BIC se enfoca en identificar el modelo verdadero, mientras que el criterio DIC enfoca en encontrar el modelo con mejor capacidad de predicción.