A.3 Distribuciones multivariadas

A.3.1 Distribución Multinomial

Definición A.22 Un vector aleatorio \(\mathbf{Y}=(Y_1,\ldots,Y_p')\) tiene distribución multinomial si su función de densidad está dada por:

\[\begin{equation} p(\mathbf{Y} \mid \boldsymbol \theta)=\binom{n}{y_1,\ldots,y_p}\theta_1^{y_1}\cdots\theta_p^{y_p} \ \ \ \ \ \theta_i>0 \texttt{, } \sum_{i=1}^p\theta_i=1 \texttt{ y } \sum_{i=1}^py_i=p \end{equation}\]

donde

\[\begin{equation} \binom{p}{y_1,\ldots,y_p}=\frac{p!}{y_1!\cdots y_p!}. \end{equation}\]

Como A. Gelman et al. (2003), afirma esta distribución es una generalización de la distribución binomial. La distribución marginal de una sola variable \(Y_i\) es \(Binomial(p,\theta_i)\)

Resultado A.19 Si \(\mathbf{Y}\) es una vector aleatorio con distribución multinomial, entonces

  • \(E(\mathbf{Y})=p(\theta_1,\ldots,\theta_p)'\).
  • \(Var(\mathbf{Y})_{ij}= \begin{cases} p\theta_i(1-\theta_i) & \text{si $i=j$}\\ -p\theta_i\theta_j & \text{si $i\neq j$} \end{cases}\)

A.3.2 Distribución Dirichelt

Definición A.23 Un vector aleatorio \(\mathbf{Y}=(Y_1,\ldots,Y_p')\) tiene distribución Dirichelt si su función de densidad está dada por:

\[\begin{equation} p(\mathbf{Y} \mid \boldsymbol \theta)=\frac{\Gamma(\theta_1+\cdots+\theta_p)}{\Gamma(\theta_1)\cdots\Gamma(\theta_p)} y^{\theta_1-1}\cdots y^{\theta_p-1} \ \ \ \ \ \theta_i>0 \texttt{ y } \sum_{i=1}^p\theta_i=1. \end{equation}\]

Esta distribución es una generalización de la distribución beta. La distribución marginal de una sola variable \(Y_i\) es \(Beta(\theta_i,(\sum_{i=1}^p\theta_i)-\theta_i)\)

Resultado 4.16 Si \(\mathbf{Y}\) es una vector aleatorio con distribución Dirichlet, entonces

  • \(E(\mathbf{Y})=(\sum_{i=1}^p\theta_i)^{-1}(\theta_1,\ldots,\theta_p)'\).
  • \(Var(\mathbf{Y})_{ij}= \begin{cases} \frac{\theta_i(\sum_{i=1}^p\theta_i-\theta_i)}{(\sum_{i=1}^p\theta_i)^2(\sum_{i=1}^p\theta_i+1)} & \text{si $i=j$}\\ -\frac{\theta_i\theta_j)}{(\sum_{i=1}^p\theta_i)^2(\sum_{i=1}^p\theta_i+1)} & \text{si $i\neq j$} \end{cases}\)

A.3.3 Distribución Normal Multivariante

Definición A.24 Un vector aleatorio \(\mathbf{Y}=(Y_1,\ldots,Y_p')\) tiene distribución normal multivariante de orden \(p\), denotada como \(\mathbf{Y}\sim N_p(\boldsymbol \theta,\boldsymbol \Sigma)\), si su función de densidad está dada por:

\[\begin{equation} p(\mathbf{Y} \mid \boldsymbol \theta,\boldsymbol \Sigma)=(2\pi)^{-p/2} \mid \boldsymbol \Sigma\mid ^{-1/2} \exp\left\{-\frac{1}{2}(\mathbf{y}-\boldsymbol \theta)'\boldsymbol \Sigma(\mathbf{y}-\boldsymbol \theta)\right\} \end{equation}\]

donde \(\mid \boldsymbol \Sigma\mid\) se refiere al determinante de la matriz \(\boldsymbol \Sigma\), la cual es simétrica y definida positiva de orden \(p\times p\).


La distribución Normal Multivariante es el baluarte de una gran cantidad de técnicas y métodos estadísticos como son los modelos lineales, los modelos lineales generalizados, el análisis factorial, etc. Algunas de sus propiedades se citan a continuación.

Resultado A.20 Si \(\mathbf{Y}=(Y_1,\ldots,Y_p')\) es una vector aleatorio con distribución normal multivariante, entonces

  • La distribución marginal de cualquier subconjunto de componentes de \(\mathbf{Y}\) es también normal multivariante. Por ejemplo si \(\mathbf{Y}\) es particionado en \(\mathbf{Y}=(\mathbf{Y}_1',\mathbf{Y}_2')\), entonces \(p(\mathbf{Y}_1)\) seguiría una distribución normal multivariante, al igual que \(p(\mathbf{Y}_2)\).
  • Cualquier transformación lineal de \(\mathbf{Y}\) es normal multivariante y su dimensión equivale al rango de la transformación. en particular, la suma de las componentes del vector, dada por \(\sum_{i=1}^pY_i\) sigue una distribución normal univariada.
  • La distribución condicional de \(\mathbf{Y}\), restringida a un subespacio lineal es normal.
  • La distribución condicional de cualquier sub-vector de elementos de \(\mathbf{Y}\) dados los restantes elementos es normal multivariante. Más aún, si \(\mathbf{Y}\) es particionado en \(\mathbf{Y}=(\mathbf{Y}_1',\mathbf{Y}_2')\), entonces \(p(\mathbf{Y}_1 \mid \mathbf{Y}_2)\) es normal multivariada con \[\begin{align*} E(\mathbf{Y}_1 \mid \mathbf{Y}_2)&=E(\mathbf{Y}_1)+Cov(\mathbf{Y}_1,\mathbf{Y}_2)(Var(\mathbf{Y}_2))^{-1}(\mathbf{Y}_2-E(\mathbf{Y}_2))\\ Var(\mathbf{Y}_1 \mid \mathbf{Y}_2)&=Var(\mathbf{Y}_1)-Cov(\mathbf{Y}_1,\mathbf{Y}_2)(Var(\mathbf{Y}_2))^{-1}Cov(\mathbf{Y}_2,\mathbf{Y}_1) \end{align*}\]
  • Si \(\mathbf{X}\) es un vector con distribución normal multivariante, entonces \(\mathbf{X}+\mathbf{Y}\) tiene una distribución normal multivariante. En particular si \(\mathbf{X}\) es independiente de \(\mathbf{Y}\), comparten el mismo orden \(p\) y \(\mathbf{X}\sim N_p(\boldsymbol \mu,\boldsymbol \Gamma)\), entonces \(\mathbf{X}+\mathbf{Y}\sim N_p(\boldsymbol \mu+\boldsymbol \theta,\boldsymbol \Gamma+\boldsymbol \Sigma)\).

Resultado 4.17 Si \(\mathbf{Y}\) es una vector aleatorio con distribución Normal Multivariante, entonces

  • \(E(\mathbf{Y})=\boldsymbol \theta=(\theta_1,\ldots,\theta_n)'\).
  • \(Var(\mathbf{Y})=\boldsymbol \Sigma\)

Resultado 3.13 Dado \(\mathbf{Y}\) un vector aleatorio particionado como \(\mathbf{Y}=(\mathbf{Y}_1',\mathbf{Y}_2')\) con esperanza \(\boldsymbol \theta=(\boldsymbol \theta_1',\boldsymbol \theta_2')\) y matrix de varianzas y covarianzas

\[\begin{equation*} \boldsymbol \Sigma=\begin{pmatrix} \boldsymbol \Sigma_{11}&\boldsymbol \Sigma_{12}\\ \boldsymbol \Sigma_{21}&\boldsymbol \Sigma_{22} \end{pmatrix}. \end{equation*}\]

Si \(\mathbf{Y}_1 \mid \mathbf{Y}_2\sim N(\boldsymbol \theta_1+\boldsymbol \Sigma_{12}\boldsymbol \Sigma_{22}^{-1}(\mathbf{Y}_2-\boldsymbol \theta_2),\boldsymbol \Sigma_{11}-\boldsymbol \Sigma_{12}\boldsymbol \Sigma_{22}^{-1}\boldsymbol \Sigma_{21})\) y \(\mathbf{Y}_2\sim N(\boldsymbol \theta_2,\boldsymbol \Sigma_{22})\), entonces se tiene que

\[\begin{equation*} \mathbf{Y}\sim N(\boldsymbol \theta,\boldsymbol \Sigma). \end{equation*}\]

Resultado 3.14 Si \(\mathbf{Y}_1,\ldots,\mathbf{Y}_n\) es una muestra aleatoria de vectores con distribución Normal Multivariante, entonces la verosimilitud de la muestra se puede escribir como

\[\begin{equation} \prod_{i=1}^np(\mathbf{Y}_i \mid \boldsymbol \theta,\boldsymbol \Sigma)\propto \mid \boldsymbol \Sigma\mid ^{-n/2}\exp\left\{-\frac{1}{2}traza(\boldsymbol \Sigma^{-1}\mathbf{S}_{\boldsymbol \theta})\right\} \end{equation}\]

Donde \(\mathbf{S}_{\boldsymbol \theta}=\sum_{i=1}^n(\mathbf{Y}_i-\boldsymbol \theta)(\mathbf{Y}_i-\boldsymbol \theta)'\).


Prueba. La verosimilitud de la muestra aleatoria está dada por

\[\begin{align*} \prod_{i=1}^np(\mathbf{Y}_i \mid \boldsymbol \theta,\boldsymbol \Sigma) &\propto \mid \boldsymbol \Sigma\mid ^{-n/2}\exp\left\{-\frac{1}{2}\sum_{i=1}^n (\mathbf{Y}_i-\boldsymbol \theta)'\boldsymbol \Sigma^{-1}(\mathbf{Y}_i-\boldsymbol \theta)\right\}\\ &= \mid \boldsymbol \Sigma\mid ^{-n/2}\exp\left\{-\frac{1}{2}traza\left(\boldsymbol \Sigma^{-1}\mathbf{S}_{\boldsymbol \theta}\right)\right\} \end{align*}\]

Puesto que, por las propiedades del operador \(traza\), se tiene que

  • Si \(c\) es un escalar, entonces \(c=traza(c)\).
  • Si \(\mathbf{A}\) y \(\mathbf{B}\) son dos matrices, entonces \(traza(\mathbf{AB})=traza(\mathbf{BA})\)
  • Si \(\mathbf{A}_i\) (i=1,,n) son matrices del mismo tamaño, entonces \(\sum_{i=1}^ntraza(\mathbf{A}_i)=traza\left(\sum_{i=1}^n\mathbf{A}_i\right)\)

Por lo anterior,

\[\begin{align*} \sum_{i=1}^n(\mathbf{Y}_i-\boldsymbol \theta)'\boldsymbol \Sigma^{-1}(\mathbf{Y}_i-\boldsymbol \theta) &=traza\left[\sum_{i=1}^n(\mathbf{Y}_i-\boldsymbol \theta)'\boldsymbol \Sigma^{-1}(\mathbf{Y}_i-\boldsymbol \theta)\right]\\ &=\sum_{i=1}^ntraza[\boldsymbol \Sigma^{-1}(\mathbf{Y}_i-\boldsymbol \theta)(\mathbf{Y}_i-\boldsymbol \theta)')]\\ &=traza\left[\boldsymbol \Sigma^{-1}\sum_{i=1}^n(\mathbf{Y}_i-\boldsymbol \theta)(\mathbf{Y}_i-\boldsymbol \theta)')\right]\\ &=traza(\boldsymbol \Sigma^{-1}\mathbf{S}_{\boldsymbol \theta}) \end{align*}\]

A.3.4 Distribución Wishart

Definición A.25 Sea \(\boldsymbol \Sigma\) una matriz aleatoria simétrica y definida positiva de tamaño \(p\times p\). Se dice que \(\boldsymbol \Sigma\) tiene distribución Wishart con \(v\) grados de libertad, denotada como \(\mathbf{Y}\sim Wishart_v(\boldsymbol \Lambda)\), si su función de densidad está dada por:

\[\begin{align} p(\boldsymbol \Sigma)&=\left( 2^{vp/2}\pi^{p(p-1)/4}\prod_{i=1}^p \Gamma\left(\frac{v+1-i}{2}\right) \right)^{-1} \notag \\ &\hspace{2cm}\times \mid \boldsymbol \Lambda\mid ^{-v/2} \mid \boldsymbol \Sigma\mid ^{(v-p-1)/2} \exp\left\{ -\frac{1}{2}traza(\boldsymbol \Lambda^{-1}\boldsymbol \Sigma)\right\} \end{align}\]

donde \(\mid \boldsymbol \Lambda\mid\) se refiere al determinante de la matriz \(\boldsymbol \Lambda\), la cual es simétrica y definida positiva de orden \(p\times p\).
Resultado A.21 Si \(\boldsymbol \Sigma\) es una matriz aleatoria con distribución Wishart con \(v\) grados de libertad, entonces \(E(\boldsymbol \Sigma)=v\boldsymbol \Lambda\)

A.3.5 Distribución inversa-Wishart

Definición A.26 Sea \(\boldsymbol \Sigma\) una matriz aleatoria simétrica y definida positiva de tamaño \(p\times p\). Se dice que \(\boldsymbol \Sigma\) tiene distribución Wishart con \(v\) grados de libertad, denotada como \(\mathbf{Y}\sim Wishart_v(\boldsymbol \Lambda)\), si su función de densidad está dada por:

\[\begin{align} p(\boldsymbol \Sigma)&=\left( 2^{vp/2}\pi^{p(p-1)/4}\prod_{i=1}^p \Gamma\left(\frac{v+1-i}{2}\right) \right)^{-1} \notag \\ &\hspace{2cm}\times \mid \boldsymbol \Lambda\mid ^{v/2} \mid \boldsymbol \Sigma\mid ^{-(v+p+1)/2} \exp\left\{ -\frac{1}{2}traza(\boldsymbol \Lambda\boldsymbol \Sigma^{-1})\right\} \end{align}\]

donde \(\mid \boldsymbol \Lambda\mid\) se refiere al determinante de la matriz \(\boldsymbol \Lambda\), la cual es simétrica y definida positiva de orden \(p\times p\).
Resultado A.22 Si \(\boldsymbol \Sigma\) es una matriz aleatoria con distribución inversa-Wishart con \(v\) grados de libertad, entonces \(E(\boldsymbol \Sigma)=\dfrac{1}{v-p-1}\boldsymbol \Lambda\)
Resultado 4.18 Si \(\boldsymbol \Sigma^{-1}\) es una matriz aleatoria con distribución inversa-Wishart, entonces con \(\boldsymbol \Sigma\) tiene distribución Wishart.

Referencias

———. 2003. Bayesian Data Analysis. 2.ª ed. Chapman; Hall/CRC.