9.2 Método de Máxima Verosimilitud

Uno de los métodos más utilizados en la estadística para estimar parámetros es el método de Máxima Verosimilitud, para utilizar este método debemos conocer la función de distribución de las variables de interés. Luego, si \(y_{1},y_{2},\ldots,y_{N}\) una muestra aleatoria de las variable de interés que siguen una distribución \(f(y;\theta)\). Por lo tanto, la función de verosimilitud está dada por:

\[ L(\theta)=\prod_{i=1}^{n}f(y_{i},\theta) \]

Para un mejor manejo de esta función se sugiere aplicar propiedades de los logaritmos generando la siguiente función

\[ l(\theta)=\sum_{i=1}^{n}\ln[f(y_{i},\theta)] \] Calculando las derivadas con respecto a \(\theta\) e igualando a cero tenemos el siguiente sistema de ecuaciones

\[ \sum_{i=1}^{N}\frac{\partial}{\partial\theta}\ln[f(y_{i},\theta)]=0 \]

Ahora, definiendo a \(u_{i}=\frac{\partial}{\partial\theta}\ln[f(y_{i},\theta)]\), entonces el sistema de ecuaciones tendría la siguiente forma:

\[ \sum_{i=1}^{N}u_{i}(\theta)=0 \] \(u_{i}\) es conocido el puntaje o de la unidad \(i\)-ésima. La solución de este sistema de ecuaciones, notada como \(\hat{\theta}_{MV}\), es conocida como el Estimador de Máxima Verosimilitud. Una bondad de este método es que podemos obtener una varianza asintótica del modelo \(\xi\), de la siguiente manera

\[ V_{\xi}(\hat{\theta}_{MV})\cong[J(\theta)]^{-1} \]

donde,

\[ J(\theta)=\sum_{i=1}^{N}\partial u_{i}(\theta)/\partial\theta \]

Como el anterior término depende del parámetro, un estimador consistente estaría dado por:

\[ \hat{V}_{\xi}(\hat{\theta}_{MV})=[J(\hat{\theta}_{MV})]^{-1} \]

donde,

\[ J(\hat{\theta}_{MV})=J(\theta)\mid_{\theta=\hat{\theta}_{MV}} \]

MV para una distribución Bernoulli

En el ejemplo introductorio que sirvió como punto de partida para esta discusión, se habló de que los datos de naturaleza \(\{0,1\}\) pueden ser modelados mediante una distribución Bernoulli, con parámetro de éxito \(\theta\). De esta forma, la función de verosimilitud está dada por:

\[ L(\theta) =\prod_{i=1}^{N}\theta^{y_{i}}(1-\theta)^{1-y_{i}} \]

Luego, aplicando logaritmo, se tiene que:

\[ l(\theta) =\sum_{i=1}^{N}\left[{y_{i}}\ln(\theta)+(1-y_{i})\ln(1-\theta)\right] \]

Por lo tanto, las ecuaciones de verosimilitud, definidas en función de las variables de puntaje () son:

\[ \sum_{i=1}^{N}\frac{\partial}{\partial\theta}\left[{y_{i}}\ln(\theta)+(1-y_{i})\ln(1-\theta)\right]=\sum_{i=1}^{N}u_{i}(\theta) \]

En donde, \(u_{i}(\theta)=\frac{y_{i}-\theta}{\theta(1-\theta)}\). Por tanto, igualando a cero, se obtiene que

\[ \frac{\partial}{\partial\theta}\ln(\theta)\bar{y}_{U}+\frac{\partial}{\partial\theta}\ln(1-\theta)(n-\bar{y}_{U})=0 \]

De lo cual se obtiene el estimador de máxima verosimilitud dado por:

\[ \hat{\theta}_{MV}=\bar{y}_{U}=P_{d} \]

Con varianza estimada dada por:

\[ \hat{V}_{\xi}(\hat{\theta}_{MV})=[J(\hat{\theta}_{MV})]^{-1} \]

En donde,

\[ J(\hat{\theta}_{MV})=\sum_{i=1}^{N}\frac{\partial}{\partial\theta}u_{i}(\theta)=\frac{N}{\bar{y}_{U}(1-\bar{y}_{U})}=\frac{N}{P_{d}(1-P_{d})} \]

Es decir que la estimación de la varianza para \(\hat{\theta}_{MV}=P_{d}\) es \(\hat{Var}_{\xi}(\hat{\theta}_{MV})=P_{d}Q_{d}/N\). En donde, \(Q_{d}=1-P_{d}\).

MV para una distribución normal

Ahora se ilustrará el método de Máxima Verosimilitud suponiendo la siguiente función de distribución de un variable aleatoria con distribución normal

\[ f(y;\theta)=\dfrac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left[-\dfrac{1}{2}\left(\dfrac{y_{i}-\theta^{2}}{\sigma^{2}}\right)\right] \]

Conociendo la función de distribución llegamos a la probabilidad conjunta

\[ L(\theta)=\prod_{i=1}^{N}\dfrac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left[-\dfrac{1}{2}\left(\dfrac{y_{i}-\theta^{2}}{\sigma^{2}}\right)\right] \]

Con un poco de álgebra llegamos a esta expresión

\[ L(\theta)=(2\pi\sigma^{2})^{-N/2}\exp[(-\dfrac{1}{2\sigma^{2}}\sum_{i=1}^{N}(y_{i}-\theta^{2})] \]

Aplicando logaritmos

\[ l(\theta)=ln(2\pi\sigma^{2})^{-N/2}[-\dfrac{1}{2\sigma^{2}}\sum_{i=1}^{N}(y_{i}-\theta^{2})] \]

Maximizando la anterior expresión llegamos a obtener el score \(u_{i}\)

\[ u_{i}=\partial l(\theta)/\partial\theta=\dfrac{1}{\sigma^{2}}\sum_{i=1}^{N}(y_{i}-\theta^{2})=0 \]

igualando a cero despejamos \(\theta\) y tenemos

\[ \theta=\dfrac{\sum_{i=1}^{N}y_{i}}{N}=\bar{Y} \] Llegamos a que una estimación por el método de Máxima Verosimilitud, para la función \(\theta\) que sigue una función de distribución normal, es el promedio poblacional \(\bar{Y}\).

MV para una regresión lineal múltiple

En un entorno matricial se puede tener en cuenta más de una variable predictora llevándonos a un modelo de regresión múltiple donde no solamente las variables \(y_{i}\) son continuas, sino que también pueden ser categóricas. A continuación, se presenta la estimación de parámetros del modelo.

El modelo adopta la forma \(X'\beta\), disponemos de \(X\) como una matriz de dimensión \(N\times i\), donde \(n\) es el tamaño de muestra e \(i\) es el número de variables predictoras, también se define un vector \(Y\) de tamaño \(n\) como la variable de interés y, por último, un vector \(\beta\) de tamaño \(i\). Suponiendo que \(X\) sigue una distribución normal tenemos la siguiente función:

\[ f(Y;X\beta)=\dfrac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left[-\dfrac{1}{2\sigma^{2}}(Y-X\beta)'(Y-X\beta)\right] \]

Conociendo la anterior función de distribución, llegaremos a la probabilidad conjunta de \(f\)

\[ L(Y;X\beta)=\prod_{i=1}^{n}\dfrac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left[-\dfrac{1}{2\sigma^{2}}(Y-X\beta)'(Y-X\beta)\right] \]

Con un poco de algebra matricial se llega a:

\[ L(Y;X\beta)=(2\pi\sigma^{2})^{-n/2}-\exp\left[\dfrac{1}{2\sigma^{2}}(Y'Y-Y'X\beta-(X\beta)'Y+(X\beta)'X\beta)\right] \] Aplicando propiedades de logaritmos nos queda la siguiente expresión:

\[ l(Y;X\beta)=ln(2\pi\sigma^{2})^{-n/2}-\dfrac{1}{2\sigma^{2}}(Y'Y-Y'X\beta-(X\beta)'Y+(X\beta)'X\beta) \] Maximizando el anterior resultado podemos llegar al score \(u_{i}\):

\[ \dfrac{\partial l(Y;X\beta)}{\partial\beta}=-\dfrac{1}{2\sigma^{2}}(-2X'Y+2X'X\beta) \]

Igualando a cero la derivada y despejando llegamos a la estimación de \(\beta\):

\[ \beta=(X'X)^{-1}(X'Y) \]

El anterior resultado es la estimación general de \(\beta\) en una regresión múltiple, obtenida bajo el método de Máxima Verosimilitud.