1.1 Teoría de la decisión

El problema estadístico de estimar un parámetro se puede ver dentro del contexto de la teoría de decisión: la estimación que proveemos, sea en el ámbito de la estadística clásica o la estadística bayesiana, depende de los datos muestrales, \(\mathbf{X}\), de tal forma que si éstos cambian, la estimación también cambia. De esta manera, el proceso de estimación puede ser representado como una función que toma un conjunto de datos muestrales y los convierte en una estimación (\(A(\mathbf{X})\) o simplemente \(A\)) del parámetro de interés. En la teoría de decisión, la anterior función se conoce como una regla de decisión.

Así como en la vida cotidiana, por la incertidumbre del futuro (en el ámbito estadístico, por la incertidumbre acerca del parámetro), toda acción que se tome (toda estimación que se provea) puede traer consigo un grado de falla o riesgo. Y es necesario escoger la acción óptima que de alguna forma minimice ese riesgo. Formalizando esta idea intuitiva, se define la función de pérdida \(L\) que asocia a cada dupla conformada por la acción tomada y el parámetro de interés \(\theta\), \((A, \ \theta)\) con un número no negativo que cuantifica la pérdida que ocasiona la acción (o la estimación) \(A\) con respecto al parámetro \(\theta\).

Es claro que se desea escoger aquella acción que minimice de alguna forma la pérdida que ésta ocasiona, pero la función \(L\) no se puede minimizar directamente, puesto que:

  • En el ámbito de la estadística clásica, el parámetro \(\theta\) se considera fijo, y los datos muestrales \(\mathbf{X}\) aleatorios. Como la función de pérdida \(L\) depende de \(\mathbf{X}\), entonces ésta también será una variable aleatoria, y no se puede minimizar directamente. Por lo tanto se define el riesgo o la pérdida promedio como la esperanza matemática de \(L\); denotando el riesgo como \(R\), éste está definido como \(R=E(L)\) (la esperanza se toma con respecto a la distribución probabilística de \(\mathbf{X}\)).

  • En el ámbito de la estadística bayesiana, \(\theta\) sigue siendo una cantidad fija, pero la incertidumbre que tiene el investigador sobre la localización del parámetro se puede modelar mediante funciones de probabilidad. La herramienta fundamental para conocer características de \(\theta\) es su función de densidad posterior \(p(\theta|\mathbf{X})\). En este caso, el riesgo \(R\) se define como

\[\begin{equation*} R=E(L)=\int L(A, \theta)p(\theta|\mathbf{X})d\theta \end{equation*}\]

En cualquiera de los dos casos anteriores, se busca la estimación que minimice el riesgo \(R\). Ilustramos los anteriores conceptos en los siguientes ejemplos tanto en la estadística clásica como en la estadística bayesiana.

Ejemplo 1.1 Sea \(X_i\) con \(i=1,\cdots, n\) una muestra aleatoria con media \(\theta\) y varianza \(\sigma^2\), ambas fijas, y suponga que se desea encontrar el mejor estimador de \(\theta\) bajo la función de pérdida cuadrática dada por

\[\begin{equation*} L(A,\theta)=(A-\theta)^2 \end{equation*}\]

cuyo riesgo asociado está dado por \(R=E(A-\theta)^2\). En primer lugar, buscaremos dicho estimador dentro de todas las formas lineales de \(X_i\), es decir, los estimadores de la forma \(A=\sum_{i=1}^nc_iX_i\). Por tanto, el riesgo se puede expresar como \[\begin{align*} R=E(A-\theta)^2&=Var(A)+(E(A)-\theta)^2\\ &=\sum_{i=1}^nc_i^2\sigma^2+\theta^2(\sum_{i=1}^nc_i-1)^2 \end{align*}\]

Y al buscar los coeficientes \(c_i\) que minimizan la anterior expresión, encontramos que \(c_i=\theta^2/(\sigma^2+n\theta^2)\) para todo \(i\). Como estos coeficientes conducen a un estimador que depende del parámetro desconocido, concluimos que no hay ningún estimador que minimiza el riesgo.

Para encontrar una solución, es necesario restringir aún más el rango de estimadores; para eso, se impone la restricción de que \(\sum_{i=1}^n c_i=1\). De esta forma, el riesgo está dado por \(R=\sum c_i^2\sigma^2\). Dado que \(\sigma^2\) es fijo, al minimizar \(\sum c_i^2\) sujeto a la restricción, se tiene que la solución es \(c_i=1/n\) para todo \(i\), y así encontramos que el mejor estimador (en el sentido de minimizar el riesgo de la función de pérdida cuadrática) dentro de todas las formas lineales con \(\sum c_i=1\) es la media muestral \(\bar{X}\).

Ejemplo 1.2 Suponga que se desea estimar un parámetro de interés \(\theta\) en el contexto de la estadística bayesiana y denotamos la función de densidad posterior de \(\theta\) como \(p(\theta|\mathbf{X})\), entonces si utilizamos la función de pérdida cuadrática, el riesgo asociado será

\[\begin{align*} R&=E(L(A,\theta))=E (A-\theta)^2=Var(\theta)+(E(\theta)-A)^2 \end{align*}\]

que es minimizado si \(A=E(\theta)\). Es decir, la mejor acción para estimar \(\theta\) es utilizar su tomada con respecto a la distribución posterior \(p(\theta|\mathbf{X})\).

Ejemplo 1.3 En el mismo contexto del ejemplo anterior, si cambiamos la función de pérdida a la siguiente \[\begin{equation*} L(A,\theta)=|A-\theta|=(A-\theta)I_{(A\geq\theta)}+(\theta-A)I_{(\theta>A)} \end{equation*}\]

El riesgo estará dado por \[\begin{align*} R&=E(L(A,\theta))\\ &=\int L(A,\theta)p(\theta|\mathbf{X})d\theta\\ &=\int_{(A\geq\theta)}(A-\theta)p(\theta|\mathbf{X})d\theta+\int_{(\theta>A)}(\theta-A)p(\theta|\mathbf{X})d\theta \end{align*}\]

Derivando el riesgo con respecto a la acción \(A\), se tiene que \[\begin{equation*} \frac{\partial R}{\partial A}=\int_{(A\geq\theta)}p(\theta|\mathbf{X})d\theta-\int_{(\theta>A)}p(\theta|\mathbf{X})d\theta \end{equation*}\]

Igualando a cero, tenemos que \[\begin{equation*} \int_{(A\geq\theta)}p(\theta|\mathbf{X})d\theta=\int_{(\theta>A)}p(\theta|\mathbf{X})d\theta=0.5 \end{equation*}\]

Y concluimos que la acción \(A\) que induce menor riesgo corresponde al percentil 50% o la mediana de la distribución posterior de \(\theta\).


De los anteriores ejemplos se observa que, bajo un mismo contexto, cuando se utilizan diferentes funciones de pérdida, también se obtienen distintas estimaciones, y distintas acciones que optimizan el riesgo.