1.3 Teorema de Bayes

Desde la revolución estadística de Pearson y Fisher, la inferencia estadística busca encontrar los valores que parametrizan a la distribución desconocida de los datos. El primer enfoque, propuesto por Pearson, afirmaba que si era posible observar a la variable de interés en todos y cada uno de los individuos de una población, entonces era posible calcular los parámetros de la distribución de la variable de interés; por otro lado, si solo se tenía acceso a una muestra representativa, entonces era posible calcular una estimación de tales parámetros. Sin embargo, Fisher discrepó de tales argumentos, asumiendo que las observaciones están sujetas a un error de medición y por lo tanto, así se tuviese acceso a toda la población, sería imposible calcular los parámetros de la distribución de la variable de interés.

Del planteamiento de Fisher resultaron una multitud de métodos estadísticos para la estimación de los parámetros poblacionales. Es decir, si la distribución de \(\mathbf{Y}\) está parametrizada por \(\boldsymbol \theta=(\theta_1,\ldots,\theta_K)\), \(\boldsymbol \theta\in \Theta\) con \(\Theta\) el espacio paramétrico inducido por el comportamiento de la variable de interés, el objetivo de la teoría estadística inferencial es calcular una estimación \(\hat{\boldsymbol \theta}\) del parámetro \(\boldsymbol \theta\), por medio de los datos observados. En este enfoque, los parámetros se consideran cantidades fijas y constantes. Sin embargo, en la última mitad del siglo XX, algunos investigadores estadísticos comenzaron a reflexionar acerca de la naturaleza de \(\boldsymbol \theta\) y enfocaron la inferencia estadística de una manera distinta: asumiendo que la distribución de la variable de interés está condicionada a valores específicos de los parámetros. Es decir, en términos de notación, si la variable de interés es \(\mathbf{Y}\), su distribución condicionada a los parámetros toma la siguiente forma \(p(\mathbf{Y} \mid \boldsymbol \theta)\). Esto implica claramente que en este nuevo enfoque la naturaleza de los parámetros no es constante.

En términos de inferencia para \(\boldsymbol \theta\), es necesario encontrar la distribución de los parámetros condicionada a la observación de los datos. Para este fin, es necesario definir la distribución conjunta de la variable de interés con el vector de parámetros. \[\begin{equation*} p(\boldsymbol \theta,\mathbf{Y})=p(\boldsymbol \theta)p(\mathbf{Y} \mid \boldsymbol \theta) \end{equation*}\]

A la distribución \(p(\boldsymbol \theta)\) se le conoce con el nombre de distribución previa y en ella se enmarcan todas y cada una de las creencias que se tienen acerca del comportamiento estocástico del vector de parámetros antes de que ocurra la recolección de los datos; \(p(\mathbf{Y} \mid \boldsymbol \theta)\) es la distribución de muestreo, verosimilitud o distribución de los datos. Por otro lado, la distribución del vector de parámetros condicionada a los datos observados está dada por

\[\begin{equation} \tag{1.1} p(\boldsymbol \theta\mid \mathbf{Y})=\frac{p(\boldsymbol \theta,\mathbf{Y})}{p(\mathbf{Y})}=\frac{p(\boldsymbol \theta)p(\mathbf{Y} \mid \boldsymbol \theta)}{p(\mathbf{Y})} \end{equation}\]

A la distribución \(p(\boldsymbol \theta\mid \mathbf{Y})\) se le conoce con el nombre de distribución posterior y en ella se enmarcan las creencias actualizadas acerca del comportamiento estocástico del vector de parámetros teniendo en cuenta los datos observados \(\mathbf{Y}\). Nótese que la expresión (1.1) se compone de una fracción cuyo denominador no depende del vector de parámetros y considerando a los datos observados como fijos, corresponde a una constante y puede ser obviada. Por lo tanto, otra representación de la regla de Bayes está dada por

\[\begin{align} \tag{1.2} p(\boldsymbol \theta\mid \mathbf{Y})\propto p(\mathbf{Y} \mid \boldsymbol \theta)p(\boldsymbol \theta) \end{align}\]

A. Gelman et al. (2003) menciona que esta expresión se conoce como la distribución posterior no-normalizada y encierra el núcleo técnico de la inferencia bayesiana. La constante \(p(\mathbf{Y})\) faltante en la expresión (1.2) se da a continuación.

Resultado 1.4 La expresión \(p(\mathbf{Y})\) corresponde a una constante \(k\) tal que \[\begin{equation*} k=p(\mathbf{Y})=E_{\boldsymbol \theta}[p(Y \mid \boldsymbol \theta)] \end{equation*}\]


Prueba. Nótese que \[\begin{equation*} k=p(\mathbf{Y})=\int p(\mathbf{Y},\boldsymbol \theta)\ d\boldsymbol \theta=\int p(\boldsymbol \theta)p(\mathbf{Y} \mid \boldsymbol \theta)\ d\boldsymbol \theta. \end{equation*}\] entonces \[\begin{align*} k&=\int p(\mathbf{Y} \mid \boldsymbol \theta)p(\boldsymbol \theta)\ d\boldsymbol \theta\\ &=E_{\boldsymbol \theta}[p(Y \mid \boldsymbol \theta)] \end{align*}\]


Curiosamente, el reverendo Thomas Bayes nunca publicó este resultado, sino que después de su fallecimiento, su amigo el filósofo Richard Price, encontró los escritos dentro de sus pertenencias, y éstos fueron publicados en el 1764 en Philosophical Transactions of the Royal Society of London. Aunque el teorema de Bayes fue nombrado en honor de Thomas Bayes, es casi seguro que él mismo no sospechaba del gran impacto de su resultado. De hecho, aproximadamente una década más tarde, Pierre-Simon Laplace también descrubrió el mismo principio, y dedicó gran parte de su vida extendiéndolo y formalizándolo. Más aún, él analizó grandes volumenes de datos relacionados a los nacimientos en diferentes paises para confirmar esta teoría, y sentó las bases de la estadística bayesiana.

A continuación se presenta un ejemplo simple de este sencillo pero poderoso teorema.

Ejemplo 1.4 Suponga que una fábrica del sector industrial produce bolígrafos y que la producción está a cargo de tres máquinas. La primera máquina produce el 50% del total de bolígrafos en el año, la segunda máquina produce el 30% y la última maquina produce el restante 20%. Por supuesto, esta producción esta sujeta al error y por tanto, basados en la experiencia, es posible reconocer que, de los artículos producidos por la primera máquina, el 5% resultan defectuosos; de los artículos producidos por la segunda máquina, el 2% resultan defectuosos y, de los artículos producidos por la última máquina, el 6% resultan defectuosos.

Una pregunta natural que surge es acerca de la probabilidad de selección de un artículo defectuoso y para responder a esta pregunta con rigurosidad de probabilística es necesario enfocar la atención en los tópicos básicos que dejamos atrás. En primer lugar, el experimento en cuestión es la selección de un bolígrafo. Para este experimento, una terna \((\Omega, \mathfrak{F}, P)\),1 llamada comúnmente espacio de medida o espacio de probabilidad, está dada por

  1. El espacio muestral: \(\Omega=\{\text{defectuoso}, \text{No defectouso}\}\)
  2. La \(\sigma\)-álgebra: \(\mathfrak{F}=\{\Omega, \phi, \{\text{Defectuoso}\}, \{\text{No Defectuoso}\}\}\)
  3. La función de probabilidad: \[\begin{align*} p: \mathfrak{F} &\longrightarrow [0,1]\\ \Omega &\longrightarrow 1\\ \phi &\longrightarrow 0\\ \{Defectuoso\}&\longrightarrow P(D)\\ \{No Defectuoso\}&\longrightarrow 1-P(D) \end{align*}\] en donde, acudiendo al teorema de probabilidad total, se define \[\begin{equation*} p(D)=p(D \mid M1)P(M1)+p(D \mid M2)P(M2)+p(D \mid M3)P(M3) \end{equation*}\]

Sin embargo, también es posible plantearse otro tipo de preguntas que sirven para calibrar el proceso de producción de artículos defectuosos. Por ejemplo, cabe preguntarse acerca de la probabilidad de que, habiendo seleccionado un artículo defectuoso, éste provenga de la primera máquina2. En esta ocasión, el experimento ha cambiado y ahora se trata de seleccionar un artículo defectuoso y para responder a tal cuestionamiento, se debe establecer rigurosamente el espacio de probabilidad que puede estar dado por

  1. El espacio muestral: \(\Omega=\{M1, M2, M3 \}\)
  2. La \(\sigma\)-álgebra: \(\mathfrak{F}^+=\{\Omega, \phi, \{M1\}, \{M2,M3\}\}\)
  3. La función de probabilidad: \[\begin{align*} p: \mathfrak{F}^+ &\longrightarrow [0,1]\\ \Omega &\longrightarrow 1\\ \phi &\longrightarrow 0\\ \{M1\}&\longrightarrow p(M1 \mid D)\\ \{M2,M3\}&\longrightarrow 1-p(M1 \mid D) \end{align*}\] en donde, acudiendo a la probabilidad condicional, se define \[\begin{equation*} p(M1 \mid D)=\frac{p(D \mid M1)P(M1)}{p(D \mid M1)P(M1)+p(D \mid M2)P(M2)+p(D \mid M3)P(M3)} \end{equation*}\]

La anterior función de probabilidad se conoce con el nombre de regla de probabilidad de Bayes y, aparte de ser el baluarte de la mayoría de investigaciones estadísticas que se plantean hoy en día, ha sido la piedra de tropiezo de muchos investigadores radicales que trataron de estigmatizar este enfoque tildando a sus seguidores de mediocres matemáticos y pobres probabilistas afirmando que la regla de probabilidad de Bayes es sólo un artilugio diseñado para divertirse en el tablero.

Pues bien, la interpretación de la regla de bayes se puede realizar en el sentido de actualización de la estructura probabilística que gobierna el experimento. Y esta actualización tiene mucho sentido práctico cuando se cae en la cuenta de que la vida real está llena de calibradores y que las situaciones generadas son consecuencia de algún cambio estructural. De esta forma, el conocimiento de la probabilidad de que el artículo sea producido por la primera máquina se actualiza al conocer que este artículo particular es defectuoso y de esta manera calibra la estructura aleatoria que existe detrás del contexto de la fábrica de bolígrafos. Aparte de servir para resolver problemas como el anteriormente mencionado, la regla de bayes ha marcado el comienzo de un nuevo enfoque de análisis de datos, no solamente porque hace explícitas las relaciones causales entre los procesos aleatorios, sino también porque facilita la inferencia estadística y la interpretación de los resultados.


En el campo de la medicina, también se ha visto un gran número de la aplicación del teorema de Bayes. A continuación se enuncia uno de ellos:

Ejemplo 1.5 El Grupo de Trabajo de Servicios Preventivos de los Estados Unidos (USPSTF) hizo unas nuevas y controversiales recomendaciones recomendaciones sobre la detección del cáncer de mama dentro de los cuales no recomienda el examen de la mamografía en mujeres entre 40 y 49 años de edad, afirmando que la práctica bienal de este examen debe ser una decisión individual según el contexto particular de la paciente. Por otro lado, la USPSTF sí recomienda tal práctica de forma bienal en grupos de mujeres de entre 50 y 74 años de edad, puesto que no encontró suficiente evidencia de beneficio o daño adicional en realizar este examen en mujeres mayores a los 74 años. Además, también recomendó no realizar auto exámanes de senos, contrario a las recomendaciones y consejos que da la mayoría de los profesionales y organizaciones de la salud, incluyendo la Amerian Cancer Society. Como información adicional, se sabe que:

  • Los expertos estiman que un 12.3% de las mujeres desarrollan formas invasivas del cáncer de mama durante la vida.
  • La probabilidad de que una mujer desarrolle el cáncer de mama entre los 40 y los 49 años de edad es 1 en 69, y esta probabilidad aumenta a medida que envejezca, de tal forma que llega a ser de 1 en 38 en mujeres de entre 50 y 59 años.
  • El cáncer de mama es más difícil de detectar en mujeres jóvenes puesto que el tejido mamario es más denso y fibroso. Los expertos estiman que la tasa de un falso positivo es de 97.8 por cada 1000 mujeres de 40 y 49 años, y esta tasa disminuye a 86.6 por cada 1000 mujeres entre 50 y 59 años.
  • La tasa de un falso negativo es de 1 por cada 1000 mujeres de 40 y 49 años, y es de 1.1 por cada 1000 mujeres entre 50 y 59 años.

Resumiendo las anteriores afirmaciones, tenemos las siguientes probabilidades

Probabilidad 40 - 49 50 - 59 años
Cáncer 1/69=0.01449 1/38=0.02632
No cáncer 68/69=0.9855 37/38=0.97368
Positivo \(\mid\) No cáncer 0.0978 0.0866
Negativo \(\mid\) No cáncer 0.9022 0.9134
Positivo \(\mid\) Cáncer 0.999 0.9989
Negativo \(\mid\) Cáncer 0.001 0.0011

Utilizando la regla de Bayes, se puede calcular las siguientes probabilidades para mujeres de 40 y 49 años: \[\begin{align*} P(\text{Cáncer}|\text{Positivo})&=\frac{P(\text{Positivo}|\text{Cáncer})P(\text{Cáncer})}{P(\text{Positivo}|\text{Cáncer})P(\text{Cáncer})+P(\text{Positivo}|\text{No cáncer})P(\text{No cáncer})}\\ &=\frac{0.999*0.01449}{0.999*0.01449+0.0978*0.9855}\\ &=0.1305 \end{align*}\]

\[\begin{align*} P(\text{Cáncer}|\text{Negativo})&=\frac{P(\text{Negativo}|\text{Cáncer})P(\text{Cáncer})}{P(\text{Negativo}|\text{Cáncer})P(\text{Cáncer})+P(\text{Negativo}|\text{No cáncer})P(\text{No cáncer})}\\ &=\frac{0.001*0.01449}{0.001*0.01449+0.9022*0.9855}\\ &=0.0000163 \end{align*}\]

Similarmente, se puede calcular estas dos probabilidades para las mujeres de 50 y 59 años.

Probabilidad 40 - 49 años 50 - 59 años
Cáncer \(\mid\) Positivo 0.1305985 0.23769
No cáncer \(\mid\) Positivo 0.8694223 0.7623123
Cáncer \(\mid\) Negativo 0.0000163 0.0000326
No cáncer \(\mid\) Negativo 0.9999837 0.9999674
Los anteriores resultados muestran cómo cambia la probabilidad de tener cáncer al condicionar en los resultados de la pruebe. Entre estos valores se puede ver que, con un resultado positivo en el examen, la probabilidad de tener efectivamente el cáncer es aproximadamente diez puntos porcentuales más bajo en mujeres de edad de 40 y 49 años, de donde se puede sustentar la recomendación de no efectuar este examen en mujeres de este rango de edad.


Referencias

———. 2003. Bayesian Data Analysis. 2.ª ed. Chapman; Hall/CRC.

  1. \(\Omega\) denota el conjunto de todos lo posibles resultados del experimento, \(\mathfrak{F}\) denota una \(\sigma\)-álgebra y \(P\) hace referencia ana medida de probabilidad propiamente definida.↩︎

  2. Por supuesto que la pregunta también es válida al indagar por la probabilidad de que habiendo seleccionado un artículo defectuoso, éste provenga de la segunda o tercera máquina.↩︎