Introducción al Teorema de Bayes

Autor/a

Adriana Chávez, Lab25

Video

Introducción

El Teorema de Bayes (también conocido como Regla de Bayes) constituye una herramienta útil, tan flexible como poderosa, para estimar la probabilidad de que un determinado evento ocurra dada la observación de cierta evidencia.

La Regla de Bayes funciona a partir del cómputo de probabilidades. Como ya se discutió en el capítulo anterior, toda Probabilidad (\(p(x)\)) se define como un número real entre \(0\) y \(1\) que representa el grado de certidumbre que se tiene sobre la ocurrencia de un evento (\(x\)). En su definición más simple, la probabilidad puede computarse a partir de la razón entre el número de casos que incluyen al evento \(x\) y el total de casos que es posible de observar.

\[ p(x) = \frac{\text{Casos contemplados en X}}{\text{Totalidad de casos posibles}} \]

Ejemplos

  • La probabilidad de que al tirar una moneda, caiga en águila es de \(0.5\), porque sólo hay dos resultados posibles, mutuamente excluyentes, que asumimos tienen la misma probabilidad de ocurrir.

\[ p(\text{Obtener águila en un volado}) = \frac{1}{2} = 0.5 \]

  • La probabilidad de morir de un infarto durante el siguiente año en México es de \(0.059\), dado que 35 mil muertes de entre las 590,693 reportadas anualmente en México, son a causa de un infarto.

\[ p(\text{Morir de un infarto durante el proximo año}) = \frac{35,000}{590,693} = 0.059 \]

Probabilidad Condicional

La certidumbre que se tiene respecto a la ocurrencia de un evento \(A\) (\(p(A)\)) puede cambiar dependiendo la información a la que se tiene acceso. Por ejemplo, si observamos que ha ocurrido un evento \(B\), este puede proporcionar –o no- información relevante que cambie la certidumbre que se tenía inicialmente respecto al evento \(A\), dependiendo de si dichos eventos están relacionados. A la probabilidad de que ocurra un evento \(A\) dada (|) la observación de cierta evidencia B, \(p(A|B)\), se le conoce como probabilidad condicional.

Ejemplo

  • La probabilidad de que la mamá de Ana la deje salir de fiesta es mayor si antes de pedir permiso ordena su habitación, que si lo pide sin hacer nada.

\[ p(\text{Permiso}) < p(\text{Permiso}| \text{Quehacer}) \]

  • La probabilidad de que repruebe un examen de física avanzada es menor si he estudiado y leído al respecto, que si lo presento sin prepararme antes.

\[ p(\text{Reprobar}) > p(\text{Reprobar}| \text{He estado leyendo y viendo documentales sobre el tema}) \]

Independencia

Una vez establecida la noción de que cada evento en el mundo tiene una probabilidad de ocurrencia propia (\(p(x)\)) que puede, o no, variar tras observar otros eventos (\(p(x|\text{Otros eventos})\)), podemos distinguir formalmente entre eventos independientes y eventos no independientes:

  • Los eventos independientes, como su nombre sugiere, son aquellos cuya ocurrencia es independiente entre sí, por lo que la presentación de uno de ellos no altera la probabilidad de un segundo evento: Si sabemos que los eventos \(A\) y B son independientes, observar que ocurre \(B\) no añade información sobre la posible ocurrencia de \(A\).

\[ \begin{align} p(A|B) &= p(A) \\ p(B|A) &= p(B) \end{align} \]

  • Los eventos no independientes son aquellos cuya ocurrencia está relacionada en alguna medida; si observamos un evento \(B\), que sabemos guarda relación con un evento \(A\), su ocurrencia nos proporciona información para replantearnos la probabilidad de \(A\).

\[ \begin{align} p(A|B) &< p(A) \\ &\text{ó} \\ p(A|B) &> p(A) \end{align} \]

Derivación del Teorema de Bayes

Para calcular la Probabilidad Condicional de un evento \(A\) dada cierta evidencia \(B\), de tal forma que podamos saber si nuestra certidumbre ha incrementado o decrecido, y cuánto, tenemos la siguiente ecuación:

\[ \begin{equation} p(A|B) = \frac{p(A \cap B)}{p(B)} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (1) \end{equation} \]

La Ecuación 1 captura un razonamiento bastante intuitivo: Si queremos saber qué tan probable es el evento \(A\) dado que estoy usando la ocurrencia de \(B\) como referencia, primero hay que considerar la probabilidad de que ambos eventos aparezcan simultáneamente en el mundo (\(p(A \cap B)\)) y sopesar dicha probabilidad en relación a la probabilidad de que el evento \(B\) aparezca en el mundo (\(p(B)\)), independientemente de su relación con \(A\).

El diagrama de Venn que se muestra en la Figura 1 presenta el problema al que nos enfrentamos de manera gráfica: Imaginemos que estamos interesados en saber qué tan probable es el evento \(A\) una vez que hemos observado que ocurrió el evento \(B\). Antes de observar \(B\), tenemos una idea de cuál es la probabilidad de que ocurra \(A\), (\(p(A)\) , el área del círculo amarillo). Ahora, lo que nos interesa es utilizar la ocurrencia de \(B\) como una referencia para actualizar nuestro estimado inicial, (\(p(A|B)\)). Si sabemos que los eventos \(A\) y \(B\) suelen presentarse juntos en el mundo con cierta probabilidad, (\(p(A \cap B)\), el área verde donde ambos círculos se intersectan), necesitamos saber cuál es la probabilidad de que el evento observado \(B\) pertenezca a dicha área de intersección (en cuyo caso, anunciaría la ocurrencia simultánea de \(A\)), en relación a su probabilidad marginal (\(p(B)\), el área total del círculo azul). Para ello, tenemos que obtener la razón entre el área de \(B\) que intersecta a \(A\) (la probabilidad conjunta de \(A\) y \(B\)) y el área total de \(B\) (la probabilidad marginal de \(B\)). La Ecuación 2 captura este razonamiento, llevándonos de vuelta a la Ecuación 1 previamente expuesta.

Figura 1. Diagrama de Venn representando la diferencia entre la probabilidad marginal de dos eventos posibles \(p(A)\) y \(p(B)\) y la probabilidad conjunta de los mismos \(p(A \cap B)\).

\[ \begin{equation} p(A|B) = \frac{\text{Probabilidad Conjunta A y B}}{\text{Probabilidad Marginal B}} = \frac{p(A \cap B)}{p(B)} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (2) \end{equation} \]

De acuerdo a las Leyes de la Probabilidad, la probabilidad conjunta de dos eventos \(A\) y \(B\) se puede computar con la siguiente ecuación:

\[ p(A \cap B) = p(A) \cdot p(B|A) \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (3) \]

Si insertamos la Ecuación 3 en el numerador de la Ecuación 2, obtenemos una ecuación que nos permite calcular la probabilidad de un evento \(A\) dada la observación de cierta evidencia \(B\). La ecuación resultante es el Teorema de Bayes.

\[ \begin{equation} p(A|B) = \frac{p(A \cap B)}{p(B)} = \frac{p(A) \cdot p(B|A)}{p(B)} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (4) \end{equation} \]

Las Ecuaciones 3 y 4 permiten enfatizar una diferencia importante en términos de la información que podemos extraer sobre la posible ocurrencia de \(A\) tras la observación de \(B\), dependiendo de si \(A\) y \(B\) están o no definidos como eventos independientes. De acuerdo a la relación previamente especificada en términos de la igualdad entre la probabilidad condicional y la probabilidad marginal, tendríamos que:

Si al tratarse de eventos independientes \(p(B|A) = p(B)\) y \(p(A|B) = p(A)\), entonces:

\[\begin{align} p(A \cap B) &= p(A) \cdot p(B|A) \\ &= p(A) \cdot p(B) \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (5) \end{align}\]

La Ecuación 5, que no es más que otra forma de expresar la ecuación general que define las probabilidades conjuntas para el caso específico en que los eventos a evaluar son independientes, es de hecho identificada dentro de las leyes de la probabilidad como aquella que describe ‘la probabilidad conjunta de eventos independientes’.

Finalmente, si sustituimos la Ecuación 5 en el Teorema de Bayes, reafirmamos formalmente que, dada su independencia, la observación de un evento \(A\) o \(B\), no proporciona información adicional sobre la ocurrencia del otro:

\[ \begin{equation} p(A|B) = \frac{p(A \cap B)}{p(B)} = \frac{p(A) \cdot p(B)}{p(B)} = p(A) \end{equation} \]

Una vez desglosada la estructura y función de la Regla de Bayes, conviene familiarizarnos con la nomenclatura utilizada para referirnos a cada uno de los términos incluidos en el Teorema.

  1. La probabilidad prior ~ \(p(A)\)

Al estimado inicial que tenemos sobre la probabilidad de ocurrencia del evento de interés \(A\), antes de ver cualquier evidencia, se le conoce como probabilidad prior.

  1. La verosimilitud ~ \(p(B|A)\)

En el numerador del Teorema de Bayes, encontramos dos términos que al multiplicarse representan la probabilidad conjunta de ocurrencia del evento de interés \(A\) y la evidencia B. Uno de ellos corresponde a la probabilidad prior; el segundo, se expresa como la probabilidad condicional de observar la evidencia \(B\) cuando el evento de interés \(A\) de hecho ocurre. \(A\) esta segunda probabilidad condicional, se le conoce como verosimilitud. Tal como su nombre sugiere, la verosimilitud nos proporciona un indicador de la relación entre la evidencia \(B\) y el evento \(A\), a partir de un razonamiento inverso: Cuando \(A\) de hecho ocurre, ¿con qué probabilidad aparece en compañía de \(B\)? Es importante enfatizar que, contrario a lo que la intuición podría sugerir, las dos probabilidades condicionales implicadas en el Teorema de Bayes no son equivalentes. Es decir:

\[ p(A|B) \neq p(B|A) \]

Esta relación suele quedar más clara si lo pensamos en términos de un ejemplo concreto: Imaginemos que estamos interesados en estimar la probabilidad de que llueva hoy, dado que vemos el cielo nublado. Hacernos esta pregunta tiene sentido, porque existe incertidumbre respecto a la posibilidad de que llueva, que puede reducirse sabiendo si el cielo está o no nublado. Sin embargo, sería extraño que nos preguntáramos si el cielo está nublado dado que escuchamos la lluvia caer, ya que sabemos que siempre que llueve es porque hay nubes en el cielo descargando agua. De tal forma que:

\[ p(\text{Lluvia}|\text{Cielo Nublado}) \neq p(\text{Cielo Nubaldo}|\text{Lluvia}) \]

A primera vista, puede parecer confuso que el cálculo de una probabilida condicional dependa de nuestro conocimiento de una segunda probabilidad condicional. Sin embargo, estimar la verosimilitud no es tan complicado una vez que se conoce la estructura del entorno en que situamos nuestra predicción. Por ejemplo, regresando al ejemplo anterior, sabemos que la verosimilitud que relaciona el cielo nublado con los días lluviosos tiene un valor de 1.

\[ p(\text{Cielo Nubaldo}|\text{Lluvia}) = 1 \]

  1. La verosimilitud Marginal ~ \(p(B)\)

A la probabilidad marginal de observar el evento \(B\) que estamos tomando como referencia para estimar la probabilidad de ocurrencia de \(A\), la conocemos como verosimilitud marginal. La verosimilitud marginal se define formalmente de la siguiente forma:

\[ p(B) = \sum_i p(A_i) \cdot p(B|A_i) = \sum_i p(A_i \cap B) \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (6) \]

La Ecuación 6 define la verosimilitud marginal como una sumatoria de probabilidades conjuntas. Tal y como lo hemos manejado hasta ahora, A corresponde al Evento cuya probabilidad interesa calcular y \(B\) a la evidencia que estamos observando y con base en la cual hacemos el cómputo. El subíndice \(i\), indica que la sumatoria puede extenderse a tanta probabilidades conjuntas como eventos nos interese estimar (\(\{A_1, A_2, \dots, A_n\}\)). Por ejemplo, si interesa estimar la probabilidad de un solo evento \(A\), identificamos la no ocurrencia de \(A\) (\(\overline{A}\)) como la única alternativa posible. Entonces, la verosimilitud marginal se obtiene sumando la probabilidad conjunta de los eventos \(A\) y \(B\) (\(B \cap A\)), y la probabilidad conjunta de que se observe la evidencia \(B\) en ausencia de \(A\) (\(B \cap \overline{A}\)):

\[ p(B) = (p(A) \cdot p(B|A)) + (p(\overline{A}) \cdot p(B|\overline{A})) \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (7) \]

  1. La probabilidad posterior ~ \(p(A|B)\)

Al estimado final de la probabilidad de ocurrencia del evento \(A\), una vez habiendo ponderado la información aportada por la evidencia \(B\), se le conoce como probabilidad posterior.

\[ \begin{align} p(A|B) &= \frac{p(A) \cdot p(B|A)}{p(B)} \\ \text{Probabilidad Posterior} &= \frac{\text{prior} \cdot \text{verosimilitud}}{\text{verosimilitu marginal}} \end{align} \]


Una vez entendiendo para qué sirve el Teorema de Bayes, cómo funciona y qué reglas de la probabilidad sigue, y habiendo identificado las ‘etiquetas’ dadas a cada uno de los términos que le componen, ¡Felicidades! Ya estás hablando en ‘Bayes’.

Ejemplo.

Problema de Contenedores

Imagina que eres invitado al gran banquete que el rey dará en su castillo. El rey es conocido por ser un tirano despiadado que se enriquece a costa de la pobreza de su pueblo y tú quieres poner fin a ello, envenenándolo. Te has enterado que en todas sus reuniones el rey siempre manda hacer tartas de fresa y vainilla, por lo que decides preparar 50 tartas de vainilla y 50 tartas de fresa cargadas de un veneno mortal. Cuando llegas al banquete y te infiltras en la cocina para dejar tus tartas envenenadas, te das cuenta de que el rey ya había mandado hacer 170 tartas de vainilla y 30 tartas de fresa. Mantienes esta información en mente mientras revuelves tus tartas envenenadas con las tartas hechas en el castillo.

Regresas a tomar tu lugar en el banquete. Los vasallos leales al rey te dan la bienvenida, aunque parecen renuentes a confiar demasiado en ti durante tu primera visita. Uno de ellos notó tu visita a la cocina y te interroga al respecto. Dices que fuiste a depositar cien tartas que tú mismo preparaste, de vainilla y fresa por ser los sabores preferidos del rey, como muestra de gratitud. El vasallo suspicaz huele tus malas intenciones y frente a todos, saca una tarta aleatoria del montón revuelto que hay en la cocina y te pide que la comas. La tarta es de vainilla. ¿Cuál es la probabilidad de que mueras al comerla?

Para comenzar a resolver el problema, lo primero que tenemos que hacer es definir la probabilidad que nos interesa calcular y la ubicamos como una instancia del Teorema de Bayes.

\[ p(\text{La tarta está envenenada | La tarta es de vainilla}) \]

\[\begin{align} p(A|B) &= \frac{p(A) \cdot p(B|A)}{p(B)} \\ p(\text{Veneno | Vainilla}) &= \frac{p(\text{Veneno}) \cdot p(\text{Vainilla | Veneno})}{p(\text{Vainilla})} \end{align}\]

Una vez identificando la probabilidad posterior que nos interesa calcular, sólo queda definir qué valores toma cada término de la ecuación. Empezamos con la probabilidad prior de que al extraer una tarta aleatoriamente, esta pertenezca al lote envenenado. Sabemos que en la cocina del castillo hay un total de \(300\) tartas, de las cuales \(100\) están envenenadas. Por lo tanto, la probabilidad de que al sacar una tarta del montón, al azar, esta pertenezca al grupo de las tartas envenenadas es de \(\frac{1}{3}\). Es decir:

  • \(p(\text{Veneno}) = 0.333\)

La verosimilitud nos proporciona una medida de correspondencia entre la evidencia que tenemos y el evento cuya probabilidad queremos inferir a partir de su ocurrencia. Es decir, corresponde a la probabilidad de sacar una tarta de vainilla, asumiendo que la tarta sacada aleatoriamente salió del lote envenenado. Como sabemos que el lote envenenado estaba compuesto por \(100\) tartas, mitad de vainilla y mitad de fresa, decimos que:

  • \(p(\text{Vainilla | Veneno}) = 0.5\)

Por último, falta definir la verosimilitud marginal. Es decir, saber qué tan probable es que la tarta que se extrajo aleatoriamente del montón total de tartas fuera de vainilla, con independencia de si está o no envenenada. Podemos calcular la probabilidad marginal directamente, obteniendo la razón entre el número de tartas de vainilla y el número total de tartas en el castillo, es decir:

\[ p(\text{Vainilla}) = \frac{220 \text{ tartas de vainilla}}{330 \text{ tartas en el castillo}} = 0.7333 \]

Una manera más formal de calcular la verosimilitud marginal, (Ver Ecuación 7), implica sumar los productos de las probabilidades prior de cada uno de los eventos posibles (\(p(\text{Veneno})\) y \(p(\text{No veneno})\)) con la respectiva verosimilitud que relaciona la evidencia observada con cada uno (\(p(\text{Vainilla | Veneno})\) y \(p(\text{Vainilla | No Veneno})\)). Como vemos, el resultado es el mismo:

\[\begin{align} p(\text{Vainilla}) &= (p(\text{Veno}) \cdot p(\text{Vainilla | Veneno})) + (p(\text{Veno}) \cdot p(\text{Vainilla | No Veneno})) \\ p(\text{Vainilla}) &= (0.333 \cdot 0.5) + (0.666 \cdot 0.85) \\ p(\text{Vainilla}) &= 0.1666 + 0.5666 \\ p(\text{Vainilla}) &= 0.7333 \\ \end{align}\]

Finalmente, tenemos todo lo necesario para saber cuál es la probabilidad de que la tarta de vainilla esté envenenada:

\[\begin{align} p(\text{Veneno | Vainilla}) &= \frac{p(\text{Veneno}) \cdot p(\text{Vainilla | Veneno})}{p(\text{Vainilla})} \\ p(\text{Veneno | Vainilla}) &= \frac{0.333 \cdot 0.5}{0.7333} \\ p(\text{Veneno | Vainilla}) &= 0.2272 \\ \end{align}\]

Es decir, que después de todo parece ser que puedes comerte la tarta de vainilla con cierta tranquilidad, ya que la probabilidad de que mueras después de comerla es relativamente baja. Un buen ejercicio para corroborar que nuestros cálculos estén representando adecuadamente la distribución de la probabilidad entre los distintos eventos contemplados, definidos como mutuamente excluyentes, es calcular la probabilidad de que la tarta de vainilla no esté envenenada. Si hemos hecho todo bien, deberíamos esperar que el resultado de aplicar la misma fórmula a la alternativa opuesta, sea el complemento de la probabilidad de que la tarta de vainilla esté envenenada. Comprobémoslo:

\[\begin{align} p(\text{No Veneno | Vainilla}) &= \frac{p(\text{Veneno}) \cdot p(\text{Vainilla | No Veneno})}{p(\text{Vainilla})} \\ p(\text{No Veneno | Vainilla}) &= \frac{0.666 \cdot 0.85}{0.7333} \\ p(\text{No Veneno | Vainilla}) &= 0.7726 \\ \end{align}\]

Al sumar las probabilidades posteriores obtenidas para cada uno de los escenarios posibles, (la tarta está, o no, envenenada), vemos que efectivamente se trata de eventos mutuamente excluyentes, que suman a 1.

\[\begin{align} p(\text{Veneno | Vainilla}) &+ p(\text{No Veneno | Vainilla}) = 1 \\ (0.2272) &+ (0.7726) = 1 \\ \end{align}\]

Ejemplo con Python

Veamos como calcular los priors de las tartas.

Haz Clic para ver el Código
```{python}
#Cargamos las librerias necesarias 
from matplotlib.pylab import hist, show  #Importar la propiedad de histograma y mostrar, desde la libreria matplotlib
import matplotlib.pyplot as plt #Importamos la propiedad de gráficos desde la libreria matplotlib


#Ubicamos los datos relevantes en nuestro problema:
#1) Preparaste 50 tartas de vainilla y 50 tartas de fresa envenenadas.
#2) En el castillo ya habían 170 tartas de vainilla y 30 tartas de fresa hechas.
#3) Revuelves las tartas Envenenadas con las No envenenadas.
#4) Te obligan a comer una tarta extraida aleatoriamente del monton. 
#5)La tarta es de vainilla. 
#¿Cuál es la probabilidad de que mueras al comerla?

#Definimos los eventos posibles, siendo estos mutuamente exclusivos.
Evento_A = 'Veneno'
Evento_B = 'No Veneno'
#Ubicamos los eventos posibles dentro de un arreglo '[]'
#esto nos servirá más adelante para facilitar su representación gráfica.
Eventos_Posibles = [Evento_A,Evento_B]

#Definimos las Priors
#Cuando sólo existen dos escenarios posibles, mutuamente excluyentes,
#solo necesitamos especificar una de las priors; asumiendo que la segunda 
#es simplemente su complemento.
Prior_A = 0.333 #Solo 100 de las 300 tartas en el castillo estan envenenadas
Prior_B = 1-Prior_A
#Graficamos las probabilidades prior 
Priors =[Prior_A,Prior_B] #Creamos un arreglo que contenga las priors
plt.bar(0.6,Priors[0],facecolor='#52E150')  #Dibujamos una barra para representar la primera prior 
plt.bar(1.6,Priors[1],facecolor='#B9E0B9') #Dibujamos una barra para representar la segunda prior
plt.text(1,Priors[0]+0.05,'%.4f' %Priors[0], ha='center', va='bottom') #Escribimos el valor de la primer prior encima de la barra
plt.text(2, Priors[1]+0.05, '%.4f' %Priors[1], ha='center',va='bottom') #Escribimos el valor de la segunda prior
plt.xlabel('Escenarios posibles') #Asignamos una etiqueta al eje de las abscisas
plt.ylabel('Probabilidad') #Asignamos una etiqueta al eje de las ordenadas
plt.title('Priors') #Titulo de nuestro primer gráfico
plt.ylim(0,1) #Rango de valores cubierto por el eje de las ordenadas
plt.xlim(0,3) #Longitud del eje de las abscisas
plt.xticks([1,2], Eventos_Posibles) # Pedimos que coloque cada uno de nuestros eventos posibles en las ubicaciones 1y 2 en X
plt.margins(0.2) 
plt.subplots_adjust(bottom=0.15)
show() #Imprimimos la grafica
```

Ahora calculemos la verosimilitud.

Haz Clic para ver el Código
```{python}
#Especificamos la Verosimilitud que relaciona los datos con cada escenario posible

#Para el Escenario 1 tenemos que:
Tartas_Veneno = 100.0 #Total de tartas envenenadas
Veneno_Vainilla = 50.0 #De las cuales, la mitad son de vainilla
Veneno_Fresa = 50.0 #Y la otra mitad, de fresa
Verosim_Vainilla_Veneno = Veneno_Vainilla/Tartas_Veneno #La probabilidad de sacar una tarta de vainilla puede expresarse como la razón de tartas de vainilla y tartas envenenadas
Verosim_Fresa_Veneno = Veneno_Fresa/Tartas_Veneno #La probabilidad de sacar una tarta de fresa, tambien puede expresarse como una razon
Verosimilitud_A = Verosim_Vainilla_Veneno #La verosimilitud que relaciona los datos (Tarta de Vainilla) con el Escenario 1 (Veneno) corresponde a la probabilidad de sacar una tarta de vainillad e dicho monton

#Para el Escenario 2
Tartas_NoVeneno = 200.0 #Total de tartas NO envenenadas
NoVeneno_Vainilla = 170.0 #De las cuales, 170 son de vainilla
NoVeneno_Fresa = 30.0 #y 30 de fresa
Verosim_Vainilla_NoVeneno = NoVeneno_Vainilla/Tartas_NoVeneno #La probabilidad de sacar una tarta de vainilla NO envenenada se expresa como una razon
Verosim_Fresa_NoVeneno = NoVeneno_Fresa/Tartas_NoVeneno #La probabilidad de sacar una tarta de fresa NO envenenada
Verosimilitud_B = Verosim_Vainilla_NoVeneno #La verosimilitud que relaciona la Tarta de Vainilla con el lote de tartas NO envenenadas, corresponde a la probabilidad de sacar una tarta de fresa de dicho monton



#Graficamos la Verosimilitud
Verosimilitudes =[Verosim_Vainilla_Veneno, Verosim_Fresa_Veneno,Verosim_Vainilla_NoVeneno, Verosim_Fresa_NoVeneno] #Creamos un arreglo quecontenga la verosimilitud que relaciona todos los datos posibkles (Sacar una tarta de vainilla o fresa) con los distintos escenarios contemplados (Veneno o No veneno)
plt.bar(0.4,Verosimilitudes[0],facecolor='#0B63AB', width=2) #Dibujamos la barra que corresponde a la probabilidad de sacar una tarta de Vainilla del lote Envenenado
plt.bar(3.5,Verosimilitudes[1],facecolor='#7AB7E8', width=2) #Dibujamos la barra que corresponde a la probabilidad de sacar una tarta de fresa del lote Envenenado
plt.bar(7.4,Verosimilitudes[2],facecolor='#0B63AB', width=2) #Dibujamos una barra para la probabilidad de sacar una tarta de vainilla del lote NO envenenado
plt.bar(11.5,Verosimilitudes[3],facecolor='#7AB7E8', width=2) #Dibujamos unabarra para la probabilidad de sacar una tarta de fresa del lote NO envenenado
plt.text(1.3,Verosimilitudes[0]+0.05,'%.4f' %Verosimilitudes[0], ha='center', va='bottom') #Escribimos los valores de cada barra
plt.text(3.9, Verosimilitudes[1]+0.05, '%.4f' %Verosimilitudes[1], ha='center',va='bottom')
plt.text(8.4,Verosimilitudes[2]+0.05,'%.4f' %Verosimilitudes[2], ha='center', va='bottom')
plt.text(12.5, Verosimilitudes[3]+0.05, '%.4f' %Verosimilitudes[3], ha='center',va='bottom')
plt.xlabel('La probabilidad de cada evidencia posible bajo cada escenario posible')
plt.ylabel('Probabilidad') #Colocamos una etiqueta a los ejes de las ordenadas y abscisas
plt.title('Verosimilitud')
plt.ylim(0,1)
plt.xlim(0,14) #Especificamos el espacio sobre el cual vamos a dibujar nuestras barras
plt.xticks([1.3,4.5,8.5,12.5], ['Vainilla|Veneno','Fresa|Veneno', 'Vainilla|No Veneno','Fresa|No Veneno']) #Pobemos un titulo a cada Barra, especificando la ubicacion donde se escribira
plt.margins(0.2) 
plt.subplots_adjust(bottom=0.15)
show()  
```

Igualmente calculemos la verosimilitud marginal.

Haz Clic para ver el Código
```{python}
#Calculamos la verosimilitud marginal
#Escribimos tal cual la ecuacion revisada en el capitulo donde se define la verosimilitud marginal
#como la sumaatoria de los productos de las prior y verosimilitudes de los distintos escenarios posibles
verosimilitud_marg = (((Prior_A)*(Verosimilitud_A))+((Prior_B)*(Verosimilitud_B)))
print("Versimilitud Marginal: ", verosimilitud_marg)
```
Versimilitud Marginal:  0.73345

Aplicamos el Teorema de Bayes para calcular la probabilidad posterior.

Haz Clic para ver el Código
```{python}
#Aplicamos la Regla de Bayes
#Escribimos la ecuacion sustituyendo cada termino por las variables previamente identificadas en el codigo
Posterior_A = ((Prior_A)*(Verosimilitud_A))/verosimilitud_marg
Posterior_B = ((Prior_B)*(Verosimilitud_B))/verosimilitud_marg
#Obtenemos una representacion grafica de nuestros resultados posteriores
probabilidades =[Posterior_A,Posterior_B] #Creamos un arreglo que contenga las Posteriores computadas
plt.bar(0.6,probabilidades[0],facecolor='#BA0505') #dibujamos la barra correspondiente a la probabilidad posterior del Escenario 1
plt.bar(1.6,probabilidades[1],facecolor='#F0A8BF')#Dibujamos la barra correspondiente al Escenario 2
plt.text(1,probabilidades[0]+0.05,'%.4f' %probabilidades[0], ha='center', va='bottom') #Escribimos el valor de la primer posterior
plt.text(2, probabilidades[1]+0.05, '%.4f' %probabilidades[1], ha='center',va='bottom') # Escribimos el valor de la segunda posterior
plt.xlabel('Escenarios posibles')
plt.ylabel('Probabilidad')
plt.title('Probabilidades Posteriores')
plt.ylim(0,1)
plt.xlim(0,3)
plt.xticks([1,2], Eventos_Posibles)
plt.margins(0.2)
plt.subplots_adjust(bottom=0.15)
show()
```

Lo que nos da el mismo resultado.

Ejercicios.

  1. ¿Por qué sustituimos \(𝑝(\text{𝑉𝑎𝑖𝑛𝑖𝑙𝑙𝑎| 𝑁𝑜 𝑣𝑒𝑛𝑒𝑛𝑜}) = 0.85\)? ¿De dónde salió ese valor?

  2. Imagina que, en vez de vainilla, la tarta extraída aleatoriamente fue de fresa. ¿Cuál es la probabilidad de que mueras ahora? (Pudes programarlo en Python).

Lecturas recomendadas

Material amigable para principiantes:

• Downey, A. B. (2012). Bayes’s theorem. En Think Bayes: Bayesian Statistics Made Simple (pp. 1-10). Green Tea Press.

• Busemeyer, J. R. (2015). The Oxford Handbook of Computational and Mathematical Psychology. Oxford University Press.

Material un poco más formal y especializado:

• MacKay, D., Kay, M., & Cambridge University Press. (2003). Information Theory, Inference and Learning Algorithms. Cambridge University Press.

Versión Interactiva

Aquí puedes encontrar una versión interactiva acerca del Teorema de Bayes. Puedes usar este mismo cuadernillo para resolver los ejercicios.