베이지안 사전 확률과 확률 분포 작업
C-3PO의 소행성 지대 의심
예를 들어, 우리는 스타워즈: 제국의 역습의 한 장면에서 통계 분석에서 가장 기억에 남는 오류 중 하나를 사용할 것입니다. 한 솔로가 적 전투기를 피하려고 밀레니엄 팔콘을 타고 소행성 지대 속으로 날아들 때, 항상 지식이 풍부한 C-3PO는 한에게 확률이 자신에게 유리하지 않다고 알립니다. C-3PO는 "선생님, 소행성 지대에서 성공적으로 항해할 가능성은 약 3,720대 1입니다!"라고 말합니다.
C-3PO의 신념 결정
정리 (베타 분포의 매개변수화)
베타 분포는 α (관찰된 성공 횟수)와 β(관찰된 실패 횟수)로 매개변수화 됨
$$\tag{1}P(\text{Rate of sucess} | \text{success and failure})=\text{Beta}(\alpha,\, \beta)$$
C-3PO에는 소행성 충돌지에서 2명이 생존하고, 7,440명이 화려한 폭발로 여행을 마감한 기록이 있다고 가정해보자!
import numpy as np
import pandas as pd
from scipy import stats, special
import itertools
from sympy import *
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style("darkgrid")
def decorate_plot(xlab, ylab, title=None, size=(4,3)):
plt.figure(figsize=size)
plt.xlabel(xlab)
plt.ylabel(ylab)
plt.title(title)
p=np.linspace(0, 1, 100000)
lik=stats.beta.pdf(p, 2, 7440)
decorate_plot("Prob.","Prob. density","Beta(2, 7440)")
plt.plot(p, lik)
plt.xlim(-0.0001, 0.003)
plt.xticks([0, 0.001, 0.002, 0.003])
plt.show()
한(Han)의 badassery에 대한 설명
우리는 한이 지금까지 모든 불가능한 상황에서 살아남았기 때문에 한이 소행성대를 통과할 것이라는 선입견을 가지고 있습니다. 한의 badassery에 대한 어떤 종류의 상한선부터 시작하겠습니다. 한이 절대 죽을 수 없다고 믿는다면 영화는 예측 가능하고 지루해질 것입니다. 반면에 한이 성공할 것이라는 우리의 믿음은 C-3PO가 그가 죽지 않을 것이라는 믿음(우도)보다 강하므로 한이 살아남을 것이라는 우리의 믿음이 20,000 대 1이라고 가정해 보겠습니다.
p=np.linspace(0, 1, 100000)
lik=stats.beta.pdf(p, 20000, 1)
decorate_plot("Prob.","Prob. density","Beta(20000, 1)")
plt.plot(p, lik)
plt.xlim(0.999, 1.0001)
plt.show()
사후 확률로 서스펜스 만들기
다양한 신념, 즉 성공의 작은 변화에 대한 C-3PO의 신념(우도)과 한 솔로의 기술에 대한 우리의 신념(사전)을 결합하여 사후 확률을 만듭니다.
베이지 법칙을 비례식으로 식2와 같이 표현할 수 있습니다.
$$\tag{2} \text{posterior} \propto \text{Likelihood} \times \text{prior}$$
식 2와 같이 비례식으로 표현한다는 것은 사후확률의 합이 1이 되지 않음을 의미합니다. 그러므로 위식에 정규화를 위한 부분이 필요하며 식 4와 같이 표현합니다.
우도와 베타만 있는 정규화된 사후
$$\tag{3} \text{Beta}(\alpha_{\text{posterior}},\, \beta_{\text{posterior}})= \text{Beta}(\alpha_{\text{likelihood}}+\alpha_{\text{prior}},\, \beta_{\text{likelihood}}+\beta_{\text{prior}})$$
식 3을 적용하여 Han에 대한 신념(사전)과 C-3PO에 의한 가능성(우도)를 결합하여 사후확률(P(Han의 생존 | Rate Of success))을 계산할 수 있습니다.
Beta(20002, 7441) = Beta(2+200000, 7440+1)
p=np.linspace(0, 1, 100000)
posterior=stats.beta.pdf(p, 20002, 7441)
decorate_plot("Prob. of success","Prob. density","Beta(20002, 7441)")
plt.plot(p, posterior)
plt.xlim(0.7, 0.75)
plt.show()
연습 문제
1) 친구가 땅에서 동전을 발견하고 던졌는데, 연속으로 앞면이 여섯 번 나왔고 뒷면이 한 번 나왔습니다. 이를 설명하는 베타 분포를 제시하세요. 적분을 사용하여 앞면이 나오는 실제 비율이 0.4~0.6 사이일 확률을 결정하여 동전이 상당히 공정하다는 것을 나타냅니다.
P(data | hypothetsis), data=H:6, T:1
stats.beta.cdf(0.6, 6, 1)-stats.beta.cdf(0.4, 6, 1)
0.04255999999999999
동전이 공정할 확률은 4%에 불과합니다. 최소한 우도 확률에 근거해서만 말입니다.
2) 동전이 공정할 사전 확률을 구해 보세요. 베타 분포를 사용하여 앞면이 나올 실제 확률이 0.4~0.6 사이일 확률이 95% 이상인 분포를 사용하세요.
h=0
for i in range(100):
p=stats.beta.cdf(0.6, 6+i, 1+i)-stats.beta.cdf(0.4, 6+i, 1+i)
if p>=0.95:
h=h+i
break
h
54
문제의 조건에 부합하기 위해서는 앞면과 뒷면이 최소 60, 55이 되어야 합니다. 이 결과에 따른 사전확률은 다음과 같습니다.
H, T=6+h, 1+h prior=H/(H+T); prior
0.5217391304347826
3) 이제 동전이 공정하지 않을 가능성이 상당히 있다는 것을 확신시키기 위해 얼마나 더 많은 앞면(뒷면이 없는)이 필요한지 살펴보겠습니다. 이 경우, 동전의 비율이 0.4~0.6 사이라는 우리의 믿음이 0.5 아래로 떨어진다는 것을 의미한다고 가정해 보겠습니다.
사전 값을 추가하면 베타 분포는 Beta(6 + 54, 1 + 54)가 됩니다.
post=0
for i in range(100):
p=stats.beta.cdf(0.6, 6+h+i, 1+h)-stats.beta.cdf(0.4, 6+h+i, 1+h)
if p≤= 0.5:
post=post+i
break
post
23
기대치를 50% 이하로 낮추려면 23번 더 연속으로 앞면이 나와야 합니다. 이는 강력한 사전 신념조차도 더 많은 데이터로 극복할 수 있음을 보여줍니다.



댓글
댓글 쓰기