베이즈 정리의 사전 확률, 우도, 사후 확률
베이즈 정리는 세 부분으로 구성됩니다.
- 사전 확률(Prior probability), P(belief)
- 우도(Likelihood), P(data|belief)
- 사후 확률(Posterior probability), P(belief | data)
베이즈 정리의 네 번째 부분인 데이터의 확률P(data)은 사후 확률을 정규화하여 0에서 1까지의 확률을 정확하게 반영하는 데 사용됩니다. 실제로는 항상 P(data)가 필요한 것은 아니므로 이 값에는 특별한 이름이 없습니다
\begin{align}\tag{1} \text{Posterior}&= \frac{\text{Prior} \cdot \text{Likelihood}}{\text{Normalizer}}\\ P(\text{belief} | \text{data})&=\frac{P(\text{data})P(\text{data}|\text{belief})}{P(\text{data})}\end{align}
범죄 현장 조사
어느 날 직장에서 집에 돌아와서 창문이 깨지고, 현관문이 열려 있고, 노트북이 없어진 것을 발견했다고 가정해 보겠습니다. 첫 번째 생각은 아마도 "강도 맞았어!"일 것입니다. 하지만 어떻게 이 결론에 도달했을까요? 그리고 더 중요한 것은 이 믿음을 어떻게 정량화할 수 있을까요?
당신의 즉각적인 가설은 당신이 강도를 맞았다는 것이므로 "H = I've be robbed"입니다. 우리는 당신이 강도를 맞았을 가능성을 설명하는 확률을 원하므로, 주어진 데이터를 바탕으로 우리가 풀고자 하는 사후 확률은 다음과 같습니다.
P(robbed| broken window, open front door, mssing latop)
우도
위 문제를 풀기 위해 베이즈 정리를 사용합니다. 먼저 위 가설이 참이라면 일어날 사건의 확률 즉, 우도를 계산합니다.
P(broken window, open front door, mssing latop|robbed)
우리가 묻는 것은 "당신이 강도를 당했다면, 여기서 본 증거를 볼 가능성은 얼마나 될까요?" 강도 사건에서 이 증거가 모두 존재하지 않는 다양한 시나리오를 상상해 볼 수 있습니다. 예를 들어, 영리한 도둑이 당신 문의 자물쇠를 풀고 노트북을 훔친 다음 문을 잠그고 창문을 깨지 않았을 수도 있습니다. 아니면 그냥 창문을 부수고 노트북을 가져간 다음 바로 창문으로 다시 올라갔을 수도 있습니다. 우리가 본 증거는 강도 사건 현장에서 흔히 볼 수 있는 것처럼 직관적으로 보이므로 강도를 당했다면 집에 돌아와서 이 증거를 발견할 확률은 3/10이라고 말할 수 있습니다.
이 예에서 추측을 하고 있지만, 더 나은 추정치를 얻기 위해 조사를 할 수도 있다는 점에 유의하는 것이 중요합니다. 지역 경찰서에 가서 강도 사건과 관련된 범죄 현장의 증거에 대한 통계를 요청하거나 최근 강도 사건에 대한 뉴스 기사를 읽을 수도 있습니다. 이렇게 하면 강도를 당했을 때 이 증거를 볼 가능성에 대한 보다 정확한 추정치를 얻을 수 있습니다.
베이즈 정리의 놀라운 점은 우리가 그것을 우리의 우연한 믿음을 정리하고 매우 정확한 확률의 방대한 데이터 집합을 다루는 데 사용할 수 있다는 것입니다. 3/10이 좋은 추정치가 아니라고 생각하더라도 항상 계산으로 돌아가서(우리가 할 것처럼) 다른 가정에 따라 값이 어떻게 변하는지 볼 수 있습니다. 예를 들어 강도를 당했을 때 이 증거를 볼 확률이 3/100에 불과하다고 생각한다면 쉽게 돌아가서 대신 그 숫자를 넣을 수 있습니다. 베이지안 통계는 사람들이 측정 가능한 방식으로 믿음에 대해 의견이 다를 수 있도록 합니다. 우리는 우리의 믿음을 정량적인 방식으로 다루고 있기 때문에 이 장에서 하는 모든 것을 다시 계산하여 이 다른 확률이 최종 결과에 상당한 영향을 미치는지 확인할 수 있습니다.
사전 확률 계산
다음으로, 당신이 전혀 강도를 당할 확률을 결정해야 합니다. 이것이 우리의 사전 확률입니다. 사전 확률은 배경 정보를 사용하여 가능성을 조정할 수 있기 때문에 매우 중요합니다. 예를 들어, 앞서 설명한 장면이 당신이 유일한 주민인 무인도에서 일어났다고 가정해 보겠습니다. 이 경우, 당신이 강도를 당할 가능성은 거의 없습니다(적어도 인간에게). 또 다른 예로, 범죄율이 높은 동네에 집을 소유하고 있다면 강도가 자주 발생할 수 있습니다. 단순화를 위해 강도를 당할 가능성에 대한 사전 확률을 다음과 같이 설정해 보겠습니다.
\begin{align} \tag{2}& P(\text{robbed})=\frac{1}{1000}\\& P(\text{robbed})\cdot P(\text{broken window, open front door, mssing latop}|\text{robbed})=\frac{1}{1000}\frac{3}{10}=\frac{3}{10000}\end{align}
이 값은 믿을 수 없을 정도로 작은데, 직감적으로 당신이 관찰한 증거를 감안할 때 집이 도난당할 확률이 매우 매우 높아 보이기 때문에 놀라운 일입니다. 하지만 우리는 아직 우리의 증거를 관찰할 확률을 살펴보지 않았습니다.
데이터 정규화
위 식에서 빠진 것은 강도를 당했는지 아닌지에 대한 데이터의 확률입니다. 우리의 예에서 이것은 원인과 관계없이 창문이 깨지고, 문이 열려 있고, 노트북이 모두 없어지는 것을 한 번에 관찰할 확률입니다. 현재로서는 식이 다음과 같습니다.
$$\tag{3} P(\text{robbed}|\text{broken window, open front door, mssing latop})=\frac{\dfrac{3}{10000}}{P(D)}$$
위 식은 P(D)에 영향을 받습니다.
import numpy as np
import pandas as pd
from scipy import stats, special
import itertools
from sympy import *
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style("darkgrid")
t=pd.DataFrame() t["PD"]=[0.05, 0.01, 0.005, 0.001] t["posterior"]=(1/10000)/t.PD t
| PD | posterior | |
|---|---|---|
| 0 | 0.050 | 0.002 |
| 1 | 0.010 | 0.010 |
| 2 | 0.005 | 0.020 |
| 3 | 0.001 | 0.100 |
데이터의 확률이 감소함에 따라 사후 확률은 증가합니다. 결과적으로 가능성이 낮은 사건을 설명하는데 더 효과적임을 나타냅니다. 이 예에서는 P(D)를 지정하였지만 일반적으로 실제사례에서 이 항목을 계산하는 것은 쉽지 않습니다. 사전 확률 P(강도)의 경우, 단순히 과거 범죄 데이터를 살펴보고 거리의 주어진 집이 주어진 날에 강도를 당할 확률을 확정할 수 있습니다. 마찬가지로 이론적으로 과거 강도 사건을 조사하여 강도 사건을 감안할 때 관찰한 증거에 대한 보다 정확한 가능성을 도출할 수 있습니다. 하지만 실제로 P(깨진 창문, 열린 현관문, 없어진 노트북)를 어떻게 추측할 수 있을까요?
관찰한 데이터의 확률을 조사하는 대신, 관찰을 설명할 수 있는 다른 모든 가능한 사건의 확률을 계산해 볼 수 있습니다. 그것들은 합산이 1이어야 하므로, 역으로 작업하여 P(D)를 찾을 수 있습니다. 하지만 이 특정 증거의 경우, 사실상 무한한 가능성이 있습니다.
어떤 경우에는 P(D)를 명시적으로 알 필요가 없습니다 . 종종 가설을 비교하고 싶을 뿐이기 때문입니다 . 이 예에서, 강도를 당했을 가능성을 다른 가능한 설명과 비교합니다. 우리는 정규화되지 않은 사후 분포의 비율을 살펴보면 이를 수행할 수 있습니다. P(D) 는 상수이기 때문에 분석을 변경하지 않고도 안전하게 제거할 수 있습니다. 따라서 이 장의 나머지 부분에서는 P(D)를 계산하는 대신 대안 가설을 개발하고, 사후 확률을 계산한 다음, 원래 가설의 사후 확률과 비교할 것입니다. 이는 우리가 당신이 관찰한 증거에 대한 유일한 가능한 설명으로 강도를 당할 정확한 확률을 생각 해 낼 수 없다는 것을 의미하지만, 우리는 여전히 베이즈 정리를 사용하여 탐정 역할을 하고 다른 가능성을 조사할 수 있습니다.
대안 가설 고려
새로운 가설(H2)과 사전확률을 다음과 같이 구축합니다.
- 아이가 던진 야구공에 깨진 앞 창문: $P(1)=\frac{1}{2000}$
- 문을 잠그지 않음: $P(2)=\frac{1}{30}$
- 노트북을 직장에서 가져오지 않음: $P(3)=\frac{1}{365}$
H2의 1,2,3의 각 사전확률들에 곱법칙을 적용하면 H2의 사전확률은 다음과 같습니다.
P1=Rational(1,2000) P2=Rational(1,30) P3=Rational(1,365) Ph2=P1*P2*P3 Ph2
$\frac{1}{21900000}$
H2에 대한 정규화되지 않은 사후확률은 식4와 같이 계산합니다. H2가 참이라면 D(broken window, open front door, mssing latop)의 확률 즉, 우도 P(D|H2)=1입니다.
\begin{align}\tag{4}P(H_2|D)&=\frac{P(H_2)P(D|H_2)}{P(D)}\\&\propto P(H_2)P(D|H_2)\end{align}
Ph2D=1*Ph2; Ph2D
$\frac{1}{21900000}$
두 가설에 대한 사후확률의 비교
\begin{align}\tag{5}\frac{P(H_1|D)}{P(H_2|D)}&=\frac{\dfrac{P(H_1)P(D|H_1)}{P(D)}}{\dfrac{P(H_2)P(D|H_2)}{P(D)}}\\&=\frac{\dfrac{3}{10000}}{\dfrac{1}{21900000}} \\&=6570\end{align}
식 5는 분자와 분모 모두 P(D)를 포함하므로 이를 제거할 수 있습니다. 즉, 각 가설의 비정규화된 사후확률들을 비교합니다. 이 결과는 원래의 가설(H1)이 새로운 가설보다 데이터를 훨씬 잘 설명한다는 것을 보여 줍니다.
댓글
댓글 쓰기