베타분포

베타 분포

베타 분포: 베타 분포는 이미 여러 번 시행하여 관찰한 사건의 확률과 성공적인 결과의 수를 추정하는 데 사용합니다. 예를 들어, 지금까지 동전을 100번 던졌고 그 중 40번이 앞면이었을 때 앞면이 나올 확률을 추정하는 데 사용할 수 있습니다.

확률 대 통계: 확률 텍스트에서는 종종 사건에 대한 확률이 명시적으로 제공됩니다. 그러나 현실에서는 거의 그렇지 않습니다. 대신 데이터가 제공되고 이를 사용하여 확률에 대한 추정치를 도출합니다. 여기서 통계가 등장합니다. 통계를 사용하면 데이터를 가져와서 다루고 있는 확률에 대한 추정치를 도출할 수 있습니다.

이상한 시나리오: 데이터 얻기

검은 상자에 quarter 동전을 1개를 넣으면 때로는 2개의 quarter가 튀어나오지만 때로는 그 동전(quarter)이 "먹힙니다". 따라서 질문은 "two quarters 동전이 나올 확률은 얼마입니까?"입니다.

확률, 통계, 추론 구분

첫 번째 장을 제외한 지금까지의 모든 예에서 우리는 모든 가능한 사건의 확률을 알고 있거나 적어도 얼마나 많은 돈을 걸고 싶어하는지 알고 있습니다. 현실 세계에서 우리는 거의 모든 사건의 정확한 확률이 무엇인지 확신할 수 없습니다. 대신 관찰과 데이터만 있습니다.

이것은 일반적으로 확률과 통계의 구분으로 간주됩니다. 확률에서 우리는 모든 사건의 확률을 정확히 알고 있으며, 우리가 관심을 두는 것은 특정 관찰의 가능성입니다. 예를 들어, 공정한 동전 던지기에서 앞면이 나올 확률이 1/2라고 들었고 20번의 동전 던지기에서 정확히 7번의 앞면이 나올 확률을 알고 싶을 수 있습니다.

통계에서 우리는 이 문제를 역으로 살펴볼 것입니다. 20번의 동전 던지기에서 7번의 앞면을 관찰했다고 가정할 때, 한 번의 동전 던지기에서 앞면이 나올 확률은 얼마입니까? 어떤 의미에서 통계는 확률을 역으로 나타낸 것입니다. 주어진 데이터에서 확률을 알아내는 작업을 추론(inference)이라고 하며, 이는 통계의 기초입니다.

데이터 수집

우리는 신비한 상자가 two quarters를 제공할 확률을 추정하고 싶습니다. 그러기 위해서는 먼저 몇 번 더 시도한 후 얼마나 자주 이겼는지 확인해야 합니다. 14승 27패가 있습니다.

추가 분석을 하지 않고도 직관적으로 P(two quarters) = 1/2라는 추측을 P(2쿼터) = 14/41로 업데이트하고 싶을 수 있습니다. 하지만 원래 추측은 어떨까요? 새로운 데이터는 1/2가 실제 확률일 수 없다는 것을 의미할까요?

위 문제에 두개의 가설을 설정할 수 있습니다.

\begin{align}\tag{1} H_1: P(\text{two coins})&=\frac{1}{2}\\H_2: P(\text{two coins})&=\frac{14}{41}\end{align}

"H1이 참일 때와 H2가 참일 때 우리가 관찰한 것의 확률은 얼마나 될까?" 4장의 이항 분포의 방정식 4.6을 사용하여 이를 쉽게 계산할 수 있습니다.

import numpy as np
import pandas as pd
from scipy import stats, special
import itertools
from sympy import *
from empiricaldist import Pmf, Cdf
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style("darkgrid")

def decorate_plot(xlab, ylab, title=None, size=(4,3)):
    plt.figure(figsize=size)
    plt.xlabel(xlab)
    plt.ylabel(ylab)
    plt.title(title)

H1=stats.binom.pmf(14, 41, 1/2)
H2=stats.binom.pmf(14, 41, 14/41)
H=pd.DataFrame([H1, H2],index=["H1", "h2"])
H

	0
H1	0.016025
h2	0.130471

이는 데이터(41회 시행 중 동전 2개를 얻은 14건의 사례 관찰)를 감안할 때 H2가 h1보다 거의 10배 더 가능성이 높다는 것을 보여줍니다! 그러나 이는 또한 어느 가설도 불가능한 것이 아니며 물론 데이터를 기반으로 만들 수 있는 다른 가설이 많이 있다는 것을 보여줍니다.

패턴을 찾고 싶다면 0.1에서 0.9까지의 모든 확률을 0.1씩 증가시켜 선택하고 각 분포에서 관찰된 데이터의 확률을 계산한 다음 이를 바탕으로 가설을 개발할 수 있습니다.

h=np.arange(0, 1.01, 0.1)
p=stats.binom.pmf(14, 41, h)

decorate_plot("H","Prob.")
plt.scatter(h, p)
plt.show()

p.sum()

0.23808427531327597

위는 가설을 확률 [0, 1] 사이에 이산적으로 고려한 결과입니다. 보다 많은 가설에 대한 결과는 다음과 같습니다. 이것은 가설을 연속 변수로 고려할 수 있게 됩니다.

h=np.arange(0, 1.01, 0.001)
p=stats.binom.pmf(14, 41, h)

decorate_plot("H","Prob.")
plt.scatter(h, p, s=0.5)
plt.show()

p1=pd.DataFrame(p).dropna()
p1.sum()

0    23.809524
dtype: float64

이것은 귀중한 정보처럼 보입니다. 확률이 가장 높은 곳을 쉽게 알 수 있습니다. 그러나 우리의 목표는 모든 가능한 가설에 대한 우리의 믿음을 모델링하는 것입니다(즉, 우리의 믿음의 전체 확률 분포).

두 가지 문제가 있습니다.

가능한 가설의 수는 무한하며, 점점 더 작은 양으로 증가시키는 것은 전체 가능성 범위를 정확하게 나타내지 못합니다. 우리는 항상 무한한 양을 놓치고 있습니다. (실제로 이것은 큰 문제가 아닙니다.) 지금 0.1 위에 11개의 점이 있으며, 추가할 수 있는 점의 수는 무한합니다. 즉, 우리의 확률은 1이 되지 않습니다!
여기에는 무한히 많은 가능성이 있지만, 우리는 여전히 그것들을 모두 합하면 1이 되어야 합니다. 여기서 베타 분포가 등장합니다.

베타 분포

이항 분포와 달리 이산적인 값으로 깔끔하게 나뉘는 베타 분포는 연속적인 값 범위를 나타내므로 무한한 수의 가능한 가설을 나타낼 수 있습니다.

베타 분포는 확률 밀도 함수(PDF)로 정의하는데, 이는 이항 분포에서 사용하는 확률 질량 함수와 매우 유사하지만 연속적인 값에 대해 정의됩니다.

$$\tag{2} \text{Beta}=\frac{p^{\alpha-1}(1-p)^{\beta-1}}{\text{beta}(\alpha, \beta)}$$

확률 밀도 함수 분해

p: 사건의 확률을 나타냅니다. 이는 문제의 가능한 확률에 대한 다양한 가설에 해당합니다.
α: 상자에서 2개의 쿼터를 얻는 것과 같이 관심 있는 사건을 관찰하는 횟수를 나타냅니다.
β: 관심 있는 사건이 발생하지 않은 횟수를 나타냅니다. 예를 들어 상자가 쿼터를 먹은 횟수입니다.
α + β: 총 시행 횟수입니다. 이는 관심 있는 관찰값 k개와 총 시행 횟수 n개가 유한한 이항 분포와 다릅니다.

PDF 함수의 상단 부분은 이항 분포(식 3)의 PMF와 거의 같기 때문에 매우 친숙해 보일 것입니다.

$$\tag{3} B(k; n, p)=\binom{n}{k}p^k(1-p)^{n-k}$$

이항 분포의 PMF와 베타 분포의 PDF의 차이점:

문제에 확률 밀도 함수 적용하기

상자 데이터에 대한 값을 대입하고 베타 분포를 시각화하면 다음 그림에 나와 있듯이 위 그림의 플롯을 매끈하게 다듬은 것처럼 보입니다. scipy.stats.beta() 클래스를 적용한다.

p=np.arange(0, 1.01, 0.001)
pd=stats.beta.pdf(h, 14, 27)

decorate_plot("p","Prob.density", "Beta(14, 27)")
plt.plot(p, pd)
plt.show()

우리는 플롯을 보면 믿음의 분포를 볼 수 있지만, "상자가 2개의 동전을 반환하는 실제 비율이 0.5보다 작을 확률"에 대해 얼마나 강하게 믿는지 여전히 정량화하고 싶습니다.

적분을 통한 연속 분포 정량화

베타 분포는 이항 분포와 근본적으로 다릅니다. 이항 분포의 경우, 우리는 항상 셀 수 있는 결과의 수인 의 분포를 살펴봅니다. 그러나 베타 분포의 경우, 우리는 무한한 수의 가능한 값을 갖는 의 분포를 살펴봅니다.

우리는 확률의 기본 규칙이 모든 값의 합이 1이어야 하지만, 각 개별 값은 무한히 작다는 것을 알고 있습니다. 즉, 특정 값의 확률은 실제로 0입니다.

예를 들어, 1파운드짜리 초콜릿 바를 무한히 많은 조각으로 나누더라도 초콜릿 바의 절반에 있는 조각의 무게를 더할 수 있습니다. 마찬가지로 연속 분포에서 확률에 대해 이야기할 때 값의 범위를 합산할 수 있습니다. 하지만 모든 특정 값이 0이라면 합도 0이 아닐까요? 여기서 미적분이 등장합니다. 미적분에는 적분이라는 무한히 작은 값을 합산하는 특별한 방법이 있습니다. 상자에서 동전이 나올 확률이 0.5보다 작은지(즉, 값이 0과 0.5 사이 어딘가에 있는지) 알고 싶다면 다음과 같이 합산할 수 있습니다.

$$\tag{3}\int^{0.5}_0 \frac{p^{14-1}(1-p)^{27-1}}{\text{beta}(14, 27)}\, dp$$

식 3은 scipy.stats.beta.cdf(x, α, β) 메서드를 사용하여 계산할 수 있다.

stats.beta.cdf(0.5, 14, 27)

0.9807613458578999

위 결과는 상자에서 두개의 동전을 얻을 확률이 0.5보다 작을 확률이 0.98이 됨을 나타냅니다. 그러므로 상자에 동전을 넣는 것은 좋은 생각이 아님을 의미합니다. 즉, 손익분기점에 도달하지 옴살 가능성이 매우 높다는 것을 나타냅니다.

가챠 게임 역공학

실제 상황에서 우리는 거의 사건의 실제 확률을 알 수 없습니다. 그렇기 때문에 베타 분포는 데이터를 이해하는 데 가장 강력한 도구 중 하나입니다.

관심 있는 카드의 확률을 알고 있는 무한한 수의 카드 더미에서 적어도 한 장의 특정 카드를 뽑을 가능성을 계산합니다. 목표는 100번의 시도와 관심 있는 카드에 대한 확률 0.720%로 최소 50%의 p를 갖는 것입니다. 먼저 더미에서 100번 뽑아서 관심 있는 카드 한 장을 정확히 뽑을 확률을 계산해 보겠습니다. 추천 카드를 뽑을 확률은 0.720%라는 것을 알고 있습니다.

$$\binom{100}{1}0.0072^1\times (1-0.0072)^{100-1}$$

p=stats.binom.pmf(1, 100, 0.0072); p

0.35208504373177624

100번 시행에서 관심있는 카드를 적어도 하나 이상을 선택할 확률은 누적분포함수(CDF)로 계산할 수 있습니다.

cdfmore1=1-stats.binom.cdf(0, 100, 0.0072);
cdfmore1

0.5145138452542949

위 결과는 최소 한장의 관심있는 카드를 선택할 확률이 50%이상임을 의미합니다.

위 과정에서는 100번 시도에서 관심있는 카드를 선택할 확률 0.0072를 사용했습니다. 그러나 실제 상황에서는 이 확률을 알 수 없는 경우가 대부분입니다. 이번에는 카드의 확률을 모르지만, 우리는 정말로 그 카드를 원합니다. 가능하다면 하나 이상. 우리는 엄청난 돈을 쓰고 뽑은 카드 1,200장 중에서 관심 있는 카드는 5장뿐이라는 것을 알게 되었습니다. 우리 친구는 게임에 돈을 쓰려고 하지만 카드를 뽑을 확률이 0.005보다 클 확률이 0.7보다 높을 때만 그렇게 하려고 합니다.

1,200장의 카드 중 우리가 관심을 가진 카드는 5장뿐이라는 사실을 베타분포에 적용하여 역으로 확률을 계산할 수 있습니다. 관심있는 카드가 5개이므로 α=5, β=1195의 매개변수를 갖는 베타분포는 다음과 같습니다.

p=np.linspace(0, 1, 10000)
density=stats.beta.pdf(p, 5, 1195)

decorate_plot("p by hypothesis", "Prob. density", "Beta(5, 1195)")
plt.plot(p, density)
plt.xlim(0, 0.01)
plt.show()

위 분포에서 p > 0.005인 확률을 계산한다.

cdf=1-stats.beta.cdf(0.005, 5, 1195);
cdf

0.28505593979614996

위 결과는 0.7에 미치지 못합니다. 그러므로 이 시행을 하지 않는 것이 현명합니다.

이항 분포와 밀접한 관련이 있지만 상당히 다르게 동작하는 베타 분포에 대해 배웠습니다. 베타 분포와 이항 분포의 주요 차이점은 베타 분포가 연속 확률 분포라는 것입니다. 분포에는 무한한 수의 값이 있기 때문에 이산 확률 분포에서와 같은 방식으로 결과를 합산할 수 없습니다. 대신 미적분을 사용하여 값 범위를 합산해야 합니다.

점점 더 많은 가능한 이항 분포가 데이터를 얼마나 잘 설명하는지 관찰하여 베타 분포를 구축했습니다. 베타 분포를 통해 관찰한 데이터에 대한 모든 가능한 확률을 얼마나 강하게 믿는지 나타낼 수 있습니다. 이를 통해 관찰된 데이터에 대한 통계적 추론을 수행하여 이벤트에 할당할 수 있는 확률과 각 확률을 얼마나 강하게 믿는지 결정할 수 있습니다. 즉, 확률의 확률입니다.

연습문제

연습문제) 베타 분포를 사용하여 가지고 있는 동전이 공정한 동전인지 아닌지(즉, 동전에서 앞면과 뒷면이 똑같이 나오는지)를 판별하려고 합니다. 동전을 10번 던져서 앞면이 4번, 뒷면이 6번 나왔습니다. 베타 분포를 사용하면 동전이 60% 이상의 확률로 앞면이 나올 확률은 얼마입니까?

1-stats.beta.cdf(0.6, 4, 6)

0.09935257600000003

연습문제) 동전을 10번 더 던졌더니 앞면이 9번, 뒷면이 11번 나왔습니다. 우리의 공정한 정의를 사용하여 동전이 공정할 확률은 5%를 더하거나 빼서 얼마입니까?

cdf=stats.beta.cdf(0.55, 9, 11)-stats.beta.cdf(0.45, 9, 11)
cdf

0.30988001565130374

연습문제) 데이터는 당신의 주장에 더 확신을 갖는 가장 좋은 방법입니다. 동전을 200번 더 던지고 109번 앞면과 111번 뒷면이 나옵니다. 이제 동전이 공정할 확률에서 5%를 더하거나 빼면?

cdf=stats.beta.cdf(0.55, 109, 111)-stats.beta.cdf(0.45, 109, 111)
cdf

0.8589371426532763

sonsNote

이 블로그 검색

추천 게시물

[Go] 고루틴

베타분포

베타 분포

이상한 시나리오: 데이터 얻기

확률, 통계, 추론 구분

데이터 수집

베타 분포

확률 밀도 함수 분해

문제에 확률 밀도 함수 적용하기

적분을 통한 연속 분포 정량화

가챠 게임 역공학

연습문제

댓글

댓글 쓰기

이 블로그의 인기 게시물

[python]KeyWord

[Go] 고루틴

매개변수 추정 도구: PDF, CDF 및 분위수 함수