매개변수 추정 도구: PDF, CDF 및 분위수 함수

확률 밀도 함수(PDF)에 대해 자세히 다루고, 값 범위의 확률을 보다 쉽게 결정하는 데 도움이 되는 누적 분포 함수(CDF)를 소개하고, 확률 분포를 동일한 확률로 나누는 분위수를 소개합니다. 예를 들어, 백분위수는 100분위수이며, 이는 확률 분포를 100개의 동일한 부분으로 나눈다는 것을 의미합니다.

이메일 가입 목록에 대한 전환율 추정

블로그를 운영하고 블로그 방문자가 이메일 목록에 가입할 확률을 알고 싶다고 가정해 보겠습니다. 마케팅 용어로 사용자가 원하는 이벤트를 수행하도록 하는 것을 전환 이벤트 또는 간단히 전환이라고 하며, 사용자가 가입할 확률을 전환율이라고 합니다.

구독자 수 k와 방문자 총 수 n을 알고 있을 때 구독 확률 p를 추정하기 위해 베타 분포를 사용할 것입니다. 베타 분포에 필요한 두 가지 매개변수는 α로, 이 경우 구독자 총 수(k)를 나타내고, β는 구독하지 않은 총 수(n – k)를 나타냅니다.

확률 밀도 함수

첫 40,000명의 방문자에 대해 300명의 구독자를 얻는다고 가정해 보겠습니다. 우리 문제에 대한 PDF는 α = 300이고 β = 39,700인 베타 분포입니다.

베타 분포의 평균 계산

$$\tag{1}\mu_{\text{beta}}=\frac{\alpha}{\alpha + \beta}$$

식 1을 사용하여 방문자 중의 구독자에 대한 평균은 다음과 같이 계산됩니다.

import numpy as np
import pandas as pd
from scipy import stats, special
import itertools
from sympy import *
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style("darkgrid")

def decorate_plot(xlab, ylab, title=None, size=(4,3)):
    plt.figure(figsize=size)
    plt.xlabel(xlab)
    plt.ylabel(ylab)
    plt.title(title)

a, b=300, 39700
mu=a/(a+b);mu

0.0075

위 정보를 기반으로 베타분포의 PDF(확률밀도함수)는 다음과 같습니다. 실제 전환율은 평균 주위에서 높을 것입니다.

p=np.linspace(0.005, 0.01, 100)
pdf=stats.beta.pdf(p, a, b)

decorate_plot("porb.","PDF", f"Beta({a}, {b})")
plt.plot(p, pdf)
plt.show()

위 분포에서 μ ± 0.001 구간에서의 누적확률은 다음과 같이 계산할 수 있습니다.

stats.beta.cdf(mu+0.001, a, b)-stats.beta.cdf(mu-0.001, a, b)

0.9795398035282075

위 계산은 cdf를 적용했습니다. 즉, 누적분포(CDF)는 확률[0, 1] 구간내에서 0부터 지정한 지점까지의 확률의 합을 나타냅니다. 이 분포를 시각화하면 다음과 같습니다.

decorate_plot("Prob.","CDF")
p=np.linspace(0.005,  0.01, 100)
cdf=stats.beta.cdf(p, a, b)
plt.plot(p, cdf, color="g", label=f"Beta({a}, {b})")
plt.vlines(0.0075, 0, 0.5, color="b", ls="dotted", label=r"Prob.($\mu$)=0.0075")
plt.hlines(0.5, 0.005, 0.0075, color="r", ls="dotted", label="CDF=0.5")
plt.legend(loc="best", labelcolor=["g","b","r"], frameon=False)
plt.show()

많은 수의 자료에서 중간값을 결정하는 것은 평균을 계산하는 과정보다 복잡합니다. 그러나 위의 누적분포를 사용하면 보다 쉽게 결정할 수 있습니다. 즉, 위 그래프의 y축의 중간에 대응하는 x축의 값이 중간값에 해당합니다. 이 값은 stats.beta.ppf(y축의 값, α, β) 메서드로 계산합니다.

med=stats.beta.ppf(0.5, a, b); med

0.007491793171621223

신뢰 구간 추정

값 범위의 확률을 살펴보면 확률에서 매우 중요한 개념인 신뢰 구간에 도달하게 됩니다. 신뢰 구간은 일반적으로 평균을 중심으로 하는 값의 하한과 상한으로, 일반적으로 95, 99 또는 99.9%의 높은 확률 범위를 설명합니다. "95% 신뢰 구간은 12에서 20입니다."와 같이 말할 때, 우리가 의미하는 것은 실제 측정값이 12에서 20 사이 어딘가에 있을 확률이 95%라는 것입니다. 신뢰 구간은 불확실한 정보를 다룰 때 가능성의 범위를 설명하는 좋은 방법을 제공합니다.

"베이지안 통계에서 '신뢰 구간'이라고 부르는 것은 '임계 영역' 또는 '임계 구간'과 같이 몇 가지 다른 이름으로 불릴 수 있습니다."라는 특별한 참고 사항에도 불구하고, 일부 보다 전통적인 통계 학파에서는 '신뢰 구간'이 약간 다른 의미를 가집니다.

실제 변환율에 대한 가능한 값의 80%를 포함하는 범위를 알고 싶다고 가정해 보겠습니다. 이전 접근 방식을 결합하여 이 문제를 해결합니다. y축에서 0.1과 0.9에서 선을 그어 80%를 포함시킨 다음 x축에서 이것들이 CDF와 교차하는 위치를 확인합니다.

P_01=stats.beta.ppf(0.1, a, b)
P_09=stats.beta.ppf(0.9, a, b)
round(P_01, 5), round(P_09,5)

(0.00695, 0.00806)

위 누적분포함수의 역함수는 분위수 함수(quantile function)라고 하며 다음과 같이 나타낼 수 있습니다. 이 분위수 함수의 그래프는 위 코드에서 사용한 ppf() 메서드를 사용하여 작성할 수 있습니다.

decorate_plot("CDF","Prob.","Quantile Function")
cdf=np.linspace(0,  1, 100)
p=stats.beta.ppf(cdf, a, b)
plt.plot(cdf, p)
plt.ylim(0.006, 0.009)
plt.show()

연습

예) 강설량 측정 작업으로 돌아가서 다음과 같은 강설량 측정값(인치)이 있다고 가정해 보겠습니다. 7.8, 9.4, 10.0, 7.9, 9.4, 7.0, 7.0, 7.1, 8.9, 7.4. 실제 강설량에 대한 99.9% 신뢰 구간은 무엇입니까?

x=np.linspace(3, 13, 100)
pdf=stats.norm.pdf(x, mu, sd)
x2=np.linspace(mu-2*sd, mu+2*sd, 100)
pdf2=stats.norm.pdf(x2, mu, sd)

decorate_plot("snow amount","PDF")
plt.plot(x, pdf)
plt.fill_between(x2, pdf2, alpha=0.6)
plt.xticks([4, 6, 8, 10, 12],[4, r"$\mu-2\sigma$",r"$\mu$", r"$\mu+2\sigma$", 12 ])
plt.show()

ci=stats.norm.interval(0.99, mu, sd)
print("하한: %.3f, 상한: %.3f" %(ci[0], ci[1]))

하한: 5.417, 상한: 10.963

예) 한 아이가 집집마다 다니며 사탕을 팔고 있습니다. 지금까지 그녀는 30채의 집을 방문했고 사탕을 10채 팔았습니다. 그녀는 오늘 40채의 집을 더 방문할 것입니다. 그녀가 오늘 하루 종일 사탕을 몇 채 팔지에 대한 95% 신뢰 구간은 무엇입니까?

α=10, β=10인 베타 분포를 적용합니다. stats.beta.pdf() 메서드를 사용하여 각 확률에 대응하는 확률밀도를 계산하고 신뢰구간은 .interval(신뢰구간, α, β) 메서드를 적용합니다.

a, b=10, 20
p=np.linspace(0, 1, 100)
pdf=stats.beta.pdf(p, a, b)
ci=stats.beta.interval(0.95, a, b)
p2=np.linspace(ci[0], ci[1], 50)
pdf2=stats.beta.pdf(p2, a, b)

decorate_plot("prob.","pdf")
plt.plot(p, pdf)
plt.fill_between(p2, pdf2, alpha=0.4)
plt.show()

print("하한: %.3f, 상한: %.3f" %(ci[0], ci[1]))

하한: 0.179, 상한: 0.508

문제에서 총 70채의 집을 방문하므로 신뢰구간의 상한과 하한에 70을 고려하면 성공의 횟수를 나타낼 수 있습니다.

ci[0]*70, ci[1]*70

(12.556855446457831, 35.5826347666993)

sonsNote

이 블로그 검색

추천 게시물

[Go] 고루틴