기본 콘텐츠로 건너뛰기

추천 게시물

[Go] 고루틴

런타임(Runtime) visual code에서 브라우저 실행 단축키: Alt+B Go runtime은 메모리 관리, 가비지 수집, 동시성을 포함하여 Go 프로그림의 실행을 관리하는 역할을 합니다. 이 문서에서는 Go runtime을 자세히 살펴보고 아키텍초, 특성과 장점을 살펴봅니다. Go Runtime Architecture Go runtime은 모듈식이고 유연하게 설계되었으며 개발자가 특정 요구사항에 따라 동작을 사용자 정의할 수 있는 계층적 아키텍쳐를 갖추고 있습니다. 런타임은 스케줄러(schedualer), 가비지 수집기(garbage collector), 메모리 할당자(memory alllocator) 및 스택관리(stack management)를 포함한 어려 핵심 구성 요소로 구성됩니다. Schedualer Go 런타임의 핵심은 고루틴의 실행을 관리하는 스케줄러입니다. 고루틴은 효율적인 동시성을 가능하게 하는 가벼운 스레드입니다. 스케줄러는 사용 가능한 스레드에 고루틴을 분산하고, 스레드 로컬 스토리지를 관리하고, I/O 작업을 조정하는 역할을 합니다. thread(스레드): 프로그램 내에서 실행되는 흐름의 단위로 동시에 여러 작업이나 프로그램을 실행하는 것입니다. 즉, 코드를 실행할 수 있는 각 단위를 스레드라고 합니다. 고루틴(goroutine): Go 언어로 동시에 실행되는 모든 활동을 의미합니다. 고루틴을 만드는 비용을 스레드에 비해 매우 적기 떄문에 경량 스레드라고 합니다. 모든 프로그램은 적어도 하나의 main() 함수라는 고루틴을 포함하고 고루틴은 항상 백그라운드에서 작동합니다. 메인함수가 종료되면 모든 고루틴은 종료됩니다. 그러므로 고루틴보다 main이 먼저 종료되는 것을 방지해야 합니다. Go 스케줄러는 매우 효율적이고 확장 가능하도록 설계되어 많은 수의 동시 고루틴을 손쉽게 처리할 수 있습니다. 스레드 간에 부하를 분산하여 경합을 최소화하고 성능을 개선하는 작업 훔치기 알고리즘을 사용합니다...

매개변수 추정 도구: PDF, CDF 및 분위수 함수

매개변수 추정 도구: PDF, CDF 및 분위수 함수

확률 밀도 함수(PDF)에 대해 자세히 다루고, 값 범위의 확률을 보다 쉽게 결정하는 데 도움이 되는 누적 분포 함수(CDF)를 소개하고, 확률 분포를 동일한 확률로 나누는 분위수를 소개합니다. 예를 들어, 백분위수는 100분위수이며, 이는 확률 분포를 100개의 동일한 부분으로 나눈다는 것을 의미합니다.

이메일 가입 목록에 대한 전환율 추정

블로그를 운영하고 블로그 방문자가 이메일 목록에 가입할 확률을 알고 싶다고 가정해 보겠습니다. 마케팅 용어로 사용자가 원하는 이벤트를 수행하도록 하는 것을 전환 이벤트 또는 간단히 전환이라고 하며, 사용자가 가입할 확률을 전환율이라고 합니다.

구독자 수 k와 방문자 총 수 n을 알고 있을 때 구독 확률 p를 추정하기 위해 베타 분포를 사용할 것입니다. 베타 분포에 필요한 두 가지 매개변수는 α로, 이 경우 구독자 총 수(k)를 나타내고, β는 구독하지 않은 총 수(n – k)를 나타냅니다.

확률 밀도 함수

첫 40,000명의 방문자에 대해 300명의 구독자를 얻는다고 가정해 보겠습니다. 우리 문제에 대한 PDF는 α = 300이고 β = 39,700인 베타 분포입니다.

베타 분포의 평균 계산

$$\tag{1}\mu_{\text{beta}}=\frac{\alpha}{\alpha + \beta}$$

식 1을 사용하여 방문자 중의 구독자에 대한 평균은 다음과 같이 계산됩니다.

import numpy as np
import pandas as pd
from scipy import stats, special
import itertools
from sympy import *
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style("darkgrid")

def decorate_plot(xlab, ylab, title=None, size=(4,3)):
    plt.figure(figsize=size)
    plt.xlabel(xlab)
    plt.ylabel(ylab)
    plt.title(title)   
a, b=300, 39700
mu=a/(a+b);mu
0.0075

위 정보를 기반으로 베타분포의 PDF(확률밀도함수)는 다음과 같습니다. 실제 전환율은 평균 주위에서 높을 것입니다.

p=np.linspace(0.005, 0.01, 100)
pdf=stats.beta.pdf(p, a, b)

decorate_plot("porb.","PDF", f"Beta({a}, {b})")
plt.plot(p, pdf)
plt.show()

위 분포에서 μ ± 0.001 구간에서의 누적확률은 다음과 같이 계산할 수 있습니다.

stats.beta.cdf(mu+0.001, a, b)-stats.beta.cdf(mu-0.001, a, b)
0.9795398035282075

위 계산은 cdf를 적용했습니다. 즉, 누적분포(CDF)는 확률[0, 1] 구간내에서 0부터 지정한 지점까지의 확률의 합을 나타냅니다. 이 분포를 시각화하면 다음과 같습니다.

decorate_plot("Prob.","CDF")
p=np.linspace(0.005,  0.01, 100)
cdf=stats.beta.cdf(p, a, b)
plt.plot(p, cdf, color="g", label=f"Beta({a}, {b})")
plt.vlines(0.0075, 0, 0.5, color="b", ls="dotted", label=r"Prob.($\mu$)=0.0075")
plt.hlines(0.5, 0.005, 0.0075, color="r", ls="dotted", label="CDF=0.5")
plt.legend(loc="best", labelcolor=["g","b","r"], frameon=False)
plt.show()

많은 수의 자료에서 중간값을 결정하는 것은 평균을 계산하는 과정보다 복잡합니다. 그러나 위의 누적분포를 사용하면 보다 쉽게 결정할 수 있습니다. 즉, 위 그래프의 y축의 중간에 대응하는 x축의 값이 중간값에 해당합니다. 이 값은 stats.beta.ppf(y축의 값, α, β) 메서드로 계산합니다.

med=stats.beta.ppf(0.5, a, b); med
0.007491793171621223

신뢰 구간 추정

값 범위의 확률을 살펴보면 확률에서 매우 중요한 개념인 신뢰 구간에 도달하게 됩니다. 신뢰 구간은 일반적으로 평균을 중심으로 하는 값의 하한과 상한으로, 일반적으로 95, 99 또는 99.9%의 높은 확률 범위를 설명합니다. "95% 신뢰 구간은 12에서 20입니다."와 같이 말할 때, 우리가 의미하는 것은 실제 측정값이 12에서 20 사이 어딘가에 있을 확률이 95%라는 것입니다. 신뢰 구간은 불확실한 정보를 다룰 때 가능성의 범위를 설명하는 좋은 방법을 제공합니다.

"베이지안 통계에서 '신뢰 구간'이라고 부르는 것은 '임계 영역' 또는 '임계 구간'과 같이 몇 가지 다른 이름으로 불릴 수 있습니다."라는 특별한 참고 사항에도 불구하고, 일부 보다 전통적인 통계 학파에서는 '신뢰 구간'이 약간 다른 의미를 가집니다.

실제 변환율에 대한 가능한 값의 80%를 포함하는 범위를 알고 싶다고 가정해 보겠습니다. 이전 접근 방식을 결합하여 이 문제를 해결합니다. y축에서 0.1과 0.9에서 선을 그어 80%를 포함시킨 다음 x축에서 이것들이 CDF와 교차하는 위치를 확인합니다.

P_01=stats.beta.ppf(0.1, a, b)
P_09=stats.beta.ppf(0.9, a, b)
round(P_01, 5), round(P_09,5) 
(0.00695, 0.00806)

위 누적분포함수의 역함수는 분위수 함수(quantile function)라고 하며 다음과 같이 나타낼 수 있습니다. 이 분위수 함수의 그래프는 위 코드에서 사용한 ppf() 메서드를 사용하여 작성할 수 있습니다.

decorate_plot("CDF","Prob.","Quantile Function")
cdf=np.linspace(0,  1, 100)
p=stats.beta.ppf(cdf, a, b)
plt.plot(cdf, p)
plt.ylim(0.006, 0.009)
plt.show()

연습

예) 강설량 측정 작업으로 돌아가서 다음과 같은 강설량 측정값(인치)이 있다고 가정해 보겠습니다. 7.8, 9.4, 10.0, 7.9, 9.4, 7.0, 7.0, 7.1, 8.9, 7.4. 실제 강설량에 대한 99.9% 신뢰 구간은 무엇입니까?

x=np.linspace(3, 13, 100)
pdf=stats.norm.pdf(x, mu, sd)
x2=np.linspace(mu-2*sd, mu+2*sd, 100)
pdf2=stats.norm.pdf(x2, mu, sd)

decorate_plot("snow amount","PDF")
plt.plot(x, pdf)
plt.fill_between(x2, pdf2, alpha=0.6)
plt.xticks([4, 6, 8, 10, 12],[4, r"$\mu-2\sigma$",r"$\mu$", r"$\mu+2\sigma$", 12 ])
plt.show()
ci=stats.norm.interval(0.99, mu, sd)
print("하한: %.3f, 상한: %.3f" %(ci[0], ci[1]))
하한: 5.417, 상한: 10.963

예) 한 아이가 집집마다 다니며 사탕을 팔고 있습니다. 지금까지 그녀는 30채의 집을 방문했고 사탕을 10채 팔았습니다. 그녀는 오늘 40채의 집을 더 방문할 것입니다. 그녀가 오늘 하루 종일 사탕을 몇 채 팔지에 대한 95% 신뢰 구간은 무엇입니까?

α=10, β=10인 베타 분포를 적용합니다. stats.beta.pdf() 메서드를 사용하여 각 확률에 대응하는 확률밀도를 계산하고 신뢰구간은 .interval(신뢰구간, α, β) 메서드를 적용합니다.

a, b=10, 20
p=np.linspace(0, 1, 100)
pdf=stats.beta.pdf(p, a, b)
ci=stats.beta.interval(0.95, a, b)
p2=np.linspace(ci[0], ci[1], 50)
pdf2=stats.beta.pdf(p2, a, b)
decorate_plot("prob.","pdf")
plt.plot(p, pdf)
plt.fill_between(p2, pdf2, alpha=0.4)
plt.show()
print("하한: %.3f, 상한: %.3f" %(ci[0], ci[1]))
하한: 0.179, 상한: 0.508

문제에서 총 70채의 집을 방문하므로 신뢰구간의 상한과 하한에 70을 고려하면 성공의 횟수를 나타낼 수 있습니다.

ci[0]*70, ci[1]*70
(12.556855446457831, 35.5826347666993)

댓글

이 블로그의 인기 게시물

[python]KeyWord

keywords Characters or strings already used to define basic commands in programming languages such as python are called reserved words. This reserved word cannot be used when defining objects such as variables, functions, and classes when coding by the user. python has 33 reserved words, and it distinguishes between lowercase and uppercase letters in Engolsh. All other keywords are lowercase except True, False, None, etc. a and, as, assert, async, await b break c class, continue d def, del e eolf, else, except f False, finally, for, from g global i in, if, import, is l lambda n nonlocal, None, not o or r raise, return p pass ...

[Go] 고루틴

런타임(Runtime) visual code에서 브라우저 실행 단축키: Alt+B Go runtime은 메모리 관리, 가비지 수집, 동시성을 포함하여 Go 프로그림의 실행을 관리하는 역할을 합니다. 이 문서에서는 Go runtime을 자세히 살펴보고 아키텍초, 특성과 장점을 살펴봅니다. Go Runtime Architecture Go runtime은 모듈식이고 유연하게 설계되었으며 개발자가 특정 요구사항에 따라 동작을 사용자 정의할 수 있는 계층적 아키텍쳐를 갖추고 있습니다. 런타임은 스케줄러(schedualer), 가비지 수집기(garbage collector), 메모리 할당자(memory alllocator) 및 스택관리(stack management)를 포함한 어려 핵심 구성 요소로 구성됩니다. Schedualer Go 런타임의 핵심은 고루틴의 실행을 관리하는 스케줄러입니다. 고루틴은 효율적인 동시성을 가능하게 하는 가벼운 스레드입니다. 스케줄러는 사용 가능한 스레드에 고루틴을 분산하고, 스레드 로컬 스토리지를 관리하고, I/O 작업을 조정하는 역할을 합니다. thread(스레드): 프로그램 내에서 실행되는 흐름의 단위로 동시에 여러 작업이나 프로그램을 실행하는 것입니다. 즉, 코드를 실행할 수 있는 각 단위를 스레드라고 합니다. 고루틴(goroutine): Go 언어로 동시에 실행되는 모든 활동을 의미합니다. 고루틴을 만드는 비용을 스레드에 비해 매우 적기 떄문에 경량 스레드라고 합니다. 모든 프로그램은 적어도 하나의 main() 함수라는 고루틴을 포함하고 고루틴은 항상 백그라운드에서 작동합니다. 메인함수가 종료되면 모든 고루틴은 종료됩니다. 그러므로 고루틴보다 main이 먼저 종료되는 것을 방지해야 합니다. Go 스케줄러는 매우 효율적이고 확장 가능하도록 설계되어 많은 수의 동시 고루틴을 손쉽게 처리할 수 있습니다. 스레드 간에 부하를 분산하여 경합을 최소화하고 성능을 개선하는 작업 훔치기 알고리즘을 사용합니다...