기본 콘텐츠로 건너뛰기

추천 게시물

[Go] 고루틴

런타임(Runtime) visual code에서 브라우저 실행 단축키: Alt+B Go runtime은 메모리 관리, 가비지 수집, 동시성을 포함하여 Go 프로그림의 실행을 관리하는 역할을 합니다. 이 문서에서는 Go runtime을 자세히 살펴보고 아키텍초, 특성과 장점을 살펴봅니다. Go Runtime Architecture Go runtime은 모듈식이고 유연하게 설계되었으며 개발자가 특정 요구사항에 따라 동작을 사용자 정의할 수 있는 계층적 아키텍쳐를 갖추고 있습니다. 런타임은 스케줄러(schedualer), 가비지 수집기(garbage collector), 메모리 할당자(memory alllocator) 및 스택관리(stack management)를 포함한 어려 핵심 구성 요소로 구성됩니다. Schedualer Go 런타임의 핵심은 고루틴의 실행을 관리하는 스케줄러입니다. 고루틴은 효율적인 동시성을 가능하게 하는 가벼운 스레드입니다. 스케줄러는 사용 가능한 스레드에 고루틴을 분산하고, 스레드 로컬 스토리지를 관리하고, I/O 작업을 조정하는 역할을 합니다. thread(스레드): 프로그램 내에서 실행되는 흐름의 단위로 동시에 여러 작업이나 프로그램을 실행하는 것입니다. 즉, 코드를 실행할 수 있는 각 단위를 스레드라고 합니다. 고루틴(goroutine): Go 언어로 동시에 실행되는 모든 활동을 의미합니다. 고루틴을 만드는 비용을 스레드에 비해 매우 적기 떄문에 경량 스레드라고 합니다. 모든 프로그램은 적어도 하나의 main() 함수라는 고루틴을 포함하고 고루틴은 항상 백그라운드에서 작동합니다. 메인함수가 종료되면 모든 고루틴은 종료됩니다. 그러므로 고루틴보다 main이 먼저 종료되는 것을 방지해야 합니다. Go 스케줄러는 매우 효율적이고 확장 가능하도록 설계되어 많은 수의 동시 고루틴을 손쉽게 처리할 수 있습니다. 스레드 간에 부하를 분산하여 경합을 최소화하고 성능을 개선하는 작업 훔치기 알고리즘을 사용합니다...

매개변수 추정에서 가설 검정까지: 베이지안 A/B 검정 구축

매개변수 추정에서 가설 검정까지: 베이지안 A/B 검정 구축

이메일에서 이미지를 제거하면 클릭률이 증가할 것이라는 믿음과 이미지를 제거하면 클릭률이 감소할 것이라는 믿음을 검정해 보겠습니다. …

이미 알려지지 않은 단일 매개변수를 추정하는 방법을 알고 있으므로 검정을 위해 해야 할 일은 두 매개변수, 즉 각 이메일의 전환율을 추정하는 것뿐입니다. 그런 다음 몬테카를로 시뮬레이션을 실행하고 어느 가설이 더 나은 성과를 낼 가능성이 있는지 확인합니다. 즉, A 또는 B 중 어느 변형이 더 우수한지 확인합니다. A/B 검정은 t-검정과 같은 고전적인 통계 기법을 사용하여 수행할 수 있지만 베이지안 방식으로 검정을 구축하면 각 부분을 직관적으로 이해하고 더 유용한 결과도 얻을 수 있습니다.

베이지안 A/B 검정 설정

검정을 위해 평소처럼 이미지가 있는 변형 하나와 이미지가 없는 변형 하나를 보냅니다. 이 테스트는 A/B 테스트라고 불리는데, 어느 쪽이 더 나은 성과를 보이는지 확인하기 위해 변형 A(이미지 있음)와 변형 B(이미지 없음)를 비교하기 때문입니다.

테스트할 300명은 A와 B라는 두 그룹으로 나뉩니다. 그룹 A는 상단에 큰 그림이 있는 일반적인 이메일을 받고, 그룹 B는 그림이 없는 이메일을 받습니다. 더 간단한 이메일이 "스팸"처럼 느껴지지 않고 사용자가 콘텐츠를 클릭하도록 장려하기를 바랍니다.

사전 확률 찾기

우리는 매주 이메일 캠페인을 진행했으므로, 해당 데이터에서 주어진 이메일에서 블로그 링크를 클릭할 확률은 약 30%가 될 것이라는 합리적인 기대를 합니다. … 사전 확률 분포에 대해 Beta(3,7)을 정하겠습니다. 이 분포를 사용하면 평균이 0.3인 베타 분포를 나타낼 수 있지만, 광범위한 가능한 대체 비율이 고려됩니다.

import numpy as np
import pandas as pd
from scipy import stats, special
import itertools
from sympy import *
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style("darkgrid")

def decorate_plot(xlab, ylab, title=None, size=(4,3)):
    plt.figure(figsize=size)
    plt.xlabel(xlab)
    plt.ylabel(ylab)
    plt.title(title)   
convRate=np.linspace(0, 1, 100)
prior=stats.beta.pdf(convRate, 3, 7)

decorate_plot("Conv. Rate","Density","Prior")
plt.plot(convRate, prior)
plt.show()

A와 B에 대해 수집된 데이터는 다음과 같습니다.

Email Click-through Rates
Clicked Not clicked Observed conversion rate
A 36 114 0.24
B 50 100 0.33

위 사전확률의 분포에서 A, B의 데이터의 매개변수들을 합하여 사후 베타분포를 작성하면 다음과 같습니다.

  • A ⇒ α:3+36, β: 7+114, Beta(39, 121)
  • B ⇒ α:3+50, β: 7+100, Beta(53, 107)
convRate=np.linspace(0, 1, 100)
post_A=stats.beta.pdf(convRate, 39, 121)
post_B=stats.beta.pdf(convRate, 53, 107)
decorate_plot("Conv. Rate","Density","Posterior")
plt.plot(convRate, post_A, label="A")
plt.plot(convRate, post_B, label="B")
plt.legend(loc="best", labelcolor="linecolor")
plt.show()

B가 더 좋아 보이지만 중복이 있습니다. B가 더 나은 변형이라고 얼마나 확신할 수 있을까요? 여기서 몬테카를로 시뮬레이션이 등장합니다.

몬테카를로 시뮬레이션

몬테카를로 시뮬레이션은 문제를 해결하기 위해 무작위 샘플링을 사용하는 모든 기술입니다. 이 경우, 우리는 두 분포에서 무작위로 샘플링할 것입니다. 각 샘플은 분포에서의 확률에 따라 선택되므로 높은 확률 영역의 샘플이 더 자주 나타납니다.

사후 분포는 각 전환율에 대한 우리의 현재 믿음 상태에 따라 존재할 수 있는 모든 세계를 나타낸다고 상상할 수 있습니다. 다음 코드는 A와 B의 사후 베타분포에서 무작위로 100000개의 전환율(x 축의 값으로 확률)을 선택한 결과에 B의 값이 큰 경우의 확률을 계산한 것입니다.

n=100000
prior_a, prior_b=3, 7
Samples_A=stats.beta.rvs(36+prior_a, 114+prior_b, size=n, random_state=3 )
Samples_B=stats.beta.rvs(50+prior_a, 100+prior_b, size=n, random_state=3 )
b_superior=np.sum(Samples_B>Samples_A)/n
b_superior
0.96919

여기서 우리가 보는 것은 100,000번의 시도 중 약 97%에서 변형 B가 더 우수했다는 것입니다. 우리는 이것을 100,000개의 가능한 세계를 보는 것으로 상상할 수 있습니다.

위 결과로 B가 더 우수한 변형이라는 것을 얼마나 확신하는지 정확하게 말할 수 있습니다. … 우리는 마지막 시뮬레이션의 정확한 결과를 가져와 B 샘플이 A 샘플보다 몇 배 더 큰지 살펴보면서 변형 B가 얼마나 더 나을 가능성이 있는지 테스트할 수 있습니다.

ratio=Samples_B/Samples_A
decorate_plot("B/A", "Frequency" )
plt.hist(ratio)
plt.show()

위 결과로 B가 A보다 약 40% 개선될 가능성이 가장 높음을 알 수 있습니다. 누적 분포 함수(CDF)는 결과에 대한 추론에 히스토그램보다 훨씬 더 유용합니다. 다음은 B/A에 대한 경험적누적분포(ECDF)를 작성한 것입니다.

decorate_plot("B/A","CDF")
plt.ecdf(ratio)
plt.ylim(-0.01, 1.01)
plt.show()

위 결과는 B의 효과가 더 크다는 것을 명확하게 나타냅니다. 즉, B/A < 1인 경우의 확률은 매우 낮습니다. 반면에 50% 이상의 효과를 나타낼 가능성은 약 20%입니다.

댓글

이 블로그의 인기 게시물

[python]KeyWord

keywords Characters or strings already used to define basic commands in programming languages such as python are called reserved words. This reserved word cannot be used when defining objects such as variables, functions, and classes when coding by the user. python has 33 reserved words, and it distinguishes between lowercase and uppercase letters in Engolsh. All other keywords are lowercase except True, False, None, etc. a and, as, assert, async, await b break c class, continue d def, del e eolf, else, except f False, finally, for, from g global i in, if, import, is l lambda n nonlocal, None, not o or r raise, return p pass ...

[Go] 고루틴

런타임(Runtime) visual code에서 브라우저 실행 단축키: Alt+B Go runtime은 메모리 관리, 가비지 수집, 동시성을 포함하여 Go 프로그림의 실행을 관리하는 역할을 합니다. 이 문서에서는 Go runtime을 자세히 살펴보고 아키텍초, 특성과 장점을 살펴봅니다. Go Runtime Architecture Go runtime은 모듈식이고 유연하게 설계되었으며 개발자가 특정 요구사항에 따라 동작을 사용자 정의할 수 있는 계층적 아키텍쳐를 갖추고 있습니다. 런타임은 스케줄러(schedualer), 가비지 수집기(garbage collector), 메모리 할당자(memory alllocator) 및 스택관리(stack management)를 포함한 어려 핵심 구성 요소로 구성됩니다. Schedualer Go 런타임의 핵심은 고루틴의 실행을 관리하는 스케줄러입니다. 고루틴은 효율적인 동시성을 가능하게 하는 가벼운 스레드입니다. 스케줄러는 사용 가능한 스레드에 고루틴을 분산하고, 스레드 로컬 스토리지를 관리하고, I/O 작업을 조정하는 역할을 합니다. thread(스레드): 프로그램 내에서 실행되는 흐름의 단위로 동시에 여러 작업이나 프로그램을 실행하는 것입니다. 즉, 코드를 실행할 수 있는 각 단위를 스레드라고 합니다. 고루틴(goroutine): Go 언어로 동시에 실행되는 모든 활동을 의미합니다. 고루틴을 만드는 비용을 스레드에 비해 매우 적기 떄문에 경량 스레드라고 합니다. 모든 프로그램은 적어도 하나의 main() 함수라는 고루틴을 포함하고 고루틴은 항상 백그라운드에서 작동합니다. 메인함수가 종료되면 모든 고루틴은 종료됩니다. 그러므로 고루틴보다 main이 먼저 종료되는 것을 방지해야 합니다. Go 스케줄러는 매우 효율적이고 확장 가능하도록 설계되어 많은 수의 동시 고루틴을 손쉽게 처리할 수 있습니다. 스레드 간에 부하를 분산하여 경합을 최소화하고 성능을 개선하는 작업 훔치기 알고리즘을 사용합니다...

매개변수 추정 도구: PDF, CDF 및 분위수 함수

매개변수 추정 도구: PDF, CDF 및 분위수 함수 확률 밀도 함수(PDF)에 대해 자세히 다루고, 값 범위의 확률을 보다 쉽게 결정하는 데 도움이 되는 누적 분포 함수(CDF)를 소개하고, 확률 분포를 동일한 확률로 나누는 분위수를 소개합니다. 예를 들어, 백분위수는 100분위수이며, 이는 확률 분포를 100개의 동일한 부분으로 나눈다는 것을 의미합니다. 이메일 가입 목록에 대한 전환율 추정 블로그를 운영하고 블로그 방문자가 이메일 목록에 가입할 확률을 알고 싶다고 가정해 보겠습니다. 마케팅 용어로 사용자가 원하는 이벤트를 수행하도록 하는 것을 전환 이벤트 또는 간단히 전환이라고 하며, 사용자가 가입할 확률을 전환율이라고 합니다. 구독자 수 k와 방문자 총 수 n을 알고 있을 때 구독 확률 p를 추정하기 위해 베타 분포를 사용할 것입니다. 베타 분포에 필요한 두 가지 매개변수는 α로, 이 경우 구독자 총 수(k)를 나타내고, β는 구독하지 않은 총 수(n – k)를 나타냅니다. 확률 밀도 함수 첫 40,000명의 방문자에 대해 300명의 구독자를 얻는다고 가정해 보겠습니다. 우리 문제에 대한 PDF는 α = 300이고 β = 39,700인 베타 분포입니다. 베타 분포의 평균 계산 $$\tag{1}\mu_{\text{beta}}=\frac{\alpha}{\alpha + \beta}$$ 식 1을 사용하여 방문자 중의 구독자에 대한 평균은 다음과 같이 계산됩니다. import numpy as np import pandas as pd from scipy import stats, special import itertools from sympy import * import matplotlib.pyplot as plt import seaborn as sns sns.set_style("darkgrid") def decorate_plot(xlab, ylab, title=None, size=(4,3)): plt.figu...