기본 콘텐츠로 건너뛰기

추천 게시물

[Go] 고루틴

런타임(Runtime) visual code에서 브라우저 실행 단축키: Alt+B Go runtime은 메모리 관리, 가비지 수집, 동시성을 포함하여 Go 프로그림의 실행을 관리하는 역할을 합니다. 이 문서에서는 Go runtime을 자세히 살펴보고 아키텍초, 특성과 장점을 살펴봅니다. Go Runtime Architecture Go runtime은 모듈식이고 유연하게 설계되었으며 개발자가 특정 요구사항에 따라 동작을 사용자 정의할 수 있는 계층적 아키텍쳐를 갖추고 있습니다. 런타임은 스케줄러(schedualer), 가비지 수집기(garbage collector), 메모리 할당자(memory alllocator) 및 스택관리(stack management)를 포함한 어려 핵심 구성 요소로 구성됩니다. Schedualer Go 런타임의 핵심은 고루틴의 실행을 관리하는 스케줄러입니다. 고루틴은 효율적인 동시성을 가능하게 하는 가벼운 스레드입니다. 스케줄러는 사용 가능한 스레드에 고루틴을 분산하고, 스레드 로컬 스토리지를 관리하고, I/O 작업을 조정하는 역할을 합니다. thread(스레드): 프로그램 내에서 실행되는 흐름의 단위로 동시에 여러 작업이나 프로그램을 실행하는 것입니다. 즉, 코드를 실행할 수 있는 각 단위를 스레드라고 합니다. 고루틴(goroutine): Go 언어로 동시에 실행되는 모든 활동을 의미합니다. 고루틴을 만드는 비용을 스레드에 비해 매우 적기 떄문에 경량 스레드라고 합니다. 모든 프로그램은 적어도 하나의 main() 함수라는 고루틴을 포함하고 고루틴은 항상 백그라운드에서 작동합니다. 메인함수가 종료되면 모든 고루틴은 종료됩니다. 그러므로 고루틴보다 main이 먼저 종료되는 것을 방지해야 합니다. Go 스케줄러는 매우 효율적이고 확장 가능하도록 설계되어 많은 수의 동시 고루틴을 손쉽게 처리할 수 있습니다. 스레드 간에 부하를 분산하여 경합을 최소화하고 성능을 개선하는 작업 훔치기 알고리즘을 사용합니다...

사전, 우도, 그리고 사후 확률

베이즈 정리의 사전 확률, 우도, 사후 확률

베이즈 정리는 세 부분으로 구성됩니다.

  • 사전 확률(Prior probability), P(belief)
  • 우도(Likelihood), P(data|belief)
  • 사후 확률(Posterior probability), P(belief | data)

베이즈 정리의 네 번째 부분인 데이터의 확률P(data)은 사후 확률을 정규화하여 0에서 1까지의 확률을 정확하게 반영하는 데 사용됩니다. 실제로는 항상 P(data)가 필요한 것은 아니므로 이 값에는 특별한 이름이 없습니다

\begin{align}\tag{1} \text{Posterior}&= \frac{\text{Prior} \cdot \text{Likelihood}}{\text{Normalizer}}\\ P(\text{belief} | \text{data})&=\frac{P(\text{data})P(\text{data}|\text{belief})}{P(\text{data})}\end{align}

범죄 현장 조사

어느 날 직장에서 집에 돌아와서 창문이 깨지고, 현관문이 열려 있고, 노트북이 없어진 것을 발견했다고 가정해 보겠습니다. 첫 번째 생각은 아마도 "강도 맞았어!"일 것입니다. 하지만 어떻게 이 결론에 도달했을까요? 그리고 더 중요한 것은 이 믿음을 어떻게 정량화할 수 있을까요?

당신의 즉각적인 가설은 당신이 강도를 맞았다는 것이므로 "H = I've be robbed"입니다. 우리는 당신이 강도를 맞았을 가능성을 설명하는 확률을 원하므로, 주어진 데이터를 바탕으로 우리가 풀고자 하는 사후 확률은 다음과 같습니다.

P(robbed| broken window, open front door, mssing latop)

우도

위 문제를 풀기 위해 베이즈 정리를 사용합니다. 먼저 위 가설이 참이라면 일어날 사건의 확률 즉, 우도를 계산합니다.

P(broken window, open front door, mssing latop|robbed)

우리가 묻는 것은 "당신이 강도를 당했다면, 여기서 본 증거를 볼 가능성은 얼마나 될까요?" 강도 사건에서 이 증거가 모두 존재하지 않는 다양한 시나리오를 상상해 볼 수 있습니다. 예를 들어, 영리한 도둑이 당신 문의 자물쇠를 풀고 노트북을 훔친 다음 문을 잠그고 창문을 깨지 않았을 수도 있습니다. 아니면 그냥 창문을 부수고 노트북을 가져간 다음 바로 창문으로 다시 올라갔을 수도 있습니다. 우리가 본 증거는 강도 사건 현장에서 흔히 볼 수 있는 것처럼 직관적으로 보이므로 강도를 당했다면 집에 돌아와서 이 증거를 발견할 확률은 3/10이라고 말할 수 있습니다.

이 예에서 추측을 하고 있지만, 더 나은 추정치를 얻기 위해 조사를 할 수도 있다는 점에 유의하는 것이 중요합니다. 지역 경찰서에 가서 강도 사건과 관련된 범죄 현장의 증거에 대한 통계를 요청하거나 최근 강도 사건에 대한 뉴스 기사를 읽을 수도 있습니다. 이렇게 하면 강도를 당했을 때 이 증거를 볼 가능성에 대한 보다 정확한 추정치를 얻을 수 있습니다.

베이즈 정리의 놀라운 점은 우리가 그것을 우리의 우연한 믿음을 정리하고 매우 정확한 확률의 방대한 데이터 집합을 다루는 데 사용할 수 있다는 것입니다. 3/10이 좋은 추정치가 아니라고 생각하더라도 항상 계산으로 돌아가서(우리가 할 것처럼) 다른 가정에 따라 값이 어떻게 변하는지 볼 수 있습니다. 예를 들어 강도를 당했을 때 이 증거를 볼 확률이 3/100에 불과하다고 생각한다면 쉽게 돌아가서 대신 그 숫자를 넣을 수 있습니다. 베이지안 통계는 사람들이 측정 가능한 방식으로 믿음에 대해 의견이 다를 수 있도록 합니다. 우리는 우리의 믿음을 정량적인 방식으로 다루고 있기 때문에 이 장에서 하는 모든 것을 다시 계산하여 이 다른 확률이 최종 결과에 상당한 영향을 미치는지 확인할 수 있습니다.

사전 확률 계산

다음으로, 당신이 전혀 강도를 당할 확률을 결정해야 합니다. 이것이 우리의 사전 확률입니다. 사전 확률은 배경 정보를 사용하여 가능성을 조정할 수 있기 때문에 매우 중요합니다. 예를 들어, 앞서 설명한 장면이 당신이 유일한 주민인 무인도에서 일어났다고 가정해 보겠습니다. 이 경우, 당신이 강도를 당할 가능성은 거의 없습니다(적어도 인간에게). 또 다른 예로, 범죄율이 높은 동네에 집을 소유하고 있다면 강도가 자주 발생할 수 있습니다. 단순화를 위해 강도를 당할 가능성에 대한 사전 확률을 다음과 같이 설정해 보겠습니다.

\begin{align} \tag{2}& P(\text{robbed})=\frac{1}{1000}\\& P(\text{robbed})\cdot P(\text{broken window, open front door, mssing latop}|\text{robbed})=\frac{1}{1000}\frac{3}{10}=\frac{3}{10000}\end{align}

이 값은 믿을 수 없을 정도로 작은데, 직감적으로 당신이 관찰한 증거를 감안할 때 집이 도난당할 확률이 매우 매우 높아 보이기 때문에 놀라운 일입니다. 하지만 우리는 아직 우리의 증거를 관찰할 확률을 살펴보지 않았습니다.

데이터 정규화

위 식에서 빠진 것은 강도를 당했는지 아닌지에 대한 데이터의 확률입니다. 우리의 예에서 이것은 원인과 관계없이 창문이 깨지고, 문이 열려 있고, 노트북이 모두 없어지는 것을 한 번에 관찰할 확률입니다. 현재로서는 식이 다음과 같습니다.

$$\tag{3} P(\text{robbed}|\text{broken window, open front door, mssing latop})=\frac{\dfrac{3}{10000}}{P(D)}$$

위 식은 P(D)에 영향을 받습니다.

import numpy as np
import pandas as pd
from scipy import stats, special
import itertools
from sympy import *
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style("darkgrid")
t=pd.DataFrame()
t["PD"]=[0.05, 0.01, 0.005, 0.001]
t["posterior"]=(1/10000)/t.PD
t
PD posterior
0 0.050 0.002
1 0.010 0.010
2 0.005 0.020
3 0.001 0.100

데이터의 확률이 감소함에 따라 사후 확률은 증가합니다. 결과적으로 가능성이 낮은 사건을 설명하는데 더 효과적임을 나타냅니다. 이 예에서는 P(D)를 지정하였지만 일반적으로 실제사례에서 이 항목을 계산하는 것은 쉽지 않습니다. 사전 확률 P(강도)의 경우, 단순히 과거 범죄 데이터를 살펴보고 거리의 주어진 집이 주어진 날에 강도를 당할 확률을 확정할 수 있습니다. 마찬가지로 이론적으로 과거 강도 사건을 조사하여 강도 사건을 감안할 때 관찰한 증거에 대한 보다 정확한 가능성을 도출할 수 있습니다. 하지만 실제로 P(깨진 창문, 열린 현관문, 없어진 노트북)를 어떻게 추측할 수 있을까요?

관찰한 데이터의 확률을 조사하는 대신, 관찰을 설명할 수 있는 다른 모든 가능한 사건의 확률을 계산해 볼 수 있습니다. 그것들은 합산이 1이어야 하므로, 역으로 작업하여 P(D)를 찾을 수 있습니다. 하지만 이 특정 증거의 경우, 사실상 무한한 가능성이 있습니다.

어떤 경우에는 P(D)를 명시적으로 알 필요가 없습니다 . 종종 가설을 비교하고 싶을 뿐이기 때문입니다 . 이 예에서, 강도를 당했을 가능성을 다른 가능한 설명과 비교합니다. 우리는 정규화되지 않은 사후 분포의 비율을 살펴보면 이를 수행할 수 있습니다. P(D) 는 상수이기 때문에 분석을 변경하지 않고도 안전하게 제거할 수 있습니다. 따라서 이 장의 나머지 부분에서는 P(D)를 계산하는 대신 대안 가설을 개발하고, 사후 확률을 계산한 다음, 원래 가설의 사후 확률과 비교할 것입니다. 이는 우리가 당신이 관찰한 증거에 대한 유일한 가능한 설명으로 강도를 당할 정확한 확률을 생각 해 낼 수 없다는 것을 의미하지만, 우리는 여전히 베이즈 정리를 사용하여 탐정 역할을 하고 다른 가능성을 조사할 수 있습니다.

대안 가설 고려

새로운 가설(H2)과 사전확률을 다음과 같이 구축합니다.

  1. 아이가 던진 야구공에 깨진 앞 창문: $P(1)=\frac{1}{2000}$
  2. 문을 잠그지 않음: $P(2)=\frac{1}{30}$
  3. 노트북을 직장에서 가져오지 않음: $P(3)=\frac{1}{365}$

H2의 1,2,3의 각 사전확률들에 곱법칙을 적용하면 H2의 사전확률은 다음과 같습니다.

P1=Rational(1,2000)
P2=Rational(1,30)
P3=Rational(1,365)
Ph2=P1*P2*P3
Ph2

$\frac{1}{21900000}$

H2에 대한 정규화되지 않은 사후확률은 식4와 같이 계산합니다. H2가 참이라면 D(broken window, open front door, mssing latop)의 확률 즉, 우도 P(D|H2)=1입니다.

\begin{align}\tag{4}P(H_2|D)&=\frac{P(H_2)P(D|H_2)}{P(D)}\\&\propto P(H_2)P(D|H_2)\end{align}

Ph2D=1*Ph2; Ph2D

$\frac{1}{21900000}$

두 가설에 대한 사후확률의 비교

\begin{align}\tag{5}\frac{P(H_1|D)}{P(H_2|D)}&=\frac{\dfrac{P(H_1)P(D|H_1)}{P(D)}}{\dfrac{P(H_2)P(D|H_2)}{P(D)}}\\&=\frac{\dfrac{3}{10000}}{\dfrac{1}{21900000}} \\&=6570\end{align}

식 5는 분자와 분모 모두 P(D)를 포함하므로 이를 제거할 수 있습니다. 즉, 각 가설의 비정규화된 사후확률들을 비교합니다. 이 결과는 원래의 가설(H1)이 새로운 가설보다 데이터를 훨씬 잘 설명한다는 것을 보여 줍니다.

댓글

이 블로그의 인기 게시물

[python]KeyWord

keywords Characters or strings already used to define basic commands in programming languages such as python are called reserved words. This reserved word cannot be used when defining objects such as variables, functions, and classes when coding by the user. python has 33 reserved words, and it distinguishes between lowercase and uppercase letters in Engolsh. All other keywords are lowercase except True, False, None, etc. a and, as, assert, async, await b break c class, continue d def, del e eolf, else, except f False, finally, for, from g global i in, if, import, is l lambda n nonlocal, None, not o or r raise, return p pass ...

[Go] 고루틴

런타임(Runtime) visual code에서 브라우저 실행 단축키: Alt+B Go runtime은 메모리 관리, 가비지 수집, 동시성을 포함하여 Go 프로그림의 실행을 관리하는 역할을 합니다. 이 문서에서는 Go runtime을 자세히 살펴보고 아키텍초, 특성과 장점을 살펴봅니다. Go Runtime Architecture Go runtime은 모듈식이고 유연하게 설계되었으며 개발자가 특정 요구사항에 따라 동작을 사용자 정의할 수 있는 계층적 아키텍쳐를 갖추고 있습니다. 런타임은 스케줄러(schedualer), 가비지 수집기(garbage collector), 메모리 할당자(memory alllocator) 및 스택관리(stack management)를 포함한 어려 핵심 구성 요소로 구성됩니다. Schedualer Go 런타임의 핵심은 고루틴의 실행을 관리하는 스케줄러입니다. 고루틴은 효율적인 동시성을 가능하게 하는 가벼운 스레드입니다. 스케줄러는 사용 가능한 스레드에 고루틴을 분산하고, 스레드 로컬 스토리지를 관리하고, I/O 작업을 조정하는 역할을 합니다. thread(스레드): 프로그램 내에서 실행되는 흐름의 단위로 동시에 여러 작업이나 프로그램을 실행하는 것입니다. 즉, 코드를 실행할 수 있는 각 단위를 스레드라고 합니다. 고루틴(goroutine): Go 언어로 동시에 실행되는 모든 활동을 의미합니다. 고루틴을 만드는 비용을 스레드에 비해 매우 적기 떄문에 경량 스레드라고 합니다. 모든 프로그램은 적어도 하나의 main() 함수라는 고루틴을 포함하고 고루틴은 항상 백그라운드에서 작동합니다. 메인함수가 종료되면 모든 고루틴은 종료됩니다. 그러므로 고루틴보다 main이 먼저 종료되는 것을 방지해야 합니다. Go 스케줄러는 매우 효율적이고 확장 가능하도록 설계되어 많은 수의 동시 고루틴을 손쉽게 처리할 수 있습니다. 스레드 간에 부하를 분산하여 경합을 최소화하고 성능을 개선하는 작업 훔치기 알고리즘을 사용합니다...

매개변수 추정 도구: PDF, CDF 및 분위수 함수

매개변수 추정 도구: PDF, CDF 및 분위수 함수 확률 밀도 함수(PDF)에 대해 자세히 다루고, 값 범위의 확률을 보다 쉽게 결정하는 데 도움이 되는 누적 분포 함수(CDF)를 소개하고, 확률 분포를 동일한 확률로 나누는 분위수를 소개합니다. 예를 들어, 백분위수는 100분위수이며, 이는 확률 분포를 100개의 동일한 부분으로 나눈다는 것을 의미합니다. 이메일 가입 목록에 대한 전환율 추정 블로그를 운영하고 블로그 방문자가 이메일 목록에 가입할 확률을 알고 싶다고 가정해 보겠습니다. 마케팅 용어로 사용자가 원하는 이벤트를 수행하도록 하는 것을 전환 이벤트 또는 간단히 전환이라고 하며, 사용자가 가입할 확률을 전환율이라고 합니다. 구독자 수 k와 방문자 총 수 n을 알고 있을 때 구독 확률 p를 추정하기 위해 베타 분포를 사용할 것입니다. 베타 분포에 필요한 두 가지 매개변수는 α로, 이 경우 구독자 총 수(k)를 나타내고, β는 구독하지 않은 총 수(n – k)를 나타냅니다. 확률 밀도 함수 첫 40,000명의 방문자에 대해 300명의 구독자를 얻는다고 가정해 보겠습니다. 우리 문제에 대한 PDF는 α = 300이고 β = 39,700인 베타 분포입니다. 베타 분포의 평균 계산 $$\tag{1}\mu_{\text{beta}}=\frac{\alpha}{\alpha + \beta}$$ 식 1을 사용하여 방문자 중의 구독자에 대한 평균은 다음과 같이 계산됩니다. import numpy as np import pandas as pd from scipy import stats, special import itertools from sympy import * import matplotlib.pyplot as plt import seaborn as sns sns.set_style("darkgrid") def decorate_plot(xlab, ylab, title=None, size=(4,3)): plt.figu...