sonsNote

글

[Go] 고루틴

런타임(Runtime) visual code에서 브라우저 실행 단축키: Alt+B Go runtime은 메모리 관리, 가비지 수집, 동시성을 포함하여 Go 프로그림의 실행을 관리하는 역할을 합니다. 이 문서에서는 Go runtime을 자세히 살펴보고 아키텍초, 특성과 장점을 살펴봅니다. Go Runtime Architecture Go runtime은 모듈식이고 유연하게 설계되었으며 개발자가 특정 요구사항에 따라 동작을 사용자 정의할 수 있는 계층적 아키텍쳐를 갖추고 있습니다. 런타임은 스케줄러(schedualer), 가비지 수집기(garbage collector), 메모리 할당자(memory alllocator) 및 스택관리(stack management)를 포함한 어려 핵심 구성 요소로 구성됩니다. Schedualer Go 런타임의 핵심은 고루틴의 실행을 관리하는 스케줄러입니다. 고루틴은 효율적인 동시성을 가능하게 하는 가벼운 스레드입니다. 스케줄러는 사용 가능한 스레드에 고루틴을 분산하고, 스레드 로컬 스토리지를 관리하고, I/O 작업을 조정하는 역할을 합니다. thread(스레드): 프로그램 내에서 실행되는 흐름의 단위로 동시에 여러 작업이나 프로그램을 실행하는 것입니다. 즉, 코드를 실행할 수 있는 각 단위를 스레드라고 합니다. 고루틴(goroutine): Go 언어로 동시에 실행되는 모든 활동을 의미합니다. 고루틴을 만드는 비용을 스레드에 비해 매우 적기 떄문에 경량 스레드라고 합니다. 모든 프로그램은 적어도 하나의 main() 함수라는 고루틴을 포함하고 고루틴은 항상 백그라운드에서 작동합니다. 메인함수가 종료되면 모든 고루틴은 종료됩니다. 그러므로 고루틴보다 main이 먼저 종료되는 것을 방지해야 합니다. Go 스케줄러는 매우 효율적이고 확장 가능하도록 설계되어 많은 수의 동시 고루틴을 손쉽게 처리할 수 있습니다. 스레드 간에 부하를 분산하여 경합을 최소화하고 성능을 개선하는 작업 훔치기 알고리즘을 사용합니다...

자세한 내용 보기

함수(function)

함수 함수는 키워드 func 를 사용합니다. func 함수명(인자 자료형) 반환자료형 { 내용 } func Add(a int, b int) int { return a + b } 위와 같이 매개변수의 자료형이 같은 경우 다음과 같이 작성할 수 있습니다. func Add(a, b int) int { return a + b } go에서는 Public, Private 함수를 위한 별도의 키워드는 존재하지 않습니다. 그러나 함수명의 첫문자의 대소에 따라 구분합니다. Public: 다른 패키지에도 사용가능한 함수 함수명이 대문자로 시작 Private: 해당 패키지에서만 작동 함수명이 소문자로 시작 다수의 값을 반환할 수 있습니다. func Divide(a, b int) (int, bool) { if b == 0 { return 0, false } return a / b, true } 다음 코드와 같이 중복된 이름으로 새로운 값을 할당할 수 없습니다. func main() { c, success := Divide(10, 2) c, success := Divide(10, 0) // ERROR! fmt.Println(c, success) } 함수의 매개변수 다음에 반환 자료형에 반환값의 변수(들)와 자료형을 미리 지정할 수 있습니다. 이 경우 return 문의 반환결과는 생략됩니다. func Sqrt1(a float64) (b float64) { ...

자세한 내용 보기

[Go] Array(배열)과 slice(슬라이스)

Array(배열)과 slice(슬라이스) Array(배열) 동일한 자료형의 1개 이상의 값들을 저장하는 타입으로 연속된 메모리에 데이터가 저장됩니다. 다음과 같이 정의 합니다. var 변수명[요소개수]타입 예) var a[5]int 위 예는 정수형 데이터 5개를 포함하는 배열 a를 선언한 것입니다. 그러나 초기값이 할당되지 않았으므로 기본값이 0이 됩니다. func main() { var a [5]int fmt.Println(a) } [0 0 0 0 0] 배열의 크기는 상수(const)만 가능합니다. var len int = 5 func main() { var a [len]int fmt.Println(a) } invalid array length len const len = 5 func main() { var a [len]int fmt.Println(a) } [0 0 0 0 0] 초기값은 다음과 같이 선언합니다. a := [5]int{1,2,3,4,5} b := [3]string{"A", "B", "C"} 지정된 요소에만 초기값을 지정할 수 있습니다. 배열의 인덱스(요소의 위치)는 0부터 시작하는 양의 정수입니다. a := [5]int{1: 10, 4: 3} [0 10 0 0 3] 인덱스를 사용하여 배열의 특정한 요소를 호출 또는 치환 등 조정할 수 있습니다. import "fmt" func main() { a := [5]int{10, 20, 30, 40, 50} fmt.Println(a) fmt.Println(a[0]) fmt.Println(a[4]) a[4] = 5 fmt.Println(a) fmt.Println(a[2:4]) } [10 20 30 40 50] 10 50 [10 20 30 40 5] [30 40] 배열의 길이에 가변인자를 적용하면 초기값들의 수만큼을 포함하는 배열이 생성됩니다. 즉, 초기값의 수가 배열의 ...

자세한 내용 보기

매개변수 추정에서 가설 검정까지: 베이지안 A/B 검정 구축

매개변수 추정에서 가설 검정까지: 베이지안 A/B 검정 구축 이메일에서 이미지를 제거하면 클릭률이 증가할 것이라는 믿음과 이미지를 제거하면 클릭률이 감소할 것이라는 믿음을 검정해 보겠습니다. … 이미 알려지지 않은 단일 매개변수를 추정하는 방법을 알고 있으므로 검정을 위해 해야 할 일은 두 매개변수, 즉 각 이메일의 전환율을 추정하는 것뿐입니다. 그런 다음 몬테카를로 시뮬레이션을 실행하고 어느 가설이 더 나은 성과를 낼 가능성이 있는지 확인합니다. 즉, A 또는 B 중 어느 변형이 더 우수한지 확인합니다. A/B 검정은 t-검정과 같은 고전적인 통계 기법을 사용하여 수행할 수 있지만 베이지안 방식으로 검정을 구축하면 각 부분을 직관적으로 이해하고 더 유용한 결과도 얻을 수 있습니다. 베이지안 A/B 검정 설정 검정을 위해 평소처럼 이미지가 있는 변형 하나와 이미지가 없는 변형 하나를 보냅니다. 이 테스트는 A/B 테스트라고 불리는데, 어느 쪽이 더 나은 성과를 보이는지 확인하기 위해 변형 A(이미지 있음)와 변형 B(이미지 없음)를 비교하기 때문입니다. 테스트할 300명은 A와 B라는 두 그룹으로 나뉩니다. 그룹 A는 상단에 큰 그림이 있는 일반적인 이메일을 받고, 그룹 B는 그림이 없는 이메일을 받습니다. 더 간단한 이메일이 "스팸"처럼 느껴지지 않고 사용자가 콘텐츠를 클릭하도록 장려하기를 바랍니다. 사전 확률 찾기 우리는 매주 이메일 캠페인을 진행했으므로, 해당 데이터에서 주어진 이메일에서 블로그 링크를 클릭할 확률은 약 30%가 될 것이라는 합리적인 기대를 합니다. … 사전 확률 분포에 대해 Beta(3,7)을 정하겠습니다. 이 분포를 사용하면 평균이 0.3인 베타 분포를 나타낼 수 있지만, 광범위한 가능한 대체 비율이 고려됩니다. import numpy as np import pandas as pd from scipy import stats, special import itertools from sympy import *...

자세한 내용 보기

[Go] Control

Control For 문 Go에는 for 루프라는 단 하나의 루핑 구조만 있습니다. 기본 for 루프에는 세미콜론으로 구분된 세 가지 구성 요소가 있습니다. init 문: 첫번째 반복전에 실행 조건식: 모든 반복전에 평가 post 문: 모든 반복의 끝에서 실행 init문은 종종 짧은 변수 선언이며 선언된 변수는 for 문의 범위에서만 작동 init문과 post 문은 생략할 수 있음. 이 경우는 for 문은 다른 언어의 while과 같은 역할을 함 조건문을 생략할 경우 for 문은 종결되지 않음 bool 조건이 false이면 반복은 중지됩니다. 참고: C, Java 또는 JavaScript와 같은 다른 언어와 달리 for 문의 세 가지 구성 요소를 둘러싼 괄호가 없으며 중괄호 { }는 항상 필요합니다. import "fmt" func main() { sum := 0 for i := 0; i < 10; i++ { sum += i } fmt.Println(sum) //init문과 post 문 없이 작동 //다른 언어의 while과 같은 역할 total := 1 for total < 100 { total += total } fmt.Println(total) } if 문 if 조건 { } for와 마찬가지로 if 문장은 조건 전에 실행할 짧은 문장으로 시작할 수 있습니다. 또한 if 문 내에 선언된 변수는 if가 끝날 때까지만 범위에 있습니다. package main import ( "fmt" "math" ) func pow(x, n, lim float64) float64 { if v := math.Pow(x, n); v 9 20 위 코드에서 변수 v는 if 문내에서만 작동합니다. 그러므로 $v=x^n$이 ...

자세한 내용 보기

[Go] 구조체(struct)

구조체(struct) 구조체는 여러 타입의 필드를 묶을 수 있는 자료형(타입)으로 다음과 같이 정의 할 수 있습니다. type 타입명 struct{ 필드명 타입 … 필드명 타입 } 필드(field): 구조체 내부에 있는 데이터 외부에 노출시키기 위한 public filed의 이름은 대문자로 시작 내부에서만 사용되는 private field의 필드명은 소문자로 시작 import "fmt" type Student struct { Name string Class int No int } func main() { var s Student s.Name = "yj" s.Class = 1 s.No = 1 fmt.Println(s) fmt.Printf("%v\n", s) fmt.Printf("Name: %s, Class: %d, No: %d", s.Name, s.Class, s.No) {yj 1 1} {yj 1 1} Name: yj, Class: 1, No: 1 위 구조체의 타입은 Stduent이며 변수 s의 타입입니다. 이 구조체의 경우 3개의 필드로 구성되므로 변수 s는 3개의 데이터를 가집니다. 변수 s에 각 필드의 호출은 연산자 . 로 이루어집니다. 다음과 같이 구조체 변수의 각 필드를 초기화하지 않을 경우 기본값이 할당됩니다. 문자열의 기본값은 공백, 정수는 0, 부울은 false 입니다. func main() { var s Student fmt.Println(s) fmt.Printf("%v\n", s) fmt.Printf("Name: %s, Class: %d, No: %d", s.Name, s.Class, s.No) } { 0 0} { 0 0} Name: , Class: 0, No: 0 위 s와 같이 초기화 대신 다음과 같이 실행할 수 있습니다. func main() { var a Student = ...

자세한 내용 보기

[Go] 자료형

변수와 상수 var 를 이용하여 명시적으로 선언 변수타입을 지정하여 선언 타입을 지정하지 않을 수도 있음 var( ) 를 사용하여 다수의 변수를 동시에 선언할 수 있음 선언과 동시에 초기화하지 않으면 기본값이 실행, int:0, 문자열: 공백(""), 불린값: false := 를 사용하여 묵시적으로 선언, 생성과 동시에 초기화 상수 const 를 사용하여 변수와 동일하게 선언 := 에 의해 선언할 수 없음 숫자 상수는 조 정밀 값입니다. 형식이 지정되지 않은 상수는 컨텍스트에 필요한 형식을 사용합니다. 함수에 선언된 변수의 참조값 없으면 상수값을 사용 형태 타입 정수형 int, int8, int32, int64 uint, uint8, uint32, uint64 실수형 float32, float64 complex64, complex128 문자열 string boolean bool 기타 byte, rune 문자열 " "로 둘러쌓인 상태로 선언 복수 라인으로 선언할 수 없음 특수문자는 이스케이트 문자를 이용하여 처리 ``(grave, 물결표시 아래 따옴표)로 둘러쌓인 문장은 이스케이프 문자열을 해석하지 않고 처리 문자열 format 다음의 문자열 format의 결과는 Printf() 를 사용합니다. 포맷 설명 예제 %v 인스턴스 출력 {1 2} %+v 필드명 추가 {x:1 y:2} %#v 코드 스니펫 출...

자세한 내용 보기

[Go] Pointer

Pointer Go에는 포인터가 있습니다. 포인터는 값의 메모리 주소를 값으로 갖는 타입닙니다.다음과 같이 선언할 수 있습니다. var 변수명 *타입 var p *int 이렇게 선언한 포인터 변수는 다른 변수의 주소값을 저장할 수 있으며 다른 변수의 주소값은 & 연산자를 사용하여 접근할 수 있습니다. import "fmt" func main() { a := 1 var p *int p = &a *p = 20 fmt.Println("p는 pointer 즉 변수 a의 주소를 보관: ", p) fmt.Println("*p는 정수 20을 보관: ", *p) } p는 pointer 즉 변수 a의 주소를 보관: 0xc0000a2040 *p는 정수 20을 보관: 20 위 코드에서 p는 pointer입니다. 그러므로 &a의 결과인 a의 주소를 저장할 수 있습니다. 반면에 *p는 pointer가 아니므로 일반적인 값을 보관합니다. 위 코드를 변경하여 다음을 실행해 봅니다. func main() { a := 1 var p *int p = &a *p = &a fmt.Println("p는 pointer 즉 변수 a의 주소를 보관: ", p) fmt.Println("*p는 정수 20을 보관: ", *p) } # command-line-arguments go_project\const.go:9:7: cannot use &a (value of type *int) as int value in assignment 즉, *p는 포인터가 아니므로 주소를 보관할 수 없다는 에러가 발생합니다. package main import "fmt" func main() { var a int = 10 var p *int fmt.Println(a)//a값 출력 p = &a fmt.Printf...

자세한 내용 보기

자료로 부터 beta 분포의 MC simulation을 위한 클래스

다음 클래스는 자료로부터 Beta 분포를 생성하고 이를 몬테카를로 시뮬레이션을 통해 최대 확률을 가진 결과를 반환합니다. class predict_MC: def __init__(self, x): self.x=x def alphaBeta(self): self.uni, self. fq=np.unique(self.x, return_counts=True) self.a=[] self.b=[] for i in range(len(self.fq)): self.a.append(self.fq[i]) self.b.append(np.sum(np.delete(self.fq, i))) return([self.uni, self.fq, self.a, self.b]) def maxP(self): self.u, self.fq, self.a, self.b=self.alphaBeta() self.p_max={} p=np.linspace(0, 1, 100) for i in range(len(self.a)): density=stats.beta.pdf(p, self.a[i], self.b[i]) self.p_max[self.uni[i]]=p[np.argmax(density)] return([self.a, self.b, self.p_max]) def mcSimul(self, n=100000, random=3) : self.u, self.fq, self.a, self.b=self.alphaBeta() sample={} for i in range(len(self.a)): sample[self.uni[i]]=stats.beta.rvs(self.a...

자세한 내용 보기

베이즈 요인과 사후 확률 소개

베이즈 요인과 사후 확률 소개: 아이디어의 경쟁 베이즈 요인은 한 가설을 다른 가설과 비교하여 타당성을 테스트하는 공식입니다. 결과는 한 가설이 다른 가설보다 몇 배 더 가능성이 높은지 알려줍니다. 데이터(D)의 조건에 가설(H)에 대한 확률을 계산하기 위해 베이즈 정리를 적용합니다. $$\tag{1}P(H|D)=\frac{P(H)P(D|H)}{P(D)}$$ P(H|D): 사후확률, 데이터를 바탕으로 가설을 얼마나 강하게 믿어야 하는지 나타냅니다. P(H): 사전확률, 데이터의 고려없는 상태에서 가설의 확률 P(D|H): 우도, 가설이 사실일 경우 발생할 가능성(확률) P(D): 데이터의 총확률로 가설과 무관하게 관찰된 데이터의 확률. 사후확률의 정규화를 위해 필요 단지 가설들의 상대적 강도를 비교하는 것에 주목하는 경우 P(D)가 반드시 필요한 것은 아닙니다. 이러한 표현을 위해 식1은 다음과 같이 비례형태로 나타내기도 합니다. $$\tag{2}P(H|D)\propto P(H)P(D|H)$$ 우리 가설의 사후 확률은 사전 확률에 우도를 곱한 것에 비례합니다. 사후 확률 공식을 사용하여 각 가설에 대한 사전 믿음과 우도의 비율을 조사하여 두 가설을 비교할 수 있습니다. $$\tag{3}\frac{P(H_1)P(D|H_1)}{P(H_2)P(D|H_2)}$$ 사후 확률을 사용하여 가설 검정 구축 사후 확률 공식은 사후 확률을 제공하며, 이를 통해 데이터에 대한 가설이나 믿음을 검정할 수 있습니다. 사후 확률을 더 잘 이해하기 위해 사후 확률 공식을 두 부분으로 나눕니다. 우도 비율 또는 베이즈 계수와 사전 확률 비율입니다. 베이즈 요인(Bayes factor) $$\tag{4}\text{Bayes Factor}=\frac{P(D|H_1)}{P(D|H_2)}$$ 식 4가 2라면 가설 H1은 H2에 비해 2배 만큼 데이터를 설명한다는 것을 의미합니다. 식 4는 두 가설의 비를 나타내고 있으며 베이스 요인라고 합니다...

자세한 내용 보기

사전확률(prior probability)

사전확률 사전확룰과 그 연구를 이해하는 것은 새로운 정보를 과거데이터와 결ㅇ합하여 더 나은 결정을 내리고 정확도를 개선하는 데 도움이 되므로 중요합니다. 사전확률은 베이지안 정리의 기초로 형성되어 새로운 데이터를 이전 데이터와 통합하여 추정의 정확도를 개선할 수 있습니다. 사전 확률 새로운 데이터를 고려하기 전의 사건이나 결과의 초기 평가 또는 우도로 정의됩니다. 즉, 이전 지식이나 경험에 근거하여 우리가 아는 것에 대해 알려 줍니다. 예를 들어 과거 데이터로 부터 한달 중 비오는 날이 30%이라고 가정합니다. 이 데이터를 기반으로 그 달의 임의의 날에 비가 올 확률은 30%가 됩니다. 이 확률이 사전확률이 되며 새로운 데이터를 결합하여 더 정확한 확률을 계산할 수 있습니다. 즉, 사전확률은 머신러닝, 의료진단과 같이 사용 가능한 데이터에서 결정을 내릴 수 있는 다양한 분양한 분야에서 사용됩니다. 또한 사전확률은 새로은 데이터가 제공될 때 마다 신념을 변경하거나 업데이트할 수 있게 해줍니다. 베이지안 통계에서 사전확률 $$\tag{1} P(A|B)=\frac{P(A)P(B|A)}{P(B)}$$ 베이지안 정리인 식 1의 P(A)가 사전확률이며 미래 데이터를 고려하기 전에 사용 가능한 또는 과거 데이터에 기반한 초기 신념을 나타내기 떄문에 중요한 역할을 합니다. P(A|B)는 사후 확률로, 사건 B가 발생했을 때 사건 A가 발생할 확률로 정의됩니다. P(B|A)는 사건 A가 발생했을 때 사건 B가 발생할 확률로 정의되는 우도(likelihood)입니다. P(A)는 사건 B를 고려하기 전에 사건 A가 발생할 초기 확률을 정의하는 사전 확률입니다. P(B)는 모든 상황에서 사건 B가 발생할 총 확률로 정의되는 한계 우도입니다. = $\sum_{\forall} P(B|A)P(A)$ 사전확률의 유형 정보적 사전(informative prior) 양한 정보적 사전(wealy informative prior) ...

자세한 내용 보기

사전 확률을 사용한 매개변수 추정

사전 확률을 사용한 매개변수 추정 이메일 전환율 예측 데이터에 따르면 이메일을 여는 처음 다섯 명 중 두 명이 링크를 클릭합니다. import numpy as np import pandas as pd from scipy import stats, special import itertools from sympy import * import matplotlib.pyplot as plt import seaborn as sns sns.set_style("darkgrid") def decorate_plot(xlab, ylab, title=None, size=(4,3)): plt.figure(figsize=size) plt.xlabel(xlab) plt.ylabel(ylab) plt.title(title) ratio=np.linspace(0, 1, 100) pdf=stats.beta.pdf(ratio, 2, 3) decorate_plot("conversion ratio","PDF", f"Beta(2, 3)") plt.plot(ratio, pdf) plt.show() 위 분포에서 95% 신뢰 구간(즉, 실제 전환율이 그 범위 어딘가에 있을 확률 95%)은 더 쉽게 볼 수 있도록 표시되어 있습니다. 이 시점에서 우리의 데이터는 실제 전환율이 0.06에서 0.8 사이일 수 있다고 알려줍니다! 이는 지금까지 우리가 실제로 얻은 정보가 얼마나 적은지를 반영합니다. ci=stats.beta.interval(0.95, 2, 3) print(f"하한: {ci[0].round(3)}, 상한: {ci[1].round(3)}") 하한: 0.068, 상한: 0.806 사전 확률을 사용하여 더 넓은 맥락에서 살펴보기 이 데이터(80% 전환율)는 비현실적으로 보입니다. 더 넓은 맥락을 살펴보겠습니다. 귀하의 블로그와 같은 범주에 나열된 블로그의 경우, 제공...

자세한 내용 보기

매개변수 추정 도구: PDF, CDF 및 분위수 함수

매개변수 추정 도구: PDF, CDF 및 분위수 함수 확률 밀도 함수(PDF)에 대해 자세히 다루고, 값 범위의 확률을 보다 쉽게 결정하는 데 도움이 되는 누적 분포 함수(CDF)를 소개하고, 확률 분포를 동일한 확률로 나누는 분위수를 소개합니다. 예를 들어, 백분위수는 100분위수이며, 이는 확률 분포를 100개의 동일한 부분으로 나눈다는 것을 의미합니다. 이메일 가입 목록에 대한 전환율 추정 블로그를 운영하고 블로그 방문자가 이메일 목록에 가입할 확률을 알고 싶다고 가정해 보겠습니다. 마케팅 용어로 사용자가 원하는 이벤트를 수행하도록 하는 것을 전환 이벤트 또는 간단히 전환이라고 하며, 사용자가 가입할 확률을 전환율이라고 합니다. 구독자 수 k와 방문자 총 수 n을 알고 있을 때 구독 확률 p를 추정하기 위해 베타 분포를 사용할 것입니다. 베타 분포에 필요한 두 가지 매개변수는 α로, 이 경우 구독자 총 수(k)를 나타내고, β는 구독하지 않은 총 수(n – k)를 나타냅니다. 확률 밀도 함수 첫 40,000명의 방문자에 대해 300명의 구독자를 얻는다고 가정해 보겠습니다. 우리 문제에 대한 PDF는 α = 300이고 β = 39,700인 베타 분포입니다. 베타 분포의 평균 계산 $$\tag{1}\mu_{\text{beta}}=\frac{\alpha}{\alpha + \beta}$$ 식 1을 사용하여 방문자 중의 구독자에 대한 평균은 다음과 같이 계산됩니다. import numpy as np import pandas as pd from scipy import stats, special import itertools from sympy import * import matplotlib.pyplot as plt import seaborn as sns sns.set_style("darkgrid") def decorate_plot(xlab, ylab, title=None, size=(4,3)): plt.figu...

자세한 내용 보기

정규분포

정규분포 사악한 행위에 대한 퓨즈 측정 퓨즈를 설치하고 퓨즈가 타서 18초 안에 탈출할 수 있도록 하는 데 걸리는 시간을 측정합니다. 각 퓨즈가 타서 기록된 시간(초)은 다음과 같습니다. 19, 22, 20, 19, 23. import numpy as np import pandas as pd from scipy import stats, special import itertools from sympy import * import matplotlib.pyplot as plt import seaborn as sns sns.set_style("darkgrid") def decorate_plot(xlab, ylab, title=None, size=(4,3)): plt.figure(figsize=size) plt.xlabel(xlab) plt.ylabel(ylab) plt.title(title) d=np.array([19, 22, 20, 19, 23]) m=d.mean(); m 20.6 s=d.std(); s 1.624807680927192 평균을 계산하면 μ = 20.6이고 표준 편차를 계산하면 σ = 1.62입니다. 정규분포 정규분포는 연속 확률 분포로, 평균과 표준 편차가 주어졌을 때 불확실한 측정값에 대한 가능한 믿음의 강도를 가장 잘 설명합니다. decorate_plot("value","Prob.") value=np.linspace(-5, 5, 1000) st=[0.5, 1, 2] col=['b','r', 'g'] for i, j in zip(st, col): p=stats.norm.pdf(value, 0, i) plt.plot(value, p, color=j, label=f"N(0, {i})") plt.legend(loc="best", labelcolor=...

자세한 내용 보기

베이지안 사전 확률과 확률 분포

베이지안 사전 확률과 확률 분포 작업 C-3PO의 소행성 지대 의심 예를 들어, 우리는 스타워즈: 제국의 역습의 한 장면에서 통계 분석에서 가장 기억에 남는 오류 중 하나를 사용할 것입니다. 한 솔로가 적 전투기를 피하려고 밀레니엄 팔콘을 타고 소행성 지대 속으로 날아들 때, 항상 지식이 풍부한 C-3PO는 한에게 확률이 자신에게 유리하지 않다고 알립니다. C-3PO는 "선생님, 소행성 지대에서 성공적으로 항해할 가능성은 약 3,720대 1입니다!"라고 말합니다. C-3PO의 신념 결정 정리 (베타 분포의 매개변수화) 베타 분포는 α (관찰된 성공 횟수)와 β(관찰된 실패 횟수)로 매개변수화 됨 $$\tag{1}P(\text{Rate of sucess} | \text{success and failure})=\text{Beta}(\alpha,\, \beta)$$ C-3PO에는 소행성 충돌지에서 2명이 생존하고, 7,440명이 화려한 폭발로 여행을 마감한 기록이 있다고 가정해보자! import numpy as np import pandas as pd from scipy import stats, special import itertools from sympy import * import matplotlib.pyplot as plt import seaborn as sns sns.set_style("darkgrid") def decorate_plot(xlab, ylab, title=None, size=(4,3)): plt.figure(figsize=size) plt.xlabel(xlab) plt.ylabel(ylab) plt.title(title) p=np.linspace(0, 1, 100000) lik=stats.beta.pdf(p, 2, 7440) decorate_plot("Prob.","Prob. density","Beta(...

자세한 내용 보기

사전, 우도, 그리고 사후 확률

베이즈 정리의 사전 확률, 우도, 사후 확률 베이즈 정리는 세 부분으로 구성됩니다. 사전 확률(Prior probability), P(belief) 우도(Likelihood), P(data|belief) 사후 확률(Posterior probability), P(belief | data) 베이즈 정리의 네 번째 부분인 데이터의 확률P(data)은 사후 확률을 정규화하여 0에서 1까지의 확률을 정확하게 반영하는 데 사용됩니다. 실제로는 항상 P(data)가 필요한 것은 아니므로 이 값에는 특별한 이름이 없습니다 \begin{align}\tag{1} \text{Posterior}&= \frac{\text{Prior} \cdot \text{Likelihood}}{\text{Normalizer}}\\ P(\text{belief} | \text{data})&=\frac{P(\text{data})P(\text{data}|\text{belief})}{P(\text{data})}\end{align} 범죄 현장 조사 어느 날 직장에서 집에 돌아와서 창문이 깨지고, 현관문이 열려 있고, 노트북이 없어진 것을 발견했다고 가정해 보겠습니다. 첫 번째 생각은 아마도 "강도 맞았어!"일 것입니다. 하지만 어떻게 이 결론에 도달했을까요? 그리고 더 중요한 것은 이 믿음을 어떻게 정량화할 수 있을까요? 당신의 즉각적인 가설은 당신이 강도를 맞았다는 것이므로 "H = I've be robbed"입니다. 우리는 당신이 강도를 맞았을 가능성을 설명하는 확률을 원하므로, 주어진 데이터를 바탕으로 우리가 풀고자 하는 사후 확률은 다음과 같습니다. P(robbed| broken window, open front door, mssing latop) 우도 위 문제를 풀기 위해 베이즈 정리를 사용합니다. 먼저 위 가설이 참이라면 일어날 사건의 확률 즉, 우도를 계산합니다. P(broken window, ope...

자세한 내용 보기

조건부확률(Conditional Probability)

조건부 확률 확률은 한 사건의 결과가 다른 사건의 결과에 영향을 미치지 않을 때 독립적입니다. 확률이 독립적이지 않고 특정 사건의 결과에 따라 달라지는 조건부 확률에 대해 추론하는 방법을 알아봅니다. 또한 조건부 확률의 가장 중요한 응용 분야 중 하나인 베이즈 정리를 소개합니다. 조건부 확률 소개 조건부 확률의 첫 번째 예에서 독감 백신과 백신 접종 시 발생할 수 있는 합병증에 대해 살펴보겠습니다. 독감 백신을 맞으면 일반적으로 백신과 관련된 다양한 위험에 대해 알려주는 종이 한 장이 제공됩니다. 한 가지 예로 길랭-바레 증후군(GBS)의 발생률이 증가하는 것이 있습니다. 이는 신체의 면역 체계가 신경계를 공격하여 생명을 위협할 수 있는 합병증을 유발하는 매우 드문 질환입니다. 질병통제예방센터(CDC)에 따르면, 1년에 GBS에 감염될 확률은 10만 분의 2입니다. $$P(\text{GBS})=\frac{2}{100000}$$ 일반적으로 독감 백신은 GBS에 걸릴 확률을 사소한 양만큼만 증가시킵니다. 그러나 2010년에 돼지 독감이 발생했고, 그 해에 독감 백신을 맞았다면 GBS에 걸릴 확률이 3/100,000으로 증가했습니다. 이 경우 GBS에 걸릴 확률은 독감 백신을 맞았는지 여부에 직접적으로 달려 있으므로 조건부 확률의 예입니다. 조건부확률은 P(A|B)와 같이 나타내며 B의 조건에 A의 확률을 나타냅니다. 이 표기법에 의해 위를 사항은 다음과 같이 나타낼 수 있습니다. $$P(\text{GBS}| \text{백신})=\frac{3}{100000}$$ 조건부 확률이 중요한 이유 조건부 확률은 통계학의 필수적인 부분인데, 정보가 우리의 믿음을 어떻게 변화시키는지 보여줄 수 있기 때문입니다. $$\frac{P(\text{GBS}| \text{백신})}{P(\text{GBS})}=\frac{\dfrac{2}{100000}}{\dfrac{3}{100000}}=1.5$$ 따라서 2010년에 독감 예방 접종을 했다면, 무작위로 뽑은 낯선 사람보다...

자세한 내용 보기

베타분포

베타 분포 베타 분포: 베타 분포는 이미 여러 번 시행하여 관찰한 사건의 확률과 성공적인 결과의 수를 추정하는 데 사용합니다. 예를 들어, 지금까지 동전을 100번 던졌고 그 중 40번이 앞면이었을 때 앞면이 나올 확률을 추정하는 데 사용할 수 있습니다. 확률 대 통계: 확률 텍스트에서는 종종 사건에 대한 확률이 명시적으로 제공됩니다. 그러나 현실에서는 거의 그렇지 않습니다. 대신 데이터가 제공되고 이를 사용하여 확률에 대한 추정치를 도출합니다. 여기서 통계가 등장합니다. 통계를 사용하면 데이터를 가져와서 다루고 있는 확률에 대한 추정치를 도출할 수 있습니다. 이상한 시나리오: 데이터 얻기 검은 상자에 quarter 동전을 1개를 넣으면 때로는 2개의 quarter가 튀어나오지만 때로는 그 동전(quarter)이 "먹힙니다". 따라서 질문은 "two quarters 동전이 나올 확률은 얼마입니까?"입니다. 확률, 통계, 추론 구분 첫 번째 장을 제외한 지금까지의 모든 예에서 우리는 모든 가능한 사건의 확률을 알고 있거나 적어도 얼마나 많은 돈을 걸고 싶어하는지 알고 있습니다. 현실 세계에서 우리는 거의 모든 사건의 정확한 확률이 무엇인지 확신할 수 없습니다. 대신 관찰과 데이터만 있습니다. 이것은 일반적으로 확률과 통계의 구분으로 간주됩니다. 확률에서 우리는 모든 사건의 확률을 정확히 알고 있으며, 우리가 관심을 두는 것은 특정 관찰의 가능성입니다. 예를 들어, 공정한 동전 던지기에서 앞면이 나올 확률이 1/2라고 들었고 20번의 동전 던지기에서 정확히 7번의 앞면이 나올 확률을 알고 싶을 수 있습니다. 통계에서 우리는 이 문제를 역으로 살펴볼 것입니다. 20번의 동전 던지기에서 7번의 앞면을 관찰했다고 가정할 때, 한 번의 동전 던지기에서 앞면이 나올 확률은 얼마입니까? 어떤 의미에서 통계는 확률을 역으로 나타낸 것입니다. 주어진 데이터에서 확률을 알아내는 작업을 추론(inference) 이라고 하며, 이는...

자세한 내용 보기