사전확률
사전확룰과 그 연구를 이해하는 것은 새로운 정보를 과거데이터와 결ㅇ합하여 더 나은 결정을 내리고 정확도를 개선하는 데 도움이 되므로 중요합니다. 사전확률은 베이지안 정리의 기초로 형성되어 새로운 데이터를 이전 데이터와 통합하여 추정의 정확도를 개선할 수 있습니다.
사전 확률
새로운 데이터를 고려하기 전의 사건이나 결과의 초기 평가 또는 우도로 정의됩니다. 즉, 이전 지식이나 경험에 근거하여 우리가 아는 것에 대해 알려 줍니다.
예를 들어 과거 데이터로 부터 한달 중 비오는 날이 30%이라고 가정합니다. 이 데이터를 기반으로 그 달의 임의의 날에 비가 올 확률은 30%가 됩니다. 이 확률이 사전확률이 되며 새로운 데이터를 결합하여 더 정확한 확률을 계산할 수 있습니다.
즉, 사전확률은 머신러닝, 의료진단과 같이 사용 가능한 데이터에서 결정을 내릴 수 있는 다양한 분양한 분야에서 사용됩니다. 또한 사전확률은 새로은 데이터가 제공될 때 마다 신념을 변경하거나 업데이트할 수 있게 해줍니다.
베이지안 통계에서 사전확률
$$\tag{1} P(A|B)=\frac{P(A)P(B|A)}{P(B)}$$
베이지안 정리인 식 1의 P(A)가 사전확률이며 미래 데이터를 고려하기 전에 사용 가능한 또는 과거 데이터에 기반한 초기 신념을 나타내기 떄문에 중요한 역할을 합니다.
- P(A|B)는 사후 확률로, 사건 B가 발생했을 때 사건 A가 발생할 확률로 정의됩니다.
- P(B|A)는 사건 A가 발생했을 때 사건 B가 발생할 확률로 정의되는 우도(likelihood)입니다.
- P(A)는 사건 B를 고려하기 전에 사건 A가 발생할 초기 확률을 정의하는 사전 확률입니다.
- P(B)는 모든 상황에서 사건 B가 발생할 총 확률로 정의되는 한계 우도입니다. = $\sum_{\forall} P(B|A)P(A)$
사전확률의 유형
- 정보적 사전(informative prior)
- 양한 정보적 사전(wealy informative prior)
- 비정보적 사전(non-infromative prior)
- 부적절한 사전 (imporper prior)
정보적 사전
이런 종류의 사전 확률은 자세한 지식을 가지고 있거나 전문가 의견에서 결정됩니다. 이런 사전 확률은 과거 또는 과거 데이터를 기반으로 선택되거나 전문가의 지도에 따라 선택됩니다. 이런 사전 확률은 사후 분포에 상당한 영향을 미칩니다. 이런 종류의 사전 확률은 분석을 주도할 수 있는 강력한 정보가 있을 때만 유용합니다.
약한 정보 사전
이런 종류의 사전 확률은 정보적 사전 확률과 비정보적 사전 확률의 중간입니다. 사전 확률은 어느 정도 있지만 결국 사후 분포에 영향을 미칠 수는 없습니다. 이런 사전 확률은 어느 정도 정규화를 제공하고 노이즈 피팅을 방지하지만 여전히 데이터가 사후 분포에 영향을 미칠 수 있습니다. 분산이 높은 정규 사전 확률은 약한 정보적 사전 확률로 간주될 수 있습니다.
비정보적 사전
이러한 종류의 사전 확률은 매개변수에 대한 사전 지식이 거의 없습니다. 사후 분포에 최소한의 영향을 미쳐 데이터가 주로 추론을 주도할 수 있습니다. 균일 사전 확률은 모든 가능한 결과에 동일한 확률을 할당하는 비정보적 사전 확률의 한 예이며, 사전 지식이 부족하다는 것을 반영합니다.
부적절한 사전
이것들은 비정보적 사전 확률 분포이지만, 한 매개변수 공간에서 적분하지 않습니다. 즉, 유효한 확률 분포가 없습니다. 이런 종류의 사전 확률 분포는 결과 사후 확률 분포가 한 매개변수 공간에서 적분되는 적절한 상태를 유지하는 한 베이지안 통계에서 여전히 사용됩니다. 이런 사전 확률 분포는 일반적으로 매개변수 θ에 대해 1/θ를 사용하는 것처럼 무한 범위의 매개변수에 사용됩니다.
사전 확률의 응용
사전 확률의 다양한 응용 분야는 다음과 같습니다.
- 의학적 진단: 사전 확률은 검사를 실시하기 전에 질병의 가능성을 판단하기 위해 의학적 진단에 사용됩니다.
- 스팸 필터링: 이메일 필터링에서는 사전 확률을 사용하여 이전의 과거 데이터를 기반으로 이메일을 스팸인지 스팸이 아닌지 분류합니다.
- 재무 예측: 투자자는 시장 동향과 데이터를 고려하기 전에 투자 위험을 평가하기 위해 사전 확률을 고려합니다.
- 머신 러닝: 머신 러닝 분야에서는 사전 확률이 다양한 알고리즘과 통합되어 모델 성능과 정확도를 개선합니다.
예) 이메일의 2%가 스팸이라고 가정할 때, 이메일이 스팸일 사전 확률은 얼마인가?
P(spam)=0.02
예) 과거 데이터에 따르면 전체 인구의 1%가 특정 질병을 앓고 있는 것으로 나타난 의학적 시나리오를 고려해 보겠습니다. 그런 다음 환자가 특정 질병을 앓고 있을 사전 확률을 구하세요.
P(disease)=0.01
예) 은행이 대출인이 대출을 불이행할 위험을 평가하고자 하는 상황을 상상해 보세요. 역사적으로 대출인의 5%(P(default))가 대출을 불이행(default)합니다. 은행은 85% 민감도(진양성률, P(postive|deault))로 불이행을 정확하게 예측하고 90% 특이도(진부성률, P(postive| non-positive))로 불이행이 아닌 것을 정확하게 예측하는 신용 평가 시스템을 사용합니다. 대출인이 이 신용 평가 시스템에서 잠재적 불이행을 나타내는 양성 결과를 받으면 대출인이 실제로 대출을 불이행할 확률은 얼마입니까?
\begin{align}P(postive)&=P(default)P(positive|default)+P(non-default)P(postive|non-default)\\&=0.5\cdot 0.85+ (1-0.05)\cdot 0.9)\\&=0.1375 \\ P(default|postive)&=\frac{P(default)P(positive|default)}{P(positvie)}\\&=\frac{0.05\cdot0.85}{0.1375}\\&=0.3091\end{align}
댓글
댓글 쓰기