Thumbtack Question
엔지니어는 MLE를 계산하면서 압정을 던졌을 때, 앞면이 나올 확률 $\theta$가 0.6이라는 것을 증명했습니다. 하지만, 만약 압정을 던지는 실험을 예전에 수행했었고 압정을 던졌을 때 앞면이 나올 확률이 0.5이라고 알려져 있으면 확률은 어떻게 될까요? 엔지니어 입장에서 이미 알려진 정보를 확률 계산에 반영해 볼 수는 없을까요?
Bayes's Theorem
확률에 사전 정보를 반영하기 위한 좋은 방법이 있습니다. 바로 베이즈 정리입니다. 베이즈 정리는 사후 확률(Posterior Probability)을 사전 확률(Prior Probability)과 가능도(likelihood)를 이용해서 계산할 수 있게 해줍니다. 해당 식은 Eqn.1 과 같습니다.
Eqn. 1 $P(\theta | D) = \frac{P(D | \theta)P(\theta)}{P(D)}$
$Posterior = \frac{\text{Likelihood }\cdot\text{ Prior Knowledge}}{\text{Normalizing Constant}}$
여기서 가능도란 어떤 분포에서 해당 데이터(=관측값)이 나올 확률이며, 사전 확률은 관측을 하기 전에 분포나 시스템, 혹은 모델에 관해서 알고 있는 선험적 확률(=알려진 확률)에 해당합니다. 그리고 데이터가 관측된 확률은 이미 알고 있기에 상수 값으로 고정되어 있고, 사후 확률은 어떤 사건이 발생한 후(=관측된 후) 그 사건이 특정 분포 혹은 모델에서 발생했을 확률입니다.
Maximum a Posterior Estimation
그렇다면 압정을 던져서 앞면이 나올 확률을 계산할 때, 사전 확률을 적용하면 어떻게 될까요?
$P(\theta | D) = \frac{P(D | \theta) P(\theta)}{P(D)}$
여기서 우리는 P(D | $\theta$) 값을 MLE를 구하는 과정에서 구했으니 P($\theta$)을 적용한다면 데이터와 사전 지식을 기반으로 계산된 확률인 P(D | $\theta$)를 구할 수 있게 됩니다. P(D)는 이미 발생한 사건임으로 그 확률이 결정되어 있습니다. 따라서 다음과 같은 식이 성립합니다.
$P( \theta | D) \propto P(D | \theta)P(\theta)$
여기서 우리는 MLE를 계산하며 다음과 같은 식을 알고 있는 상황입니다.
$P(D | \theta) = \theta^{a_{H}}(1 - \theta)^{a_{T}}$
그렇다면 $P(\theta)$의 분포는 어떻게 표현할까요? [0,1] 구간에서 정의되는 확률 밀도 함수인 베타 분포가 분포를 표현하는데 적합할 것입니다! 즉, 여기서는 확률의 분포를 결정하기 위해 베타 분포의 모양을 결정하는 alpha, beta값이 사전 정보가 됩니다. alpha, beta 파라미터를 필요로 하는 베타 함수의 형태는 다음과 같습니다.
$P(\theta) = \frac{\theta^{\alpha - 1}(1 - \theta)^{\beta - 1}}{B(\alpha,\beta)}\text{, }B(\alpha,\beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha + \beta)}\text{, }\Gamma(\alpha) = (\alpha - 1)!$
베타 함수를 비례식에 넣으면 Eqn.2 를 얻을 수 있습니다.
Eqn. 2 $P( \theta | D) \propto P(D | \theta)P(\theta) \propto \theta^{a_{H}}(1 - \theta)^{a_{T}}\theta^{\alpha - 1}(1 - \theta)^{\beta - 1}$
$= \theta^{a_{H} + \alpha - 1}(1 - \theta)^{a_{T} + \beta - 1}$
자, 엔지니어는 사후 확률, 즉 선험적으로 알려져 있는 정보와 이후 관측을 통해 알려진 정보를 종합하여 압정의 압면이 나올 확률을 계산하고 싶었습니다. MLE에서 데이터를 가장 잘 설명하는 $\theta$를 찾았던 것과 같이 Eqn. 2 의 식을 미분해서 정리하면 다음과 같은 $\theta$를 구할 수 있습니다.
$P(\theta | D) \propto \theta^{a_{H}+\alpha-1}(1-\theta)^{a_{T}+\beta-1}$
Eqn. 3 $\hat{\theta} = \frac{a_{H}+\alpha-1}{a_{H}+\alpha+a_{T}+\beta-2}$
MLE와 MAP를 간단하게 비교하면 다음과 같습니다. 만약 어떤 길이의 머리카락이 관측되었을 때(obs), 그 머리카락이 남자 것인지 여자 것인지 성별(Gen)을 판단하는 문제를 상정하겠습니다.
- MLE(Maximum Likelihood Estimation): MLE는 남자에게서 해당 길이의 머리카락이 나올 확률 P(obs | M)과 여자에게서 해당 머리카락이 나올 확률 P(obs | W)을 비교해서 가장 확률이 큰, 즉 가능도가 가장 큰 성별을 선택합니다.
- MAP(Maximum A Posteriori): MAP은 obs라는 머리카락이 발견되었는데 그 머리카락이 남자의 것일 확률 P(M | obs), 그것이 여자 것일 확률 P(W | obs)를 비교해서 둘 중 큰 값을 갖는 성별을 선택하는 방법입니다. 즉, 사후확률(posterior prabability)를 최대화시키는 방법으로서 MAP에서 사후확률을 계산할 때 베이즈 정리가 이용됩니다!
'[AI & ML Introduction]' 카테고리의 다른 글
[AI & ML Introduction] Maximum Likelihood Estimation (MLE) (0) | 2021.09.03 |
---|