Math & Physicss

[Math] 베이즈의 정리

송만덕 2022. 1. 21. 00:23

베이즈 정리(Bayes' theorem)

  • 베이즈 정리는 데이터라는 조건이 주어졌을 때의 조건부확률을 구하는 공식 
  • 베이즈 정리를 쓰면 데이터가 주어지기 전의 사전확률값이 데이터가 주어지면서 어떻게 변하는지 계산할 수 있다. 
  • 따라서 데이터가 주어지기 전에 이미 어느 정도 확률값을 예측하고 있을 때 이를 새로 수집한 데이터와 합쳐서 최종 결과에 반영할 수 있다. 
  • 데이터의 개수가 부족한 경우 아주 유용하다. 
  • 데이터를 매일 추가적으로 얻는 상황에서도 매일 전체 데이터를 대상으로 새로 분석작업을 할 필요없이 어제 분석결과에 오늘 들어온 데이터를 합쳐서 업데이트만 하면 되므로 유용하게 활용할 수 있다.

 

공식의 형태는 다음과 같다. ​

 

베이즈 정리 식

 

  • P(A|B): 사후확률(posterior). 사건 B가 발생한 후 갱신된 사건 A의 확률
  • P(A): 사전확률(prior). 사건 B가 발생하기 전에 가지고 있던 사건 A의 확률
  • P(B|A): 가능도, 우도(likelihood). 사건 A가 발생한 경우 사건 B의 확률
  • P(B): 정규화 상수(normalizing constant) 또는 증거(evidence). 확률의 크기 조정

 

 


 

 

 

 

간단한 활용법은 다음과 같다.

만약 동전을 두 번 던져서 두번 모두 앞면이 나올 확률을 구할것이며 이미 앞면이 한번 나왔다고 했을 때,

P(A) = P(2H)로 두고, 앞면이 나올 경우를 P(B) = P(H)라고 가정한다.

 

이를 베이즈 정리에 대입하면 P(2H|H) = ( P(2H) * P(H|2H) ) / P(H)가 된다.

이후 동전을 두 번 던졌을 때 나오는 경우의 수를 보면

 

경우의 수. n = 앞면 / T = 뒷면

 

위의 사진과 같다.

여기서 앞면이 두 번 나오는 경우의 수는 4가지 중 1개이기 때문에 P(2H) = 1/4이 되며

P(H|2H)는 앞면이 2번 나왔을 때 앞면이 한 번이라도 나올 확률이기 때문에 당연히 1이 된다.

마지막으로 P(H)는 앞면이 한 번이라도 나올 경우의 수인데 위의 사진을 보면 총 4가지 중 3가지가 있기 때문에 1/3이 된다.

 

이를 위의 식인 P(2H|H) = ( P(2H) * P(H|2H) ) / P(H)에 대입해보자.

P(2H|H) = (1/4 * 1) / (3/4)이 되기 때문에

동전을 두 번 던졌을 경우 이미 앞면이 한 번 나왔을 때 연속적으로 앞면이 다시 나올 확률은 결과적으로 1/3이 된다.

 

 

 


 

 

 

또 다른 활용 예로는 유명한 문제인 몬티 홀 문제가 있다. 

 

몬티 홀 문제는 일반적으로 다음의 룰을 통해 진행된다.

  • 문 3개가 있는데 한 문 뒤에는 자동차가 있고 나머지 두 문 뒤에는 염소가 있다. 참가자는 이 상황에서 문을 하나 선택하여 그 뒤에 있는 상품을 얻는다.
  • 참가자가 어떤 문을 선택하면 사회자는 나머지 두 문 중에 염소가 있는 문 한 개를 열어 참가자에게 그 문에 염소가 있다고 확인시켜준다.
  • 그 후 사회자는 참가자에게 선택한 문을 닫혀있는 다른 문으로 선택을 바꿀 기회를 준다.

 

몬티홀 문제와 풀이.

 

 

여기서 경품은 A에 존재하고, 플레이어가 A 문을 선택했으며 사회자가 B 문을 열어줬다고 가정해보자.

 

우선은 문이 세개가 있으니 각 문에 상품이 존재할 확률은 1/3이 되며,

P(A) = P(B) = P(C) = 1/3이라는 식을 하나 얻게 된다.

 

다음으로 경품이 A에 있다고 가정했을 때 B 문을 열어 줄 확률을 P(b|A)라고 했을 때

플레이어는 A를 선택했으며 B와 C 모두 경품이 없기 때문에 1/2라는 확률을 가지게 된다.

 

다음은 경품이 B에 있다고 가정했을 때 B 문을 열어 줄 확률 P(b|B)이다.

여기선 사회자는 경품이 있는 문은 열지 않는다는 조건에 의해서 확률은 0이 된다.

 

마지막으로 경품이 C에 있다고 가정했을 때 B 문을 열어 줄 확률 P(b|C)이다.

여기선 사회자는 플레이어가 선택한 문은 열 수 없으며, 경품이 있는 문 또한 열지 않는다는 조건에 의해 확률이 1이 된다.

 

이제 위의 확률들을 

베이즈 정리P(A|B) = ( P(A) * P(B|A) ) / P(B) 에 대입 해보면

P(A|b) = ( P(A) * P(b|A) ) / P(b)가 되며 여기서 P(b)는 위에서 구한 확률의 합이 된다.

따라서 식은 P(A|b) =( P(A) * P(b|A) ) / (P(A)P(b|A) + P(B)P(b|B) + P(C)P(b|C))로 변환된다.

(P(A)P(b|A) = A에 경품이 있을 확률 * A에 경품이 있을 때 진행자가 B를 열 확률)

 

위 식에 확률들을 대입하여 풀어보면 1/3이라는 값이 나온다.

즉 A를 고르고 나서 사회자가 B 문을 열어줬을 때 여전히 A에 경품이 있을 확률이 1/3이라는 뜻이다.

그렇기 때문에 다른 선택지인 C를 골랐을 때 확률은 2/3이 되기 때문에 선택을 바꾸었을 때 확률상 이점이 있다는 뜻이 된다.

이는 사회자가 문을 열어 주는데에 있어서 조건이 있는 조건부 확률이 적용되기 때문에 확률이 변동되는 것이다.