베이즈 추론은 한마디로 “베이즈 정리로 계산한 확률에 기반해 진단(추론)을 내리는 방법”을 말합니다.

잠깐만요! 그런데 베이즈 정리는 설명하신 적이 없는 것 같은데요?

아, P(OO|기침)을 P(기침|OO)P(OO)으로 바꿀 때 사용한 수식이 베이즈 정리입니다 🙂

그럼 베이즈 추론에 필요한 확률을 계산해보겠습니다. 설명을 간단하게 하기 위해 여러 질병 중에 감기와 폐암의 경우만 계산해보겠습니다.

우선 P(기침|OO)은 OO으로 진단 받은 사람들의 진료 기록을 뒤져, 통계조사를 해보면 쉽게 알 수 있습니다. 여기서는 다음과 같은 값을 얻었다고 가정합니다.

P(기침|감기) = 0.5

P(기침|폐암) = 0.8

흠… 폐암의 경우에 기침을 더 많이 하는군요. 이제 P(감기)와 P(폐암)의 값만 알면 되겠네요. 역시 통계 조사를 통해 두 값은 다음과 같이 파악됐습니다. 아무래도 감기가 유행 중인가 봅니다 😉

P(감기) = 0.4

P(폐암) = 0.1

이제 최종 베이즈 추론의 확률은 다음과 같이 계산합니다.

P(감기|기침)  ∝  P(기침|감기) P(감기) = 0.5 × 0.4 = 0.2

P(폐암|기침)  ∝  P(기침|폐암) P(폐암) = 0.8 × 0.1 = 0.08

다행히 감기일 확률이 훨씬 더 높네요 🙂  다른 병에 대해서도 같은 방식으로 P(OO|기침) 값을 구해 최종 진단을 내리면 됩니다.

그럼 이제 첫 번째 글에 나왔던 의사와 환자의 대화를 끝까지 들어보겠습니다.

의사: 어디가 아프신가요?

환자: 계속 기침이 납니다.

의사: 기침한지 얼마나 되셨나요?

환자: 일주일째 계속 기침이 심한데, 혹시 폐암 아닐까요?

의사: 폐암 환자의 80%는 기침을 한다는 통계가 있긴 하죠    ⇐  P(기침|폐암)를 말함

환자: 네? 그럼 제가 폐암일 확률이 80%인가요? ㅠ                     ⇐  P(폐암|기침)로 오해함

의자: 아, 그런 의미는 아닙니다;;

위의 대화에서 두 조건부 확률, P(기침|폐암)P(폐암|기침)의 미묘한 차이가 드러났습니다.

P(기침|폐암) = 폐암에 걸린 사람들 중에서 기침을 하는 사람의 비율

P(폐암|기침) = 기침을 하는 사람들 중에서 폐암인 사람의 비율

보시는 것처럼, 두 확률은 확률을 계산하는 모집단 자체가 아예 다릅니다.

그런데 베이즈 추론에서는 굳이 이렇게 수식을 변형시키는 걸까요? 다음 글에서는 그 이유를 알아보겠습니다.

베이즈 추론 #3 – 미묘한 차이

2 thoughts on “베이즈 추론 #3 – 미묘한 차이

  • 2017-11-26 at 23:51
    Permalink

    김성필 박사님, 대학원 수업에 위의 예제를 좀 활용해도 되나요~ ^^

    Reply
    • 2017-11-27 at 08:46
      Permalink

      네. 저희가 영광입니다^^

      Reply

Leave a Reply

Your email address will not be published. Required fields are marked *