🍯 본 글은 개인블로그에서도 확인 가능합니다.
Causal Inference(인과추론)이라는 단어가 최근 떠오르고 있습니다. 최근 Covid19 백신 뉴스에서도 인과성 판별여부와 같은 단어들이 자주 등장하는데요. 그럼 대체 이 인과란 무엇이고, 그걸 추론한다는 건 무슨 뜻일까요?
인과추론이란 쉽게 말해 어떤 조치/정책/간섭의 효과를 추론해보는 것입니다. 예를 들면 다음과 같은 케이스들이 있겠네요.
위의 예시와 같이 특정 조치(treatment) X가 Y라는 결과에 미치는 영향을 추론하는 것이 인 과추론입니다. 이번 시리즈에서는 이 인과추론에 대해 하나씩 다뤄보려고 합니다.
아마 통계학을 공부하신 분들은 익숙하시겠지만 인과관계에 대해 제대로 파악할 수 있는 힘이 없으면 통계치에 대한 오류를 범할 가능성이 높아집니다. 특히 유명한 케이스가 Simpson’s paradox (심슨의 역설)인데요. 예시를 들어 한번 확인해보시죠.
예를 들어 우리가 지금 고통받고 있는 것처럼 바이러스가 창궐한 상황이 있다고 가정해보겠습니다. 한 연구소에서 이 바이러스를 치료할 수 있는 약물 2가지를 개발했고 이를 약물 A,B라고 해보겠습니다. 관련 조건을 정리하면 다음과 같습니다.
이런 경우 최종적인 결과로 다음과 같은 결과가 나왔다고 해봅시다.
이 결과만 보고 해석하면 A 약물을 모든 감염자에게 투약하는게 사망률을 낮추는데 효과적인 것으로 보입니다. 그렇지만 Condition을 고려했을 때 다음과 같이 나온다면 어떨까요?
컨디션을 나눠놓고보니 각 그룹의 사망률은 T_B 투약군이 더 낮습니다! 이것이 바로 심슨의 역설이 드러난 예시인데요. 이런 현상이 일어난 가장 큰 요인은 컨디션별 대 상인원의 불균형입니다. T_A 투약군은 대부분의 인원이 mild(안정적)으로 구성되어 있었고, T_B 투약군은 대부분이 severe(심각한)으로 구성되어 있었기 때문에 단순히 컨디션을 고려하지 않고 전체 통계를 보게되면 결과가 뒤집혀보이게 됩니다.
그렇다면 우리는 어떤 약물을 선택하는게 가장 좋을까요? 이는 시나리오가 어떻게 구성되는지에 따라 달라집니다.
이 시나리오의 Causal Graph를 보시면 컨디션(C)이 조치(T)와 결과(Y) 모두에 영향을 미치는 것을 알 수 있습니다. 즉, 환자의 상태에 따라 투약되는 약물의 종류가 달라진다는 것인데요. 쉽게 말해 환자의 상태가 안정적(mild)이면 그에 가장 효과가 좋은 T_B를 상태가 심각하면(severe) 이 또한 해당 그룹에서 가장 효과가 좋은 T_B를 투약하는 선택이 가장 바람직합니다.
따라서 시나리오 1에서는 T_B를 선택하는 것이 가장 좋은 선택지입니다.
이번 시나리오는 조치(T)가 컨디션(C)와 결과(Y)에 영향을 미치는 Causal Graph입니다. 이는 조치를 취함으로써 환자의 컨디션이 변화하고 이것이 결과에 영향을 끼치는 케이스인데요. 이 경우에서는 T_A를 처방할 경우 많은 환자들이 안정적(mild)한 쪽으로 유도되고 결국 최종적으로 16%의 사망률을 기록하지만 T_B를 처방할 경우에는 많은 환자가 심각한(severe) 상태로 남아있고 결국 최종적으로 19%의 사망률을 기록하게 됩니다.
따라서 이번 시나리오에서는 T_A를 선택하는 것이 가장 좋은 선택지입니다.
이렇듯 인과추론이란 어떤 Causal Graph를 가정하느냐에 따라 전혀 다른 선택에 도달할 수도 있기에 심도있게 공부해야할 필요가 있다는 점을 꼭 기억해주시면 좋을 것 같습니다.