HomeAbout
Causal Inference
인과추론 간단 맛보기
우지철
December 06, 2021
2 min

🍯 본 글은 개인블로그에서도 확인 가능합니다.

Causal Inference(인과추론)이라는 단어가 최근 떠오르고 있습니다. 최근 Covid19 백신 뉴스에서도 인과성 판별여부와 같은 단어들이 자주 등장하는데요. 그럼 대체 이 인과란 무엇이고, 그걸 추론한다는 건 무슨 뜻일까요?

인과추론이란 쉽게 말해 어떤 조치/정책/간섭의 효과를 추론해보는 것입니다. 예를 들면 다음과 같은 케이스들이 있겠네요.

  1. 특정 질병에 대한 약물투여를 진행했을 때, 이 약물의 효과는? → 가장 효과가 좋은 약물을 사용하기 위해
  2. 기후변화가 심각해짐에 따라 다양한 정책들이 등장하고 있는데 각 정책들의 온실가스 배출에 미치는 영향은? → 가장 효과가 좋은 정책을 채택하기 위해
  3. SNS 사용이 청소년 정신건강에 미치는 영향은? → 청소년의 SNS 사용을 제한해야할지에 대한 선택을 위해

위의 예시와 같이 특정 조치(treatment) X가 Y라는 결과에 미치는 영향을 추론하는 것이 인과추론입니다. 이번 시리즈에서는 이 인과추론에 대해 하나씩 다뤄보려고 합니다.

1. 인과추론을 제대로 공부해야하는 이유

아마 통계학을 공부하신 분들은 익숙하시겠지만 인과관계에 대해 제대로 파악할 수 있는 힘이 없으면 통계치에 대한 오류를 범할 가능성이 높아집니다. 특히 유명한 케이스가 Simpson’s paradox (심슨의 역설)인데요. 예시를 들어 한번 확인해보시죠.

예를 들어 우리가 지금 고통받고 있는 것처럼 바이러스가 창궐한 상황이 있다고 가정해보겠습니다. 한 연구소에서 이 바이러스를 치료할 수 있는 약물 2가지를 개발했고 이를 약물 A,B라고 해보겠습니다. 관련 조건을 정리하면 다음과 같습니다.

  • Treatment(T) (치료약물): A or B
  • Condition(C) (환자상태): mild(안정적) or severe(심각한)
  • Outcome(Y) (결과): alive(생존) or dead(사망)

이런 경우 최종적인 결과로 다음과 같은 결과가 나왔다고 해봅시다.

  • T_A 투약군: 16% (240/1500) 사망
  • T_B 투약군: 19% (105/550) 사망

이 결과만 보고 해석하면 A 약물을 모든 감염자에게 투약하는게 사망률을 낮추는데 효과적인 것으로 보입니다. 그렇지만 Condition을 고려했을 때 다음과 같이 나온다면 어떨까요?

  • T_A & C_m: 15% (210/1400) 사망
  • T_A & C_s: 30% (30/100) 사망
  • T_B & C_m: 10% (5/50) 사망
  • T_B & C_s: 20% (100/500) 사망

컨디션을 나눠놓고보니 각 그룹의 사망률은 T_B 투약군이 더 낮습니다! 이것이 바로 심슨의 역설이 드러난 예시인데요. 이런 현상이 일어난 가장 큰 요인은 컨디션별 대상인원의 불균형입니다. T_A 투약군은 대부분의 인원이 mild(안정적)으로 구성되어 있었고, T_B 투약군은 대부분이 severe(심각한)으로 구성되어 있었기 때문에 단순히 컨디션을 고려하지 않고 전체 통계를 보게되면 결과가 뒤집혀보이게 됩니다.

그렇다면 우리는 어떤 약물을 선택하는게 가장 좋을까요? 이는 시나리오가 어떻게 구성되는지에 따라 달라집니다.

시나리오 1

시나리오 1
시나리오 1

이 시나리오의 Causal Graph를 보시면 컨디션(C)이 조치(T)와 결과(Y) 모두에 영향을 미치는 것을 알 수 있습니다. 즉, 환자의 상태에 따라 투약되는 약물의 종류가 달라진다는 것인데요. 쉽게 말해 환자의 상태가 안정적(mild)이면 그에 가장 효과가 좋은 T_B를 상태가 심각하면(severe) 이 또한 해당 그룹에서 가장 효과가 좋은 T_B를 투약하는 선택이 가장 바람직합니다.

따라서 시나리오 1에서는 T_B를 선택하는 것이 가장 좋은 선택지입니다.

시나리오 2

시나리오 2
시나리오 2

이번 시나리오는 조치(T)가 컨디션(C)와 결과(Y)에 영향을 미치는 Causal Graph입니다. 이는 조치를 취함으로써 환자의 컨디션이 변화하고 이것이 결과에 영향을 끼치는 케이스인데요. 이 경우에서는 T_A를 처방할 경우 많은 환자들이 안정적(mild)한 쪽으로 유도되고 결국 최종적으로 16%의 사망률을 기록하지만 T_B를 처방할 경우에는 많은 환자가 심각한(severe) 상태로 남아있고 결국 최종적으로 19%의 사망률을 기록하게 됩니다.

따라서 이번 시나리오에서는 T_A를 선택하는 것이 가장 좋은 선택지입니다.

이렇듯 인과추론이란 어떤 Causal Graph를 가정하느냐에 따라 전혀 다른 선택에 도달할 수도 있기에 심도있게 공부해야할 필요가 있다는 점을 꼭 기억해주시면 좋을 것 같습니다.


Tags

#인과추론#초급

Share


Related Posts

인과추론 다섯번째 - 회귀단절(Regression Discontinuity, RD)
2022-07-12
3 min
© 2023, All Rights Reserved.
Powered By

Quick Links

About UsOfficial Page

Social Media