인과추론은 도메인에 상당 부분 의존할 수 밖에 없는 방법론입니다. 도메인에 대한 지식이 있어야 관심의 대상 (결과, outcome)을 정의할 수 있고, 이에 직접적으로 개입할 수 있는 요인 (처치, treatment)을 선정할 수 있습니다. 그리고 처치가 결과에 주는 영향을 정확하게 파악하기 위해서는, 이 둘에 영향을 미치는 교란변수 (confounder)들을 알고 있어야 합니다. 사실 처치와 결과는 상식선에서 선정하는 것이 가능할 수 있지만, 교란변수를 알기 위해서는 도메인에 대한 지식 없이는 어려운 지점들이 많습니다.
하지만 전문가라 하더라도 관찰된 변수가 수도 없이 많을 경우 이 관계들을 사전에 정확하게 아는 것이 어려울 수 있습니다. 그래서 완전히 data-driven하게 변수간의 그래프 구조를 식별하기 위한 시도로 causal discovery라는 방법이 있습니다. 하지만 causal discovery는 변수의 형태를 제한하는 등의 제약이 없으면 작동하기 어려우며, 변수간의 모든 조합을 고려하는 것은 계산량이 너무 많은 방법입니다.
그러면 다시 원점으로 돌아가봅시다. 인과추론을 통해 알고 싶은 것은 무엇인가요? 어떤 실험/처치/행동/정책이 가져온 효과를 정량적으로 분석하고 싶은 것이었죠. 그렇다면 사실 변수간의 모든 관계를 알 필요는 없습니다. 왜냐하면 효과를 추정할 때 bias를 야기할 수 있는 교란변수를 보정했다 (모형에 넣었다)는 사실이 중요하지, 변수들간의 관계 자체는 bias에 영향을 전혀 미치지 않기 때문이죠. 사이에 어떤 관계가 있는 지를