이중차분 (Difference-inDifference), Synthetic Control

Home About

Causal Inference

정원혁

May 01, 2023

3 min

이번 포스팅에서는 이중차분 (Difference-in-difference) 과 Synthetic Control 에 대해 간단한 가상의 사례를 바탕으로 개념을 간략히 설명하도록 하겠습니다.

이중차분 개념 설명

이중차분이란, 어떤 정책의 변화로 인해 연구자 (=분석가) 가 궁금해하는 결과값의 두 집단 사이의 차이가 변하는지를 보는 것입니다. 예를 들어서, 앱을 운영하는 중에 새로운 기능의 효과를 검증한다고 합시다. 일인당 결제액은 아이폰 유저가 안드로이드 유저의 결제액에 비해 그동안 높았다고 가정합시다. 이 때, 임의로 안드로이드에서는 새로운 기능을 추가하고, 아이폰에서는 기능을 추가하지 않았다고 합시다. 기능 추가 후에 일인당 결제액의 차이가 감소했다면, 새로운 기능이 일인당 결제액에 부정적인 영향을 미쳤다고 판단할 수 있습니다. 반대로 차이가 증가했다면, 새로운 기능 추가가 효과적이었다고 판단할 수 있습니다.

이러한 추론 방법을 통해서 인과적인 결론을 내리기 위해서는 parallel trend 가정이 필요합다. Parallel 은 평행이라는 뜻이고 trend 는 경향 또는 추세라는 뜻입니다. 즉, 평행 추세 가정이란, 새로운 기능 추가 이전에 일인당 결제액이 두 운영체제 사이에 유사하게 변화되었다는 가정입니다.

단, 주의할 점이 있습니다. 새로운 정책 시행 이전에 안드로이드에서는 결제액이 아이폰의 경우에 비해 증가폭이 더 컸었다면, 제도 도입 이후의 변화가 제도의 효과가 아니라 그러한 경향 때문일 수 있습니다. 이 때는 시간이 증가할수록 각 운영체제마다 선형적으로 결제액이 다르게 변한다는 점을 고려한 상태에서 각 운영체제마다의 선형적인 변화분으로부터의 차이를 구할 수도 있습니다.

추가로 이중차분법에 대한 설명은 호재님의 개념설명과 예제나 이민호님의 포스팅도 참고 바랍니다.

Synthetic Control 논문 설명

정책을 평가하는 기존 논문들에서는 대조군을 설정합니다. 일반적인 사회과학 연구에서는 지역 단위 등으로 값들을 합하는데 (aggregate), 다음과 같은 두 가지 문제가 발생할 수 있습니다. 대조군 설정이 연구자의 주관대로 이루어지는 문제가 발생할 수 있고, 설정된 대조군이 실험군에서 정책이 실행되지 않았을 때의 경로(반사실, counterfactual)와 일치할지 여부에 대해서는 확신할 수 없습니다.

Synthetic Control 논문에서는 이러한 문제를 해소하기 위해 단일 지역보다는 여러 지역들의 조합을 바탕으로 대조군을 설정합니다. 이러한 방식은 연구자가 특정한 결론을 내기 위해서 대조군을 설정하는 문제를 방지함으로써 연구의 투명성을 확보합니다. 즉, 대조군을 어떻게 설정하는지에 따라서 결과가 바뀌는데, 대조군 설정도 ‘데이터 기반’으로 결정한다면 분석가의 주관을 배제하는 효과를 가져다줍니다.

예를 들어, 17개의 프랜차이즈 분점이 있는 치킨집을 운영한다고 가정합시다. 그 중에 서울시에서 2022년 6월 이후에 민트맛 치킨을 출시하는데 민트맛 치킨이 매출에 미치는 영향을 알고 싶다고 합시다. 2022년 6월 이전의 데이터에서 이곳의 특징과 나머지 16개의 분점의 가중치를 적용한 특성들이 유사하도록 하는 분점들의 가중치를 찾습니다.

이 때, 지역간의 가중치 뿐만 아니라, 특성들 간의 가중치도 선택할 필요가 있습니다. Abadie et al. (2010) 의 논문에서는 이전 시기의 나머지 지역에서의 가중평균한 매출액과 서울시에서의 매출액의 mean squared prediction error 가 최소화되도록 하는 특성들 간의 가중치를 구합니다.

그렇다면, 관측하지 못하는 특성들 (unbservable) 은 어떻게 통제되었을까요? 논문에서는 관측 가능한 특성들 (observable) 의 pre-trend 와 관측하지 못하는 특성들의 pre-trend 가 유사하다고 가정합니다.

서울시와 가중평균한 지역들 간에 치킨 매출의 차이가 2022년 6월 민트맛 치킨 출시 이전에는 유사하다가 출시 이후에 서울시에서 매출액이 크게 나타난다면 민트맛 치킨 출시가 성공적이었다고 평가할 수 있습니다.

Synthetic Control 관련해서 Python 과 R 코드가 궁금하신 분들은 Scott Cunningham 의 “Causal Mixtape” 포스팅을 참고하시기 바랍니다. 이외에도 파이썬 코드와 그래프가 포함된 Causal Inference for the Brave and True 의 글을 추가로 참고하거나 동일한 내용을 한국어로 번역한 가짜 연구소의 포스팅도 참고하시면 좋을듯합니다.

맺음말

이중차분법은 AB 테스팅이 어려운 상황에서 정책이 시행된 집단과 그렇지 않은 집단을 찾아서 그 두 집단 사이의 정책 이전과 이후를 비교하는 방법입니다. 두 집단 사이의 차이가 정책 시행 이전에 유사하게 변화해왔음을 보인 후에, 정책 이후 시점에서 그 차이가 증가 또는 감소함을 보임으로써 정책의 효과성을 검증합니다.

Synthetic Control 은 두 집단 사이의 차이가 정책 시행 이전에 유사하게 변하지 않을때, 대조군들의 조합이 비교군과 가장 유사하도록하는 가중치를 찾는 방법입니다.

관련해서 더 공부해볼 개념으로는 Synthetic Difference-in-difference 가 있습니다. Synthetic Control 에서는 가중평균된 대조군과 실험군의 결과값 변화가 일치하도록 한다면, Synthetic Difference-in-difference 에서는 가중평균된 대조군과 실험군의 결과값의 트렌드가 평행하도록 하는 것으로 러프하게 이해하고 있습니다. Causal Inference for the Brave and True 에서도 내용을 다루고 있으니 참고하시면 좋을듯합니다. 관련 개념은 추후에 기회가 되면 다루어보도록 하겠습니다.

본문 내용이나 인과추론의 전반적인 기법에 관해 궁금한 점이 있으시면 doctor.marvin.ds@gmail.com 으로 이메일 부탁드립니다. 인과추론이나 실험 등에 관한 주제에 관심이 있으신 분들은 제 블로그 도 참고 바랍니다. 감사합니다.

p.s. 지난 포스팅에서 difference-in-differences instrumental variable 모형을 적용한 내용을 이번 포스팅에서 진행하고자 했으나, 수식 작성이 보다 용의한 제 블로그에서 추후 다루도록 하겠습니다.

참고문헌

Abadie et al. (2010, Journal of the American Statistical Association), “Synthetic Control Methods for Comparative Case Studies: Estimating the Effect of California’s Tobacco Control Program”

Arkhangelsky et al. (2021, American Economic Review), “Synthetic Difference in Differences”

Matheus Facure, “Causal Inference for the Brave and True”, 15 - Synthetic Control

Scott Cunningham, “Causal Mixtape”, 9 Difference-in-Differences

Scott Cunningham, “Causal Mixtape”, 10 Synthetic Control

가짜연구소, 정호재, 15. Synthetic Control

손호성, 이재훈, “행정학･정책학 연구에서의 이중차분 추정기법의 활용과 쟁점” 현대사회와 행정, 28(3): 1–31, 2018

이민호, 실험없이 이벤트 효과를 추정할 수 있을까? - Difference in Differences