HomeAbout
Causal Inference
인과추론 첫번째 - 무작위 시행이 필요한 이유
경윤영
December 13, 2021
2 min

Table Of Contents

01
들어가기 앞서
02
선택편의에 관한 문제

들어가기 앞서

학교에서 계량경제학을 수강했을 때 교수님께 가장 처음 들었던 말은 ‘다른 조건이 동일하다면?(ceteris paribus)’ 라는 말이었다. ceteris paribus의 뜻은 다른 조건이 모두 동일한 상태에서 이루어진 비교의 경우에만 인과적 해석을 적용할 수 있다는 것이었다. 처음 이 이야기를 듣고 이게 무슨 말이야?? 라는 머리 속에 의문만 남았다. 그리고 나는 이 단어만 내 머릿속에 남긴채 계량경제학 수업을 마무리했다. (나머지는 기억하려 애써도 기억할 수 없었다.)

그래서 또 까먹을 수 있는 나(우리)를 위해 cetris paribus에 대한 간단한 예를 들고자 한다!

‘일란성 쌍둥이인 수지와 미지는 같은 해에 같은 과에 입학했고 부모님의 경제적 지원은 같았지만 둘 중 한 명은 대출을 받아 학비를 충당했고, 다른 한 명은 저축해 둔 돈을 사용했다. 다른 조건이 모두 동일한 상태에서 이들 사이의 학업성취도 차이가 난다면 이들 중 한 명이 대출을 받았기에 일어난다고 말할 수 있다.’

서론이 길었지만, 이번에는 무작위 배정(Random assignment)이 왜 필요한지에 대해 이야기 하려 한다.

선택편의에 관한 문제

우선, 예시를 통해 선택편의에 대한 이야기를 하려 한다.

MIT에 붙은 한국인 선영이와 칠레인 마리아가 있다. 몸이 약한 선영이는 건강보험을 가입하였고 마리아는 건강해서 건강보험을 드는 대신 여행을 간다. <표1>과 같이 임의 값을 설정하여 보험 가입여부에 대한 인과효과를 살펴보았다.

<표1> 선영과 마리아의 성과(outcome)와 처치(treatment)

선영마리아
보험 미가입 시 잠재적 성과(Y_0i)35
보험 가입 시 잠재적 성과(Y_1i)45
처치 (보험 가입 선택) (D_i)10
실제 건강 성과(Y_i)45
처치효과 (Y_1i- Y_0i)10

선영과 마리아의 보험가입 인과효과를 보면 선영의 보험가입의 인과효과는 1, 마리아의 보험가입의 인과효과는 0인 것으로 나타났다.

1) 선영의 보험가입 인과효과

  • Y_(1,선영)- Y_(0,선영)=1

2) 마리아의 보험가입 인과효과

  • Y_(1,마리아)- Y_(0,마리아)=0

또한, <표1>을 참고하여 선영과 마리아의 건강을 비교해 보면 보험에 가입하기로 한 선영이 보험에 가입하지 않기로 한 마리아보다 건강이 좋지 않아 선영의 선택이 비생산적이여 볼 수 있다.

  • Y_선영 = 4 , Y_마리아 = 5
  • Y_선영 - Y_마리아 = -1

하지만, 몸이 약한 선영과 튼튼한 마리아를 비교하는 것은 이들의 선택에 의한 인과효과가 어떻다고 말하고 있지는 않다. 그렇기에 다음과 같이 Y_(0,선영) 을 빼고 더해서 2개의 비교가 눈에 보이게 만들었다.

Y_선영 - Y_마리아 = Y_(1,선영)- Y_(0, 마리아)
= Y_(1,선영)- Y_(0,선영)+{Y_(0,선영)- Y_(0, 마리아)}

첫 번째 항인 Y_(1,선영) - Y_(0,선영) 는 건강보험이 선영이에게 미치는 인과효과로 그 값은 1이다. 두 번째 항인 Y_(0,선영)- Y_(0, 마리아) 는 두 학생이 모두 보험에 가입하지 않는 경우이며 두 사람의 건강상태의 차이로 -2 의 값을 가진다.

-2의 값은 선영의 건강상태가 마리아보다 좋지 않음을 이야기한다. 진행중인 연구에서 Y_(0,선영)- Y_(0, 마리아) 과 같이 비교할 수 있으나 비교가 이루어지지 않는 상황을 선택 편의(selection bias)라고 부른다.

이는 개인에만 국한된 것이 아니고 n명의 사람들로 구성된 집단에서도 해당이 된다.

n명의 사람들로 구성된 집단에서 평균 인과효과(average causal effect)는 아래와 같이 표현할 수 있다.

- AVG_n [Y_1i-Y_0i] = 1/n ∑_(i=1)^n [Y_1i-Y_0i]
= 1/n ∑_(i=1)^n [Y_1i]- 1/n ∑_(i=1)^n [Y_0i]

위의 식에 건강보험 이야기를 대입한다면 건강보험의 평균 인과효과는 집단 내 모든 사람이 건강보험에 가입했거나(Y_1i) 건강 보험에 가입하지 않는(Y_0i) 가상의 두 시나리오 사이에서 평균 건강상태를 비교하는 것이다.

위의 식을 좀 더 쉽게 설명하기 위해 두 가지를 설정하였다. 1) 건강보험에 가입한 집단과 가입하지 않는 집단의 평균 비교를 좀 더 쉽게 하기 위해 더미변수 D_i 를 만들었다. (D_i에서 i=0이면 보험에 가입하지 않는 경우, i=1 보험에 가입한 경우)

2) 건강보험이 모든 사람의 건강을 상수 κ 만큼 증가시킨다고 가정한다.

Y_1i= Y_0i+ κ

위의 식은 아래와 같이 바꿔 쓸 수 있다.

Y_1i- Y_0i= κ
(상수 κ는 보험 가입이 개인의 건강에 영향을 미치는 인과효과 이다.)

집단 평균의 차이인

- AVG_n [Y_i│D_i=1]- AVG_n [Y_i│D_i=0]
= AVG_n [Y_1i│D_i=1]- AVG_n [Y_0i│D_i=0]
= { κ + AVG_n [Y_0i│D_i=1] }- AVG_n [Y_0i│D_i=0]
= κ +{ AVG_n [Y_0i│D_i=1] - AVG_n [Y_0i│D_i=0]}

위의 수식을 간단하게 말하자면 ‘집단 평균의 차이 = 평균 인과효과 + 선택 편의’ 인 것이다. 우리는 결국 우리가 구할 수 있는 식은 ‘보험에 가입한 사람들의 평균 – 보험에 가입하지 않는 사람들의 평균’ 일 뿐이다. 선택 편의의 문제, 즉 보험에 가입하지 않은 사람이 보험에 가입할 경우와 같은 반 사실(counterfactual)의 상황은 고려하지 못한채 결국 실험은 끝이 나게 됨을 볼 수 있다. 또한 학력, 소득, 취업 상태 등이 동일한 보험 가입자와 미가입자들로 구성된 표본이라 할지라도 관측하지 못하는 측면에서 서로 다를 가능성이 매우 높다. 그렇다면 선택편의의 문제는 어떻게 해결할 수 있을까? 그 방법은 무작위 시행에 있다.

참고자료

고수들의 계량경제학, Joshua D. Angrist, Jorn-Steffen Pischke 지음


Tags

#인과추론#RCT#무작위배정

Share


Related Posts

인과추론 다섯번째 - 회귀단절(Regression Discontinuity, RD)
2022-07-12
3 min
© 2023, All Rights Reserved.
Powered By

Quick Links

About UsOfficial Page

Social Media