HomeAbout
Causal Inference
인과추론 두번째 – 선택편의를 제거하는 방법
경윤영
December 20, 2021
2 min

Table Of Contents

01
들어가기 앞서
02
대수의 법칙
03
글을 마무리 하며

들어가기 앞서

지난 시간에는 무작위 시행의 필요성에 대해 이야기했다! 바로 선택편의를 제거하기 위한 것!! 이번 시간에는 무작위 시행이 어떻게 선택 편의의 문제를 해결하는지 살펴보려 한다.

대수의 법칙

무작위 시행이 선택편의를 제거하는 방법은 다른 조건이 모두 동일한 비교가 되도록 만드는 것이다. 예를 들어 건강보험의 효과를 무작위 배정 실험을 통해 평가하기 위해서는 다른 조건이 모두 동일하다는 가정하에 현재 건강보험에 가입하지 않은 사람들의 표본에서 무작위로 보험 가입을 선택하게 하여 보험 가입자와 미가입자의 건강상태를 비교하는 것이다.

그렇다면 어떻게 해야 다른 조건이 모두 동일한 비교가 되도록 만들 수 있을까? 대수의 법칙(LLN)을 이용하는 것이다. LLN은 표본 크기에 따라 표본 평균이 어떤 특성을 보이는지를 설명해준다. 그렇기에 LLN이라는 통계적 특성을 이용하여 개인 특성들의 차이를 제거하기 위해 충분한 크기의 표본을 대상으로 한다. 주사위 던지를 횟수가 많아질수록 평균값은 3.5에 가까워지는 것이 LLN의 대표적인 예라고 할 수 있다. 이와 같은 원리로 LLN에 의해 표본이 충분히 크다면 처치집단과 통제집단에 무작위로 배정된 사람들은 서로 비슷하게 된다.

즉, 무작위로 배정된 처치집단과 통제집단의 여성과 남성의 비율, 연령, 키, 등이 비슷할 것이다. 또한 무작위로 배정된 집단은 우리가 쉽게 관측할 수 없는 것들을 포함해 모든 측면에서 비슷해야 한다!! 이 원리가 바로 선택편의를 제거할 수 있는 원리이다.

무작위 배정이 선택편의를 제거한다는 것을 수식을 사용하여 설명하기 앞서 수학적 기댓값에 대한 정의를 내리고자 한다.

우선, 변수 YiY_i의 정의에 따라 다른 수학적 기댓값은 아래와 같다. 1) 변수 YiY_i의 수학적 기댓값은 E[YiY_i]로 모집단의 평균을 의미한다. 2) 변수 YiY_i가 주사위 던지기와 같은 무작위 과정을 통해 생성된 변수이면 E[YiY_i]는 주사위 던지기 과정을 무한 반복했을 때의 평균값이다. 3) 변수 YiY_i가 표본조사를 통해 생성된 변수인 경우에는 E[YiY_i]는 표본이 도출된 모집단에서 얻게되는 평균값이다.

또한 조건이 있을 때도 수학적 기댓값을 구할 수 있다. 더미변수 Di=1D_i=1이 주어질 때 변수 YiY_i의 조건부 기댓값은 E[YiY_iDi=1D_i=1] 이다. 이는 Di=1D_i=1인 모집단에서 YiY_i 의 평균값이다. Di=0D_i=0 일때 변수 YiY_i의 조건부 기댓값은 E[YiY_iDi=0D_i=0]으로 표시하며, 이는 Di=0D_i=0인 모집단에서 YiY_i의 평균값이다.

이제 수식을 통해 무작위 배정이 선택편의를 제거하는 것을 살펴보자!! 무작위로 배정된 처치집단과 통제집단은 동일한 모집단으로부터 나왔기 때문에 Y0iY_0i의 기댓값을 비롯해 모든 측면에서 서로 동일하다. 즉, E[Y0iY_0iDi=1D_i=1] = E[Y0iY_0iDi=0D_i=0]이 성립하고, 처치에 따른 기댓값의 차이는 처치의 인과효과를 나타낸다. 즉, 표본의 크기가 LLN을 따른다면 조건부 평균값이 조건부 기댓값으로 대체가 가능하며, 무작위 배정 실험을 통해 선택편의는 사라지게 된다. 무작위 배정은 개인의 차이를 제거하는 것이 아닌 비교대상을 동일하게 만드는 기능을 수행한다.

E[YiY_iDi=1D_i=1]- E[YiY_iDi=0D_i=0] = E[Y1iY_1iDi=1D_i=1]- E[Y0iY_0iDi=0D_i=0] = E[κ + Y0iY_0iDi=1D_i=1] - E[Y0iY_0iDi=0D_i=0] = κ +{ E[Y0iY_0iDi=1D_i=1] - E[Y0iY_0iDi=0D_i=0]} (단, Y1iY_1i- Y0iY_0i= κ)

글을 마무리 하며

무작위 배정을 통해 얻은 데이터를 살펴볼 때 가장 주의 깊게 봐야할 것은 처치집단과 통제집단의 균형이 맞는지 살펴보아야 한다. 이는 균형상태점검(checking for balance)라고 불리우는데 처치집단과 통제집단의 표본 평균을 비교하는 것이다.

예시1과 예시2를 참고한다면 처치별로 인구통계학 특성의 차이들은 대부분 크기가 작음을 볼 수 있었다. 즉, 무작위 배정이 잘 이루어진 실험임을 알 수 있었다!! 하지만 예시3에서는 실험 시작 전부터 각 그룹 간의 잇몸 염증의 정도가 다름을 보이며 실험의 설계가 잘못되어? 있음을 볼 수 있다. 그렇기에 무작위 배정을 시행하고 각 그룹 간 균형이 잘 되어 있는지 점검해봐야 우리의 노력이 헛되지 않을 것이다!

예시1) 보험 보장 수준에 따른 인구통계학적 특성 및 처치 이전의 건강 변수 ex1

예시2) 대학생들의 컴퓨터 이용 제한에 따른 인구통계학적 특성 ex2

예시3) 의약품 테스트 그룹별 염증 지수 ex3

참고자료

  • 고수들의 계량경제학, Joshua D. Angrist, Jorn-Steffen Pischke 지음
  • Overview of Research Design for Causal Inference, Jiyong Park

Tags

#인과추론#RCT#무작위배정LLN선택편의

Share


Related Posts

인과추론 다섯번째 - 회귀단절(Regression Discontinuity, RD)
2022-07-12
3 min
© 2023, All Rights Reserved.
Powered By

Quick Links

About UsOfficial Page

Social Media