HomeAbout
Causal Inference
인과추론 네번째 - 도구변수
경윤영
May 23, 2022
2 min

Table Of Contents

01
들어가기 앞서
02
내생성이란?
03
2단계 최소제곱법
04
도구변수 예시 - KIPP 학교
05
참고자료

들어가기 앞서

지난 글에 이어서 인과 효과를 추정하는 방법에 대해 소개하고자 합니다. 이번에는 도구변수에 관한 이야기 입니다.

도구변수를 설명하기 앞서 인과추론이란 무엇인가에 대해 말씀드리고자 합니다. 인과추론는 왜? 라는 질문에 답을 해주는 좋은 도구라고 생각하시면 됩니다. 예를 들어 저 상점의 수입은 왜 증가할까? 대학때 성적이 좋은 학생은 좋은 기업에 취업할까? 와 같은 다양한 문제에 대해 답을 내려줄 수 있습니다. 그렇다면 인과추론이 이와 같은 질문에 답을 할 수 있는 원리는 무엇일까요? 예를 들자면 우리는 회귀분석을 사용해서 독립변수X(treatment)가 종속변수Y에 미치는 영향을 통계적으로 추론할 수 있습니다.
하지만 회귀분석 사용할시 Gauss-markov의 5가지 가정을 충족시켜야하는데, 독립변수가 외생성을 만족시키는 가정을 지키는 것이 힘들 때 ‘도구변수(instrument variable)‘을 사용하여 인과추론을 수행합니다.

내생성이란?

그렇다면 독립변수가 외생성을 만족시키지 못할 때, 즉 독립변수가 내생성을 가진다는 것은 무엇을 의미할까요?
내생성은 독립변수와 오차가 서로 correlated 일때를 말하고, 오차항과 상관된 독립변수들은 2가지 문제를 야기합니다. 첫째, OLS 추정량은 비일관적이게 된다. 둘째, 표본의 크기가 아무리 커도 OLS 추정값은 참값과 다를 수 있다.

어떤 경우에 독립변수를 내생적으로 만들까요? 세 가지의 경우가 있습니다.

  1. 변수누락

제 3의 요인이 독립변수X와 종속변수Y 모두에 영향을 미치는 경우 ex) log(임금) = β0+β1\beta_0+\beta_1학력+β2\beta_2경력+uu if omitted variable = 능력 학력, 능력은 서로 관련되어 있고 능력은 오차항의 일부를 구성하게되어 독립변수와 오차항이 서로 관련되는 문제가 발생합니다.

  1. 역인과관계 (동시성)

독립변수 X와 종속변수 Y가 서로 영향을 미치는 경우 ex) 성장 = α1+α2\alpha_1 + \alpha_2개방 + ε\varepsilon 개방 = β1+β2\beta_1 + \beta_2개방 + μ\mu 성장이 먼저인지 개방이 먼저인지에 대한 질문이 있다면, 개방이 경제 성장의 영향을 줬을 수도, 성장이 개방에 영향을 줬을수도 있지만 성장과 개방이 거의 동시에 돌아가는 문제가 발생할 수 있습니다. 이렇다면 성장이 원인인지 개방이 원인인지가 불분명해지는 문제가 발생합니다.

  1. 설명변수의 측정오차

독립변수X뿐만 아니라 X에서 어떤 오차범위를 갖는 X’도 Y에 영향을 미치는 경우

ex) 소비=β0\beta_0+β1\beta_1항상소득 소비를 추정하려고 할 때 항상소득(현재부터 미래까지 자신에게 올 소득의 평균)은 관측이 힘들기 때문에 실제소득을 사용합니다.

실제소득 = 항상소득 + 일시소득 (여기에서 일시소득은 항상소득과 무관하게 발생함)

소비=β0+β1\beta_0+\beta_1실제소득 + (β1(-\beta_1일시소득) 일시소득은 관측이 불가능하여 β1-\beta_1일시소득이 오차항이 되고, 이때 일시소득은 실제소득의 구성항목으로 오차항인 일시소득과 독립변수인 실제소득이 관련되어 내생성을 가지게 됩니다.

그렇다면 도구변수는 위의 세 가지 문제를 어떤 방식으로 해결하는 것일까요?

2단계 최소제곱법

대부분의 통계 소프트웨어에서 도구변수Z 추정은 2단계 최소제곱법을 기본으로 활용하기에 저 역시 2단계 최소제곱법을 활용하여 설명하고자 합니다. 도구변수Z의 역할은 도구변수Z를 사용하여 독립변수X와 오차항 U가 uncorrelated되게 만드는 것이 도구변수Z의 역할입니다. 우선적으로 도구변수Z는 독립변수X를 통해서만 종속변수Y에 영향을 미치는 변수로서 두 가지 조건이 만족되어야합니다. ① 도구변수Z는 독립변수X와 관련되어야한다.
② 도구변수Z는 오차항U와 관련이 없는 외생변수여야한다.

도구변수 그림

2단계 최소제곱법은 회귀분석을 두 번 하는 것입니다. y=β0+β1x1+β2x2+uy = \beta_0 + \beta_1x_1+\beta_2x_2 +u 여기에서 x1x_1은 외생적이고 x2x_2는 내생적일 때, 추가 도구 변수는 z2az_{2a} 입니다.

1단계) x2^=x0^+x1^z2a\hat{x_2} = \hat{x_0} + \hat{x_1}z_{2a} 1단계에서는 내생성을 갖고 있는 x2x_2x1x_1z2az_{2a} 에 대해 회귀하여 맞춘값을 구하고 z2az_{2a} 의 유의성을 점검합니다.

2단계) y=β0+β1x1+β2x2^+uy = \beta_0 + \beta_1x_1 + \beta_2\hat{x_2} + u 2단계에서는 y를 x1x_1과 내생성을 최대한 통제한 x2^\hat{x_2} 에 대해 OLS 회귀를 시킵니다.

도구변수 예시 - KIPP 학교

고수들의 계량경제학에 제시된 도구변수를 사용한 연구를 간단하게 설명하여 글을 마치려 합니다. 미국 고등학교의 경우 인종 간 성취도의 격차가 큰 것이 하나의 문제인데, 이를 해결하고자 KIPP 학교 시스템 도입이 해결책이 될 수 있다/없다로 의견이 나뉜다고 합니다. KIPP 학교는 보통의 미국 공립고등학교 보다 훨씬 자유롭게 운영되는 학교로서, 하루의 수업을 길게 설정할 수 있고, 교원의 선택적 채용 및 읽기와 수학능력을 강조하는 학교입니다. 실제로 KIPP 학교에 다니는 학생들은 다른 공립학교에 다니는 학생들보다 학업 성취도가 높은데 학교 시스템 때문이 아닌 KIPP의 학생들은 KIPP 들어오기 전부터 또래들보다 능력이 뛰어났기에 학업 성취도가 높다는 주장이 제기되고 있습니다.
그렇다면 KIPP에 다니는 학생들은 다른 공립학교 학생들과 비교했을때 ‘다른 조건들이 동일하게 유지되었는가(Ceteris paribus)‘? 를 따져볼 수 밖에 없습니다. 이 때 우리는 도구변수를 사용하여 KIPP 학교의 프로그램이 학업성취도를 높이는지 살펴봅니다. 도구변수: KIPP 입학자격을 무작위적으로 제안받은 지원자(=1)인 더미변수 처치변수: KIPP에 재학한 학생(=1)인 더미변수(내생변수) 성과변수: 5학년 수학점수(KIPP 학생의 성취도) 도구변수인 무작위 배정된 입학제안을 처치변수 KIPP 재학과 연결시켜 KIPP 재학의 내생성을 최대한 통제시켜줍니다.

참고자료

https://eiec.kdi.re.kr/publish/naraView.do?cidx=9270 https://sites.google.com/view/kaist-mis-session2017/part-1-econometrics https://danbi-ncsoft.github.io/study/2019/08/07/IV.html 고수들의 계량경제학, Joshua D. Angrist, Jorn-Steffen Pischke 지음


Tags

인과추론도구변수계량경제

Share


Related Posts

도메인은 모르지만 인과추론은 하고 싶어
2023-05-28
3 min
© 2023, All Rights Reserved.
Powered By

Quick Links

About UsOfficial Page

Social Media