HomeAbout
Causal Inference
인과추론 세번째 – 뻔하지만 강력한 무기 회귀분석
경윤영
January 23, 2022
3 min

Table Of Contents

01
들어가기 앞서
02
참고자료

들어가기 앞서

인과추론하면 빠질 수 없는 것이 회귀분석이다. 회귀분석에 대해 1학기 내내 배웠었는데 수식 증명, 행렬을 사용한 증명 등 다양한 방법을 활용했던 것이 기억에 남는다. 특히 기억에 남았던 것은 연구할 때 OLS라도 제대로 사용해라! 라는 교수님의 말씀이 귓가에 남는다는 것…. 그만큼 회귀분석은 보편적이지만 강력한 모델이라고 생각한다. (IV를 배웠을 땐 ‘좋은 도구변수 하나 발견하면 노벨 경제학상을 탈 수 있다’ 라는 교수님의 말씀에 도구변수를 논문에 쓸 엄두조차 내지 못했다. 도구변수를 찾으려 노력한 순간이 없음에도 도구변수 하나 발견하기란 어렵다는 것을 몸소 체험하는 순간이었다.)

하지만 나는 여러 fancy한? 모델을 배우면서 다른 분석방법도 많은데 계량경제학 시간에는 회귀분석에 시간을 많이 할애하며 강조할까?를 고민했다. 그리고 내린 결론은 회귀분석이 그 중 종속변수와 설명변수 간의 인과관계를 쉽게 설명할 수 있게 해주는 모델이여서 그랬구나 였다.

회귀분석이 우리의 이해를 돕는지 예를 들자면 학력이 임금에 영향을 미친다고 다음과 같은 식으로 정의할때,

임금 = f(학력, …)

위의 식을 봤을 때 그래서 학력이 임금에 어떻게 영향을 준다는 거지? 라는 의문점밖에 남지 않는다. 하지만 이를 아래의 식으로 바꾼다면 임금과 학력과의 인과성을 쉽게 설명할 수 있다.

임금 = a + b*(학력) + 기타

학력이 1년이 오르면 임금이 b만큼 상승하는구나! 라고 설명할 수 있다.
그렇다면 회귀분석은 어떻게 인과관계를 추정하는 것일까? (다중회귀분석을 기본으로 하겠다.)

y^=β0^+β1^x1+β2^x2++βk^xk\hat{y} = \hat{\beta_0} + \hat{\beta_1}x_1 + \hat{\beta_2}x_2 + … + \hat{\beta_k}x_k
(여기서 k는 독립변수의 개수이다.)

위의 제시되어있는 일반적인 OLS 방정식에서 잔차 (yiyi^)(y_i-\hat{y_i}) 제곱합을 최소화하는 보통최소제곱법(ordinary least squares: ols)을 사용하여 추정값을 구한다.

i=1n(y^iβ0^β1^x1β2^x2,,βk^xk)2\sum_{i=1}^{n}(\hat{y}_i - \hat{\beta_0}- \hat{\beta_1}x_1 - \hat{\beta_2}x_2, …, - \hat{\beta_k}x_k)^2

그리고 위의 k+1개의 최소화 식은 다변량 미분을 사용하여 푼다.

yi=β0^+β1^x1i+β2^x2i+,,+βk^xki+u^iy_i = \hat{\beta_0} + \hat{\beta_1}x_1i + \hat{\beta_2}x_2i + ,…, + \hat{\beta_k}x_ki + \hat{u}_i

y^i=β0^+β1^x1i+β2^x2i+,,+βk^xki\hat{y}_i = \hat{\beta_0}+ \hat{\beta_1}x_{1i}+\hat{\beta_2}x_{2i} + ,…, + \hat{\beta_k}x_{ki}

yi=y^i+u^iy_i = \hat{y}_i + \hat{u}_i

w.r.t   β1^,β2^,,βk^\hat{\beta_1}, \hat{\beta_2},…, \hat{\beta_k}

극소값 1계조건은

σi=1n(e^i2)σβ^m\frac {\sigma\sum_{i=1}^{n}(\hat{e}_i^2)}{\sigma{\hat\beta}_m}

그렇다면 우리가 구한 모든 OLS 추정값이 올바른 값이라고 할 수 있을까?

그것은 아니다. OLS의 불편성(unbiasedness)를 얻으려면 아래의 5가지의 가정을 만족시켜야 한다. (여기서는 다중회귀분석의 가정을 설명하겠다!)

  1. linear in parameters

y=β0+β1x1+β2x2+...+βkxk+uy = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_kx_k + u

모집단 모형에서 모수들 β0\beta_0, β1\beta_1, β2\beta_2,…,βk\beta_k 에 대해 선형이다.
여기서 이 가정이 필요한 이유는 무엇일까? 선형식은 파라미터를 추정하거나 해석하기가 비교적 쉽기 때문이다. 우리가 여기서 자주 헷갈리는게 있는데 모수들에 대해 선형이라는 것이지 xix_i 가 선형이어야 한다는 것은 아니다!!

예시)

Log(salary)=Log(salary)= β0{\beta_0}+ β1log(salesi){\beta_1}log(sales_i) + uiu_i :모수에 대해 선형성 O Cons=1/Cons = 1/ (β0{\beta_0} + β1inci{\beta_1}inc_i) + uiu_i :모수에 대해 선형성 X

  1. Random sampling

가정1의 모집단 모형에 따르는 n개의 관측값들의 {(xi1,xi2,,xikx_{i1}, x_{i2}, … , x_{ik}, yiyi) : i =1, 2, 3, … , n} 임의표본이 있다.

y=β0+β1x1+β2x2+,,+βkxk+uy = {\beta_0}+{\beta_1}x_1+ {\beta_2}x_2 + ,…, + {\beta_k}x_k +u

여기서 uiu_i는 관측값 i의 오차(error term)이며 uiu_iyiy_i에 영향을 미치는 비관측 요소들을 포함함을 볼 수 있다.

  1. No perfect multicollinearity

표본에서 독립변수 중 어느 것도 상수가 아니고, 독립변수들 간에 정확한 선형 관계가 없다. 이 가정에서의 포인트는 상수정확한(No perfect)이다. 독립변수 중 하나가 상수이거나 다른 독립변수와 정확한 선형관계가 있다면 독립변수 k개의 계수를 추정하려고 할 때 이를 추정할 수 없기 때문이다.
간단하게 증명하자면 Proof) yi=β0+β1x1i+β2x2i+uiy_i = {\beta_0} +{\beta_1}x_{1i} + {\beta_2}x_{2i} + u_i 에서 x1i=2x2ix_{1i} = 2x_{2i} 라면 변수 x1ix_{1i}x2ix_{2i} 사이에는 선형관계가 존재한다.
이 때 두 변수는 같은 정보를 포함하고 있기 때문에 두 개의 미지수 β1{\beta_1},  β2{\beta_2} 를 추정할 수 없게 된다.
yi=β0+β1x1i+β2x2i+uiy_i = {\beta_0} + {\beta_1}x_{1i} + {\beta_2}x_{2i} + u_i —> yi=β0+(2β1+β2)x2i+uiy_i = {\beta_0} + (2{\beta_1} +{\beta_2})x_{2i} +u_i 결국 β1{\beta_1}, β2{\beta_2} 각각은 추정할 수 없게 된다. k개의 계수를 추정하려면 k개의 독립된 정보가 필요하다!!

  1. Zero conditional mean

E(ux1,x2,,xk)=0E(u|x_1, x_2, … , x_k) =0 오차항 u는 주어진 모든 독립변수들의 값에서 기대값 0을 갖는다. 이를 설명하기 앞서 우리는 E(ui)=0E(u_i)=0 이 무엇을 의미하는지 생각해봐야한다.
E(ui)=0E(u_i)=0 이라는 것은 단순히 uiu_i의 평균이 0이라는 의미가 아니고 모든 i에 대하여 E(ui)=0E(u_i)=0 이라는 뜻이다. 즉, E(u1)=0E(u_1)=0, E(u2)=0E(u_2)=0,….,E(un)=0E(u_n)=0 임을 의미한다.
이는 E(ui)=0E(u_i)=0의 값의 추출을 무한히 반복하면 그 궁극적인 평균은 0의 값을 가진다는 것이다. 이 가정을 만족시키지 못하는 경우는 크게 네 가지 경우가 있다.

1. 종속변수와 설명변수의 관계가 잘못 설정되어 있을 때
2. 통제되어야하는 설명변수가 누락 되었을 때
3. 설명변수에 측정오차 문제
4. 동시성 문제

2번의 경우를 예를 들자면, 학력에 따라 발생하는 임금을 추정하려고 할 때 경력이 임금에 영향을 미친다면 오차평균0 가정에 위배된다.

Wage=β0+β1Wage = {\beta_0} + {\beta_1} 학력 +u+ u

학력이 16년인 대졸자의 평균 임금과 학력이 12년인 고졸자의 평균 임금 간의 차이는 아래와 같다.
E(Wage|학력 = 16) – E(Wage|학력 =12) = β(1612)\beta_(16-12) + [E(u|학력=16) – E(u|학력 =12)]

이때 오차평균 0 가정이 성립한다면 [E(u|학력=16) – E(u|학력 =12)] 항이 0이 된다. 만약 고졸자가 경력이 높고 경력이 높을수록 임금이 높다면 [E(u|학력=16) – E(u|학력 =12)] 항은 음의 값을 갖게 되고 β1{\beta_1} 에 관한 값을 알 수 없게 된다.
또한, 이 가정이 성립하는 경우에 설명변수들을 외생적(exogeneous)라고 하고 이 가정을 만족시키지 못하는 경우, 즉 오차항 u가 독립변수와 상관되면 내생적(endogenous)라고 한다.

  1. Homoskedasticity and No autocorrelation

Var(ux1,,xk)=σ2Var(u|x_1, … , x_k) = σ^2 모형에 포함된 설명변수들이 어떤 값을 가져도 오차항 u의 조건부 분산은 일정하다. 잠깐 단순 회귀분석으로 넘어가서 보자면 이는 독립변수 xix_i가 어떤 값을 가지든지 간에 오차항 uiu_i의 분산이 일정하다는 것이다.

예를 들어 weight=β0+β1age+uweight = {\beta_0} + {\beta_1}age + u 라는 식에서 표본 번호가 12인 나이(독립변수)가 23인 사람과 표본 번호가 15인 나이가 40살인 사람이 있다.
표본을 반복해서 추출할 때 표본 번호가 12인 사람은 항상 나이가 23인 집단에서 추출되고 번호가 15인 사람은 항상 나이가 40인 집단에서 추출이 된다.
여기에서 나이가 23인 집단의 u의 분산과 나이가 40인 집단의 u의 분산이 같으므로 var(u12u_{12}) = var(u15u_{15})이다.

  1. Normality of errors

오차항의 정규분포의 가정은 왜 필요한 것일까? 일단 정규분포는 다루기가 쉽다는 장점을 가지고 있다. 정규분포에 상수를 더하거나 곱해도 여전히 정규분포를 갖게 된다. 오차항이 정규분포를 가졌다는 가정하에 최소제곱 추정량도 정규분포를 갖게된다.

이쯤되면 그래서 BLUE는 어떻게 되는거야? 라는 질문이 나올 수 있다. 우선, 가정1~ 가정4을 만족시킬때 OLS를 사용하여 불편추정값(unbiased estimate)을 구할 수 있다. 여기서 추가로 가정5까지를 만족시킨다면 Gauss-Markov의 가정이라고 부르며 임의추출된 횡단면의 자료 분석에 적절하다. 그리고 Gauss-Markov의 가정을 만족시킬 때의 추정량은 가장 좋은 선형 불편 추정량(BLUE: best linear unbiased estimator)이 된다.

위의 5가지 가정을 통해 OLS는 인과관계를 설명해주는 강력한 무기가 되었다. 이 글을 통해 OLS를 사용하는 것에 조금이나마 도움이 되었기를 바란다..!!!

참고자료

  • 계량경제학1, Jeffrey M. Wooldridge 저
  • 계량경제학강의, 한치록 저
  • 계량경제학1 강의노트, 김창진 저

Tags

#인과추론#OLS#회귀분석가우스마르코프 가정

Share


Related Posts

인과추론 다섯번째 - 회귀단절(Regression Discontinuity, RD)
2022-07-12
3 min
© 2023, All Rights Reserved.
Powered By

Quick Links

About UsOfficial Page

Social Media