이번 포스팅에서는 데이터가 존재하는 논문을 바탕으로 2요인 고정효과 모형을 추정하는 구체적인 방법을 다룹니다. 그리고 계량경제학적인 수식을 살펴보고, AWS 에서 약 1GB 크기의 약 7백만 개의 관측치를 저장하고, 이를 SQL 을 통해서 추출한 후에 파이썬에서 직접 실습해볼 수 있도록 하는 가이드도 함께 제공합니다.
데이터 분석가로서 이메일 등록이 고객 참여에 미치는 영향을 분석하는 임무가 주어졌습니다. 어떻게 분석을 해야 할까요? 이메일 등록은 유저마다 다른 시점에서 시작하기 때문에 점진적인 이중차분법 (staggered Difference-in-Difference) 을 적용할 수 있습니다.
점진적인 이중차분법에 대해 본격적으로 들어가기에 앞서, 이중차분법에 대해 간략히 설명을 먼저 드리겠습니다. 이중차분법이란, 우리가 궁금한 정책의 효과를 검증하기 위해서 정책이 도입된 특정 그룹과 그렇지 않은 그룹의 정책 도입 전후를 비교하는 기법입니다. 예를 들어서, 모바일 앱에서 대대적인 업데이트를 하는데, 그 효과를 측정하고 싶다고 해봅시다. Android 앱 유저의 MAU 가 iOS 앱 유저의 MAU 보다 약간 높지만, 그 차이가 작년 한해 동안 유사하게 이어졌다고 해봅시다. 올해 모바일 앱에서의 개편 효과를 측정하기 위해서 Android 앱에서는 개편을 시작하고, iOS 앱에서는 기존의 정책을 유지함으로써 그 차이가 어떻게 변하는지 구할 수 있습니다. 이 때, 그 차이가 더 커졌다면, 업데이트가 MAU 에 긍정적인 효과가 있음을 알 수 있습니다.
(추가로 이중차분법에 대한 설명은 호재님의 개념 설명과 예제를 참고하시면 좋습니다)
하지만, 앞서 말씀드린, 이메일 등록의 경우에는 고객마다 이메일 등록 시점이 다릅니다. 또 다른 예로, AB 테스팅 툴의 보급이 기업의 퍼포먼스에 미치는 효과를 추정하고 싶다고 합시다. AB 테스팅 툴을 도입하는 시기도 기업마다 제각각입니다. 만약 도입한 기업과 도입하지 않은 기업을 단순 비교하면, 추정치에는 AB 테스팅의 효과 뿐만 아니라 도입한 기업의 내재된 특성으로 인해 발생하는 효과도 함께 포함됩니다. 예를 들어서, 내재된 특성이 좋은 기업이 AB 테스팅도 도입한다면, AB 테스팅 도입 때문이 아니라 퍼포먼스가 좋을 특성들을 가진 기업들이 AB 테스팅을 도입했기 때문에 퍼포먼스가 높게 나올 수 있습니다. 그리고, 시기에 따라서 스타트업의 퍼포먼스가 다르게 나타날 가능성이 존재합니다. 특정 시기에 기업들의 퍼포먼스도 좋아지는데, 그 시기에 맞물려서 기업의 AB 테스팅 도입이 증가할 수 있기 때문입니다.
오늘 포스팅의 주제인 2요인 고정효과 모형 (two-way fixed effects model) 은 기업의 개별 특성과 시기의 특성들을 통제합니다.
A/B 테스팅 툴의 도입이 스타트업 성과에 미치는 요인에 관한 논문 (Koning et al. 2022 Management Science) 을 중심으로 논의를 진행하겠습니다. 논문에서 사용된 데이터는 Management Science 저널에서 다운로드 받으실 수도 있고, csv 로 변환한 파일을 제 구글 Colab 폴더 에서도 확인하실 수 있습니다.
1. 데이터 설명
저자는 Crunchbase, SimilarWeb, BuiltWith 등으로부터 기업에 관한 정보를 수집합니다. 35,6262개의 기업에 대해서 2015년 4월 5일 부터 2019년 3월 24일까지 208개의 주 (week) 에 대해서 총 7,334,496개의 기업-주 단위 관측치가 수집되었습니다.
2. 변수 설명
논문의 여러 연구 질문 중에서 이번 포스팅에서는 AB 테스팅이 스타트업의 퍼포먼스에 미치는 영향을 2요인 고정효과 모형 (two-way fixed effect model) 를 이용해서 분석한 내용을 다루겠습니다. AB 테스팅 사용 여부는 해당 기업이 AB Tasty, Adobe Target Standard, Experimentl.ly, Google Optimize, Google Website Optimizer, Omniture Adobe Test and Target, Optimizely, Optimost, Split Optimizer, Visual Website Optimizer 를 사용했는지 여부입니다. 이 때, 고려된 툴은 AB 테스팅에 포커스가 되어 있기 때문에 Mixpanel 과 같은 다른 분석 툴은 대상에서 제외되었습니다. 논문에 따르면, 해당 기간 동안 약 18%의 기업에서 적어도 일주일의 AB 테스팅 경험이 있다고 합니다.
기술 스택 (Technology Stack) 은 AB 테스팅 이외에 기업에서 채택한 기술의 개수입니다. 예를 들어, 페이스북의 픽셀 트래킹과 같은 기술입니다.
3. 회귀식
2요인 고정효과 모형 (two-way fixed effects model) 을 기반으로한 점진적인 이중차분 모형을 소개하겠습니다. 회귀식의 단위는 기업-주 입니다.
… (1)
는 주 (week) 마다 스타트업의 퍼포먼스에 미치는 영향을 통제합니다. 특정 주에 경제 환경이 다르거나 인터넷 사용량이 달랐거나 하는 등의 요인을 통제합니다. 는 변하지 않는 기업 고유의 특징들을 통제합니다. 스타트업의 초반 아이디어의 퀄리티가 다르거나, 특별한 전략의 유무나, 장소적인 이점이 있거나, 파운더의 학력 등의 관측되지 않는 특성들이 AB 테스팅 도입 여부와 스타트업의 퍼포먼스에 모두 관련이 있을 수 있습니다. 는 이를 통제합니다. 이 다음 섹션에서는 이러한 특징들이 demeaning 을 통해서 수리적으로 제거됨을 보입니다.
이와 더불어, 주마다 변화하는 스타트업의 기술 스택 () 을 통제합니다. AB 테스 팅을 도입할 때 스타트업 퍼포먼스에 영향을 미치는 다른 기술을 함께 도입했다면, 추정치에 편의가 발생하기 때문입니다.
4. 평균 빼주기 (Demeaning)
이번 섹션은 계량경제학적인 내용입니다. 각각의 변수에서 고정효과 ( 와 ) 를 제거하는 방법을 수리적으로 표현합니다. 2요인 고정효과 모형에서는 기업의 고정효과와 시간의 고정효과를 모두 제거하기 위해서 아래와 같이 수식 (1) - (2) - (3) + (4) 를 해서 도출한 수식 (5) 를 생성한 후 수식의 좌우변의 변수들에 대해서 간단한 OLS 회귀분석을 진행합니다.
이러한 수리적인 테크닉을 소개하는 이유는 고정효과에 관한 라이브러리를 실행할 때 시간이 오래 걸리기 때문에 이를 단축시키기 위해서입니다.