HomeAbout
Causal Inference
Product Analytics 201
김진환
May 09, 2022
5 min

Table Of Contents

01
개요
02
0. 서론

부제: Data in action: A model of a Dinner Party (1)

제가 이전에 작성했던 글을 참조해도 좋습니다.

개요

친애하는 Bonnie BK님의 추천 덕분에. 최근에 아래 책을 구매했습니다. 해외도서다보니 오는데 2주가 걸렸고, 퇴근 후 조금씩 조금씩 읽었는데 원서라 그런가 1단원을 읽는데 일주일이 걸렸습니다. (총 18단원)


alt text


어쩌면 자주 이야기 했지만, Machine / Deep Learning을 위시한 모델만능주의를 별로 좋아하지 않습니다. (의미는 있습니다!) 분명 다른 방향도 있을텐데 를 고민한지 꽤 지났는데 한줄기 방향을 찾은 것 같아서 기분이 좋습니다.


alt text


위 책을 읽고, (좋은 내용이니) 완전한 번역까진 아니더라도 제 언어로 요약해서 정리한다는 마인드로 공부하고 정리, 공유하는 글을 당분간 쓸 것 같습니다. 관심있으신 분들은 같이 공부하는 기회가 있으면 좋을 것 같기도 !


0. 서론

기술이 발전하면서 데이터의 양, 혹은 다룰 수 있는 기술은 발전했고 동시에 혁신을 만들어냈는데요. 이 글 (어쩌면 시리즈…)에서는 웹(Web)이던 앱(App)이던 관계 없이 프로덕트에서 나오는 데이터, 즉 사용자 행동을 분석하는 것으로 비즈니스의 성장프로덕트를 개선시키는 인사이트를 발견하는 과정을 다뤄보게 됩니다. (잘 아시겠지만, 사용자가 어떤 것을 클릭했는지 부터 주변인에게 어떻게 공유를 했는지 까지 등을 수집하고 분석하여 수많은 행동 분석을 할 수 있습니다.)


이전과는 다르게 (물론 여전히 오프라인도 많지만) Product, Marketing, Sales, Delivery등 다양한 분야에서 많은 서비스가 온라인으로 이뤄지고 있는 만큼, 사용자가 어떤 행동을 왜 하는 지를 이해하는 것은 더욱 중요해졌고 이를 통해 고객의 경험을 개선시킬 수 있습니다. 이러한 고객 행동 분석을 위해 글 중간에 특정 프로덕트가 아닌 PAP 이라는 커뮤니티에서의 오프라인 파티를 했다고 가정해보겠습니다.


사용자 데이터

유저 / 사용자 / 고객 이라는 단어를 혼용했지만 ‘User’로 일맥상통 합니다.


사용자의 행동을 이해하는 것은 타게팅 캠페인, 매출증가, 고객 만족, 그리고 프로덕트 참여를 만들 수 있습니다. 당연하게도 Data Scientist 부터 Product Manager 까지 많은 사람들이 이를 이해 / 예측 하려고 노력하는데요. 문제는 이러한 데이터를 “잘” 활용하는 것은 정말 어렵다는 것입니다.


꽤 많은 사람들이 좋은 질문을 만들지 못하거나, 맥락을 잘 활용하거나, 최적의 방법론을 적용하지 못하는데요. 위의 예시 혹은 다른 가상의 예시를 통해 사용자 데이터 분석 과정이나 복잡한 사회 현상을 이해 하는 과정에서 겪는 문제를 알아보도록 합시다.


단순한 구매 가 이뤄지는 과정에서도 클릭부터 세션, Churn 등 많은 데이터와 지표가 생성되어 수집, 분석되고 있습니다. (각 단어에 대한 설명은 생략합니다)


거의 모든 웹 / 앱 프로덕트에서 공통적인 이 과정은 사용자의 행동을 구조화하고, 인사이트를 발견하며 어쩌면 사용자의 행동을 “변화” 시키는 관점에서 정말 중요합니다.


데이터 분석가로써 이러한 프로덕트 데이터를 통해 제일 먼저 할 수 있는 것은 무엇일까요? 데이터를 묘사 (Description) 하는 것입니다. (그리고 많은 분석은 여기서 마쳐지기도 합니다.) 가령 사용자는 세션당 평균적으로 30초를 소비한다. 랜딩페이지에서 10% 만이 이후 단계로 진행한다. 와 같이 단순히 고객의 데이터는 이러이러하다 라고 얘기 하는 것이죠. 데이터는 많기 때문에 (이를 위한 인프라와 엔지니어는 있다고 가정합시다…) 당연하게도 데이터를 묘사하는 방법은 정말 정말 많습니다. 조금 더 욕심을 낸다면, 이러한 사실들을 조합하는 것으로 스토리를 만들어 내거나 혹은 스토리를 먼저 만들어낸 뒤 이를 뒷받침 하는 사실들을 찾을 수도 있습니다.


자전거

alt text

(부가티는 자전거도 4500만원, https://www.thegear.kr/news/articleView.html?idxno=14239)


하이엔드 자전거를 판매하는 웹사이트가 있다고 가정해볼까요? 우리 제품은 정말 좋지만, 랜딩페이지 진입 한 다음 이후 단계를 진행하지 않는 bounce rate가 높은 상황입니다. 분석가는 왜 이러한 상황인지 알아보기 위해 꽤 오랜 시간을 고민하게 됩니다.


어쩌면 Descriptive statistics를 사용할 수 도 있습니다. 그 결과 구글 검색(을 통한 진입고객) 은 40%가 이후 단계로 진행을 하고, 네이버 검색은 30%라는 결과가 나왔습니다. 이제 이를 “설명”하기 위한 가상의 스토리를 만들게 됩니다. 가령 구글 사용자가 네이버 사용자보다 “부자”이기 때문에 더 많이 팔렸다 라는 스토리죠. 그리고 팀 슬랙에 이를 공유합니다. 꽤 가능성 있는 이야기 같습니다. 그럼 이제 남은 이번 주의 근무 목표는 어떻게 해야 “부자” 고객을 타겟팅 할 수 있을까? 를 고민하고 답을 찾는 것 입니다. 그런데, 갑자기 다른 팀에서 부자라는 근거는 어디서 나왔나요? 라고 묻습니다.


아뿔싸… 나이나 성별, 국적, 거주 지역등 구글과 네이버 사용자에 대한 구체적인 정보를 알기 전까지는 실제로 부자인지에 대해서는 알 수 가 없기 때문에. 확인 중입니다 ! 라고 대답했지만 개인정보보호의 관점까지 고려하면 더 어려워진 것 같습니다.


이를 Cherry picking 이라고 표현하기도 하는데 그 결과는 종종 실망스러운 결론이 되기도 합니다. 마치 두더지 잡기처럼 하나를 설명하는 스토리를 만들면 또 다른 궁금증이나 스토리를 반증하는 오류가 튀어나오는 거죠. 그렇기 때문에 이러한 체리피킹을 하는 것 혹은 한 두개의 사실을 설명하는 것에 집중하는 것보다 큰 관점에서의 ‘빅픽쳐’를 보는 것이 어쩌면 더 효과적일 수도 있습니다. 심지어 가상의 스토리 이기 때문에 잘못된 결론을 냈을 수도 있습니다. 구글 사용자가 왜 네이버 사용자보다 많이 구매를 했는지는 결국 알 수 없기 때문이죠.


C레벨 (혹은 경영진 / 리더십) 은 현상이 명확하게 설명되는 것을 원합니다. 물론 기가막힌 스토리텔링은 좋지만, 구매율이 아닌 금액기준으로 봤을때 는 오히려 구글이 30% 네이버가 70% 였다 와 같이 잘못된 방향의 스토리텔링이었다면 인적, 물적 리소스 낭비. 어쩌면 돌이키기 어려운 프로덕트 차원의 변화까지도 만들어 낸 이후 일 수 도 있습니다.


ML / AI & CI

이세돌과 알파고가 바둑 둔지 6년이 지났는데 엄청난 인공지능으로 이 자전거 문제를 풀수 있지 않을까요? 안타깝게도 쉽지는 않습니다. Machine Learning / Artifical Intelligence (혹은 Deep Learning도)은 대부분 Prediction의 문제를 풀기에 적합하기 때문이죠.


어떤 요인이 사용자의 특정행동을 유발하는지 (구매를 하게 하는지) 아는 것은 미래가 어떻게 될까를 예측 하는 것과는 살짝 다른 관점으로 접근 하는 것이 좋습니다.


데이터가 많을 수록 좋은 ML / AI 와는 다르게 Causal Inference는 데이터가 많다고 무조건 좋아지지는 않습니다. 사실 CI는 많은 데이터보다 반대 가설에 대한 데이터의 존재가 훨씬 더 효과적입니다. 데이터가 많아 prediction이 르네상스를 겪고 있는 상황에서 CI는 prediction에 비해 어렵고, 전체 현상을 모델링 하는 것보다는 일회성 사례에 더 적합합니다.


CI 에 기반한 고객 이해의 제일 첫 단계는 컨셉 모델을 만드는 것이고, 이후로 필요한 것은 이 모델을 증명 혹은 반증 할 수 있는 적절한 메트릭 / 통계치를 수집하는 것입니다. 이후 수집된 데이터를 통해 혹은 (없다면) 데이터를 수집하는 실험을 통해 사용자에 대한 인사이트를 얻을 수 있습니다.

물론 ML / AI가 중요하지 않은 것은 아닙니다.


PAP Party

(드디어!) 간단한 사고 실험을 해보겠습니다.


PAP 2기를 성공적으로 마무리 짓는 것을 기념하여 오프라인 파티를 주최하게 되었습니다. 좋은 파티를 만들고 싶은데, 저는 파티를 많이 참가해본적이 없고, 당연히 파티를 주최해 본 적 또한 없습니다. (그래서 어떤 파티가 좋은 파티인지 조차도 잘 모릅니다.) 그래서 이런 질문을 하게 됩니다. 좋은 파티가 뭘까? 이를 위해 생각나는 몇가지를 써봤습니다. 파티의 음식. 참가자 그리고 파티가 진행되는 장소가 중요 할 것 같아요.


우선 음식입니다. 편한 음식과 트렌디한 음식 중 어떤게 맞을까요? 양도 많은 것과 살짝 모자란 것, 심지어 음료(🍷) 까지 가면 고민 할 것이 너무 많은 것 같습니다.


두번째, 사람입니다. 과연 누구를 초대해야할까요? PAP의 퍼블리셔와 오거나이저만? 아님 지인? 어쩌면 product 분석에 관심있는 사람들? 여전히 알 수 없습니다.


마지막으로 장소 입니다. 레스토랑도 있고 홈파티도 있고 제가 미처 생각하지 못한 다른 선택지가 있을 수도 있습니다.


그래서 K-애자일하게 일단 아무렇게나 정한 뒤, 파티를 하고 피드백을 받아 이후에 더 잘하기로 했습니다.


alt text

(Photo by Samantha Gades. unsplash)


파티는 토요일 5시에. 친애하는 Bonnie가 대관해준 장소에서, 많고 편한 음식 그리고 알콜과 함께 약간의 지인까지 포함한 채 진행하기로 했습니다.


5시 10분이 지나며 사람들이 조금씩 오면서 비도 오고 있습니다. 파티 이후 한강변을 가는 것은 어려워졌습니다. 사람들이 점점 오면서 여러 공간으로 나누어져, 각자 대화를 하며 “Social Group”을 구성합니다. 많은 사람들이 익숙한 사람들 (가령 직장동료)과만 이야기를 하는 것 같습니다. 각 그룹에서 어떤 이야기들이 나오는지 궁금했기 때문에 돌아다니며 인사도 하고, 싸인도 받고, 사진도 찍고, 대화에도 참여합니다. 재테크를 이야기 하는 사람, 번호를 교환하는 사람, 스터디를 이야기 하는 사람도 있습니다 (!)


10시 반이 넘자 사람들은 점점 집에 가며 파티가 사그라듭니다. 마무리와 뒷정리는 잘 했습니다. 참가자들의 기억에는 어떤 파티였을까요? 좋은 파티였을까요?


파티가 좋다 라는 것을 (정말 어렵지만) 정량화 해보겠습니다.


다수의 참가자가 만족했는가 를 기준으로 볼까요? 이 경우 좋다 / 나쁘다 라고 하는 메트릭이 필요합니다. 잘 모르겠다를 방지하기 위해서 컷오프는 어떻게 정해야할까요? 사람마다 좋다의 기준이 너무 다를텐데 이는 어떻게 맞출 수 있을까요?


맞췄다고 치면, 참가자를 초대 하는 것을 조절하거나 특정 주제로 대화하는 방으로 안내해서 마치 공리주의의 관점처럼, 만족도의 합을 최대화 할 수 있을까요? 이상하지만 재밌는 생각일 것 같습니다.


참가자마다 좋다 를 느끼는 기준 또한 다릅니다. 어떤 사람은 다른 참가자에게 압도 당할 수 도 있습니다. 누군가는 고양이 이야기를 좋아하지만 그렇지 않은 사람도 있죠. 😺


다른 관점에서 접근해보겠습니다. 좋음은 다음날 참가자들이 어제의 파티를 많이 이야기 하는 것으로 볼 수 도 있습니다. 어쩌면 직접 물어볼 수도 있겠죠. 그런데 이걸 귀찮아하거나 불편, 어색해한다면 어떡할까요?


이루고자 하는 목적에 따라 좋음의 기준은 정해지게 됩니다. 어떤 사람은 사람을 만나는 것이 목적이고, 어떤 사람은 스터디 원을 찾는 것, 어쩌면 새로운 이직이나 채용의 기회가 좋음의 목적 일 수도 있습니다.


이후 PAP 3기 파티가 있다면 참여 한다 를 기준으로도 볼 수 있지만, 생각은 점점 복잡해지고. 좋음을 정량적으로 정하는 것이 어렵다는 것을 제외하고는 확실한 건 아무것도 없는 것 같습니다. (심지어 아직 이벤트나 인터랙션 데이터는 손도 안댔습니다 !)


이러한 파티와 같은 사회 이벤트는, 예측과는 결이 살짝 달라 문제를 다시 정의 하는 것이 어렵습니다. 이러한 복잡한 이벤트 들의 특징은 무엇일까? 우리는 어떤 문제를, 왜 풀어야 할까? 를 고민하며 느끼게 되는 특징들은 이러합니다.

Social Process 는

  • 풀어야하는 문제보다는 이해해야 하는 과정으로 보는게 더 적합합니다.
  • Open system (개방계)으로써 영향을 줄 수 있는 외부 요인이 매우 많습니다.
  • 정확하게 정의된 Outcomes 가 없습니다.
  • 불완전하고, 때때로는 일방적인 정보의 문제가 있습니다.
  • 어떤 것이 왜 일어났는가 (인과관계)를 추측하는 것은 거의 불가능합니다.

생각보다 글이 길어지는데요. (절반 정도 왔습니다 !)


이어지는 글에서는 예시의 PAP 파티의 관점에서


  1. Social process 의 복잡함을 조금 더 훑어보는 내용과
  2. 그렇지만 파티와 웹 프로덕트가 다른 점
  3. 몇가지 예시들과 방법, 주의해야할 점들을 이어 다뤄보겠습니다.

Tags

초급

Share


Related Posts

Randomization은 어떻게 인과를 추론할 수 있도록 할까?
2022-05-31
5 min
© 2023, All Rights Reserved.
Powered By

Quick Links

About UsOfficial Page

Social Media