HomeAbout
Experiment
AB Test를 악용하여 프로덕트와 조직을 망치는 5가지 방법
김민겸
April 29, 2023
6 min

측정된 값은 변화의 시작이면서, 변화를 추적하고, 역사에도 실록처럼 데이터로 남는다. 그래서 일부 정치인과 정권, 경영자들은 통계를 조작하고 싶은 욕망에 빠지기도한다. 조선만큼 영속적인 회사를 만들고 싶지 않은가? 조선이 600년을 넘게 지속할 수 있던 배경엔 여러가지 원인이 있겠지만, 실록으로 왕들의 일거수일투족이 남는 무언의 견제가 있었고, ‘경제육전’,‘경국대전’ 등 법적 근거로 국가가 운영되도록 했기 때문이다. 경영학의 구루 피터 드러커는 “측정할 수 없으면 관리할 수 없고, 관리할 수 없으면 개선할 수 없다”라는 명언을 남겼다.

AB Test만큼 서비스의 변화를 측정하고, 그 결과를 분석하면서 기록에 남기면서, 후임자들이 더 나아갈 수 있도록 다양한 사례들과 인사이트를 남기는 것 처럼 훌륭하고 건전한 프로세스도 없다. 심지어 어떤 결과를 선택할지 데이터를 중심에 두고, 정책과 전략을 고려해서 선택하게된다. 데이터가 중심이 있기 때문에 직급이 높고 낮고, 도메인 전문성이 있고 없고를 떠나, 실험 환경에서 유저들이 경험한 결과를 토대로만 토론하고 결정할 수 있다.

하지만 모든 도구는 사람들이 어떻게 쓰는지에 따라 사람을 살리는 칼이 되기도 하고, 살인 도구가 되기도한다. 핵기술도 적은 자원으로 큰 열에너지를 얻는 자원이되기도 하지만, 수십 수백만의 사람을 한번에 죽일 수 있는 무기가 되는 것 처럼. 지금 부터는 온라인 실험, AB Test라는 좋은 도구를 서비스와 기업을 살리는 도구가 아니라, 특정 개인의 영달과 자아실현을 위해 악용하여 조직의 리소스를 낭비하고, 변화를 외면하여 퇴행하는 유형들을 설명하려고한다. 물론 경험담은 아니고 내 친구의 이야기이다. 현재 다니고 있는 회사의 이야기는 절대 아니니 오해는 마시라. ABT라는 좋은 도구를 얻었지만, 이를 내가 악용하고 있지는 아닌지 돌아보는데 도움이 되셨으면 한다.

1. AB Test 결과보다 본인의 직관이 뛰어나다고 과신하며, 기대와 다른 결과가 나오면 원하는 결과가 나올때까지 실험을 반복하거나, 실험 조건을 조작한다.

보통 스티브잡스병에 걸렸거나 능력에 비해 가방끈이 길어서 자기 확신의 함정에 빠진 분들에서 자주 나타나는 경우다. 또는 ABT를 실험이 아닌 출시를 위한 통과 의례로만 생각하는 사람들에게서도 발생한다. 필자와 필자와 함께 일하는 동료들은 겸손해질 만큼 실험과정에서 각자의 대안들이 무참하게 실패하는 경험을 해보았다. 구조상으로 당연히 클릭과 매출이 오를 수 밖에 없다는 스펙도, 클릭이 덜 발생하는 경우도 있었고, 곁다리로 넣어본 Treatment가 채택된 경험도 적지 않기 때문이다. 마치 친구따라 오디션 와서 합격한 경우랄까. 그래서 일반적인 실험자는 항상 겸손하다. 담당자가 선호하는 안이 채택되면 대중의 눈높이와 맞아간다는 재미가 있지, 본인이 똑똑하다고 자만하는데까지 이어지지 않는다. 실험과정에서는 무수한 실패를 겪기 때문이다. 하지만 온라인 테스트를 충분히 해본 경험이 없거나, FGD가 마치 대중과 모든 유저를 대표한다는 착각을하고 FGD결과로만 판단해온 분들은 나름의 필터버블에 의해 일반 사용자와 이격이 있는 감각을 가지는 경우가 많다. 특히나 대중들에게 자신의 결과물을 검증받는게 아닌 소수의 임원들과 학자들에게만 평가를 받아온 분들일 수록 엘리트 필터버블에서 나오지 못하고, ABT결과를 수용하지 못해, 샘플링을 왜곡하거나 특정 지표만으로 결과를 해석하는 등 아전인수적인 판단을 하는 경우를 적지 않게 보았다.

온라인테스트의 60% 이상은 채택하지 않고 버린다는 말이 있다. 실제로 필자의 경우에도 버킷을 만들면 실제 사용되는 비율은 30%가 안된다. 심지어 실험을 구성하는 모든 대안들을 폐기한적도 있다. Trustworthy Online Controlled Experiment을 읽어본 분들은 아시겠지만, 수익화에 도움이되는 실험결과는 전체의 30%정도 된다는 슬랙의 사례에서도 알 수 있듯이 뛰어난 사람들이 개선아이디어를 만들어도 실제 유저들에게 긍정적이 영향을 끼치기 매우 어렵다. 아이디어가 뛰어난 분이 개션안을 만들어도, 본인의 경험에 많은 영향을 받고 판단되었을 가능성이 높다. 특히 이 문제는 전국민 또는 일반대중을 대상으로하는 서비스에서 흔히 발생하는데, 그정도 큰 서비스를 담당할 직원이라면 어느정도 엘리트 교육을 받았을 가능성이 높고, 엘리트들 또는 유복한 환경에서 자랐을 가능성이 높다. 그런 사람들은 사회 구성원의 10% 이내일텐데, 그 안에서의 경험을 토대로 판단하고 결정하면 90%는 어색하게 느낄 수 있다. 따라서 엘리트 교육을 받은 사람들일수록 위대한 유저와 대중 앞에서 겸손해질 필요가 있다. 멈춰있는 지식도 없을 뿐더러, 멈춰있는 유저도 없다. 모든건 변한다. 그래서 내가 가진 지식과 인사이트는 유효기간이 길지 않을 수 있음을 실험하는 사람들은 명심해야한다.

2. AB Test를 상벌처럼 이용하여, 일부에게는 면제권을 주고, 일부에게는 견제수단으로 사용한다.

AB Test는 실험이지만 통과의례처럼 사용되기도 한다. 무의미하거나 유저나 목적에 악영향을 주는 변화를 감지하고 피하기 위해 사용되기도 하기때문이다. 하지만 이는 주객전도된 것이다. ABTest는 원해서 해야하는 것이지, 강제해서 해야하면 의미가 퇴색될 수 밖에 없다. 본인이 생각한 대안들 가운데 Market Fit에 가장 잘 맞는 것이 무엇인지, 적어도 유저를 이해하기 위한 수단으로 사용해야한다. 하지만 누군가는 포청천처럼 출시를 막거나 상대를 괴롭히는 용도로 사용하기도 한다. 의견이 합치되지 않을때 온라인 실험을 재판처럼 사용하고, 심지어 특정 관계자들에게는 면죄권을 주거나 적용을 전제로 실험을 하는 경우, 그렇지 않은 사람들에게는 매우 허탈하고 실험을 해야하는 당위성에 대해 불만을 가질 수 밖에 없다. AB Test를 하는게 리서치하는 과정이 아닌 부담으로 인식되고, 하지 않는 것이 특혜가 된다니…이처럼 전체주의적이고 더러운 실험 문화도 없다. 실험을 통해 최대한 유저에게 도움이되는 결정을 하려고 노력하지 않고, 특정 계층 또는 집단을 옹호하기 위한 수단으로 사용하기 때문이다. 온라인 실험을 하는 문화가 정착하려면, 모두가 공통으로 생각하는 메트릭이 있어야하고, 테스트는 쉬워야하며, 참여자들은 각자가 대안에 대한 가치를 평가할 능력이 없다는 것을 인지해야한다. 하지만 테스트를 기술적인 부분이 아닌 정책과 협업적인 부분에서 어렵게하거나, 합의되지 않은 메트릭을 내세우거나, 명확하게 하나에 대해 꽂혀있고 나머지 대안을 배제하는 듯한 뉘앙스를 강하게 풍기면서 테스트를 강요한다면, 테스트가 필요한 상황이지만 구성원들은 테스트를 일방적인 시험처럼 피하고 싶은 것으로 받아들이게 된다. 그러면서 초기 단계부터 실험을 염두하지 않고 피하려고한다던지 실험을 회피하고 다수의 유저를 대상으로 개선안의 효용을 탐구할 수 있는 기회를 외면하게 만든다. 이는 한쪽이 문화를 썩어 문드러지게 만들었기때문이다. 온라인 실험은 피하고 싶은 대상이 아니라, Market Fit을 찾기위해 활용하고 싶은 수단으로 문화가 잡혀야한다. 온라인 실험을 기피하게 만드는 조직이나 HiPPO가 있다면, 비싼 돈과 리소스를 들여 구축한 ABTest는 무용지물이 될 수 밖에.

3. 검증이 충분히 되지 않은, 또는 특정 조직과 담당자의 입장만 반영하는 2차 메트릭을 이용하여 평가한다.

Overall Evaluation Criterion. 실험의 목표를 달성했는지 측정하기 위한 정량적 지표이다. 여기서 주목할 점은 Criteria가 아닌 Criterion 즉 하나의 지표라는 점이다. 그리고 두번째로 중요한 점은 모두가 합의한 지표가 되어야한다는 점이다. 특정 부서의 이해관계만 반영하는 것이 아니라, 실험에 관련된 모두가 합의하는 지표여야한다. 하지만 합의되지 않은 지표를 가지고 실험결과 해석을 달리한다면… 지표와 실험 목적을 합의하는 첫번째 단계로 다시 돌아가야한다. 이게 무슨 시간낭비인가. 이런일은 큰 조직에서 쉽게 일어난다. 각 세부 조직들은 각자의 연간 목표와 전략 과제를 가지고 있고, 거기에 맞는 목적 지표를 관리하는데, 직접 관련없는 실험에도 조직의 이해관계가 담긴 목적지표를 꺼내서 이야기할 수 있다. 논의는 수렴하지 않고 발산하고, 실험과 관련 없는 이야기로 실험에 결과에 따른 해석 이후 과정으로 진전할 수 없게 된다. 두번째로 OEC를 난해하게 만들거나, 특정 조직의 이해관계만 반영하는 경우이다. 이해할 수 없는 지표로는 문제를 정확하게 진단할 수 없고, 원인을 정확하게 파악할 수 없다. 그런 이유로 딥러닝, 머신러닝 시대에도 일부 분야에서는 선형모형이나 방정식의 형태인 모델을 쓰기도한다. 일반적으로 사용하는 OEC는 매출/세션, 매출/검색, 클릭/노출 등 매우 심플하고 이해하기 쉬운 2차지표를 사용하곤 한다. 하지만 복잡한 방정식 또는 블랙박스를 통해 나오는 지표가 OEC가 되면 어떤 부분이 문제이고, 무엇을 고쳐야할지 파악하기 매우 어려워진다. 그래서 이미 충분히 연구가되고 활용된 지표를 OEC로 활용해야지 보다 효율적으로 결과를 분석하고, 보완할 부분을 탐색할 수 있다. 누군가는 정확도 100%를 위해서 일하지만, 정확도 100%가 설명력 0%로 구성된거면…그게 과연 좋은 결과일까. 정확도는 80%라도 설명력도 80%로 충분히 높은, 둘 사이의 어느정도 트레이드오프를 고려한 OEC가 가장 활용하기 좋은 OEC일 것이다. 여러 조직을 아우르는 OEC를 만드려면, 모든 상품의 특성을 반영한 결과이어야한다. 하지만 일부 조직의 OEC를 다른 조직에게도 강요한다면, 과연 대화가 될까? 예를 들어 매출부서에서는 매출과 관련된 2차지표가 OEC가 될 수 있다. 하지만 매출과 전혀 관련없는 부서에 매출과 관련된 지표를 OEC로 들이대면, 그들은 실험이 검증하고 싶은 문제와 가설에 대해서도 공감하지 못해, 애초에 실험의 전제에 문제가 생기고만다. 반대로 특정 영역의 특성을 무시한채 서비스 전반의 OEC를 만들면, OEC 모델의 구조적인 문제로 특정 영역 또는 기능이 손해를 보는 경우가 생긴다. 이 경우에는 대를 위해 특정부서가 손해를 보라는게 적절할까? 오히려 OEC를 고치는게 더 적절한 이야기가 아닌가? 불완전한 OEC에 최선을 다해왔으니, 관련 없는 부서에게 OEC를 강요하는건 매우 폭력적인 처사가 아닐 수 없다.

4. P-Value를 무시하고, 변화량으로 이야기한다.

이 부분은 T-Test 등을 수반하는 경우, 발생하는 문제이다. 보통 Control과 Treatment가 동질한지 아닌지를 검증하고, 동질하지 않은 경우 어떻게 다른지, 이는 어떤 함의를 가지고 있는지 알아가는 방향으로 진행한다. 경우에 따라서 샘플의 분산이 큰 경우, 버킷간 차이가 존재하더라도 통계적으로 무의미한 경우가 발생하는데, 이는 애초에 변화량이 큰 지표, 기능이기때문에 샘플링의 한계로 차이가 발생한 것으로 보일 수 있다. 예를들어 원래부터 CTR이 3%~10%로 편차가 큰 기능이다. 그런데 컨트롤의 평균은 4%, 트리트먼트의 평균은 6%로 나왔다. 그렇다면 이건 긍정적인 변화가 있다고만 해석할 수 있을까? 둘다 자연적인 CTR 범위에 들어와있는데, 샘플링 과정에서 샘플이 특정 대표값으로 쏠린 것일 수 있다. P-Value는 특정 대표값과 분산을 가지고, 동일할 확률을 계산하는 모델이다. 따라서 평균간의 비교로만 알 수 없는 표준편차를 고려한 판단이 가능하다. 따라서 원래 기능이 가지고 있는 편차를 고려하여 대표값이 차이가 있는지 없는지를 판단할 수 있다. 하지만 P-Value 계산을하려면 AB Test에서 버킷을 샘플링한 단위대로 Group by 해서 비교할 수 있어야하는데, 대형 서비스라면 이런 2차 가공 테이블을 만드는 것에도 생각보다 큰 비용이 들기도하여, 표준편차를 무시한채 대표값만 비교하는 경우도 적지 않다고 한다. 이런 경우 사실 의미없는 차이를 지표상 차이로인해 변경하여 오히려 서비스가 악회되는 길로 빠질 가능성이 있다.

5. P-Value를 맹신하고, 특정 메트릭의 변화만 가지고 의사결정한다.

4번보다 더 위험한 경우이다. P-Value를 맹신하는 경우다. P-Value는 모델의 결과이다. 그렇기때문에 우주 삼라만상의 사실을 그대로 모사하지 못하고, 모델로써 일부 오차도 발생할 수 있다. 미국 통계학회는 P-Value를 맹신하지 말라는 성명서도 발표하였다. P-Value의 한계에 대해 설명한 내용을 발췌해보면 아래와 같다.

A. 의도적이든 아니든, p-값이 0.05 이하인지 여부에 따라 p-값이 “유의하다” 또는 “유의하지 않다”라는 결론으로 귀결되는 경향이 있다. 이것은 매우 오해의 소지가 있다. B. P-값은 연관성의 정도와 추정치의 정밀도(샘플 크기)에 따라 달라진다. 효과의 크기가 작고 임상적으로 중요하지 않은 경우 표본 크기가 크면 p-값이 “중요”할 수 있다. 반대로, 효과는 클 수 있지만 샘플 크기가 작은 경우 p<0.05 기준을 충족하지 못한다. C. 조사관이 가능한 많은 연관성을 테스트하는 “낚시 탐험”에 착수하려는 유혹이 있다. p < 0.05 의 기준을 사용하여 많은 가능한 연관성을 조사할 때 임계점을 충족하는 적어도 하나를 찾을 확률은 테스트되는 연관성의 수에 비례하여 증가한다. D. 많은 연구자들은 p-값이 귀무가설이 참일 확률을 나타낸다고 잘못 믿고 있다. 그러나 p-값은 귀무가설이 참이라는 가정을 기반으로 계산된다. p-값은 데이터가 귀무 가설에서 벗어나는 만큼 또는 그 이상 벗어날 확률이다. 결과적으로 p-값은 귀무가설이 맞을 확률이 아니라 귀무가설과 데이터의 호환성을 측정한다. E. 통계적 유의성은 편향 및 교란의 평가를 고려하지 않는다.

P-Value도 모델이기 때문에 한계를 감안하고 활용해야한다. *이 한개 또는 세개 찍혀있다고 맹신하여 사업적인 판단을 해서는 안된다. P-Value가 0.01보다 작더라도, 변화량이 매우 작으면 이는 무의미한 차이일 수 있다. 이는 통계를 어설프게 공부한 사람들에게서 주로 발생하는 문제이다.

필자도 PM이자 조직을 이끄는 리더로서 조직과 프로덕트가 특정 개인이 아닌 데이터 기반으로 Market Fit을 찾고, 그 여정에서 구성원들도 인사이트를 쌓아가며 성장하기를 바란다. 하지만 그렇지 못한 빌런들이 존재하여 개인의 성장 기회도 박탈당하고, 서비스의 개선도 하지 못하며, 무의미한 정치적이 논쟁에 시간을 쓰며 경쟁자와 격차가 더 벌어지거나, 추월당하는 슬픈 일은 겪지 않길 바라며 들어본 이야기들을 적어보았다. 최소한 잘 못해도… 못하지는 말아야지.


Share


Related Posts

프로덕트 성장을 위한 실험 바이블 (1탄)
2023-04-02
5 min
© 2023, All Rights Reserved.
Powered By

Quick Links

About UsOfficial Page

Social Media