안녕하세요! 데이터 분석가 주정민입니다. 그동안 온오프라인 환경에서 실험 문화를 경험한 내용 바탕으로 실험 관련 내용을 정리해보았습니다. 실험이 매주 활발히 운영되는 조직에서 실험 문화를 경험하면서 깨달은 점이 많았는데요. 이번 글은 실험 바이블 글 1탄으로서 실험에 대한 정의, 프로세스, 실험 문화 성숙도와 같이 기본적인 내용들을 정리하고자 합니다.
들어가기전에 실험의 간단한 정의, 종류 그리고 실험 지표에 대해 알아볼텐데요. 실험은 버킷 테스트라고도 불리며, 실험의 종류에는 대표적으로 A/B 테스트 또는 A/A 테스트가 있습니다.
실험을 온오프라인 환경에서 진행해보았는데요. 온라인 서비스와 마찬가지로 오프라인에서도 데이터를 수집할 트래커와 같은 도구가 있다면 실험을 활용할 수 있습니다.
실무에서는 아래와 같이 자주 접하게 되는 문제들이 있습니다. 각 팀마다 풀어야할 문제들에 대해 실험을 활용해볼 수 있겠죠.
디자인팀
에서 서비스의 UI/UX 디자인 기능을 배포했을 때마케팅팀
에서 쿠폰 프로모션이 미치는 효과를 확인하고 싶을 때데이터팀
에서 모델 알고리즘의 효과를 알고 싶을 때일반적으로 주로 진행되는 실험 방식입니다. A/B 테스트는 두 가지의 변형 중 한 가지를 무작위로 선택하여, 비교할 두 가지 실험군, 대조군을 선정하고 이 중 어떤 것이 더 효과적인지 비교합니다. 가설을 기반으로 기존 요소가 담긴 A안과 특정 요소를 변형한 B안을 생성합니다. 예를 들어, 일반적으로 이커머스 도메인에서 A/B 테스트는 서로 다른 두 버전의 웹페이지를 무작위로 사용자에게 보여주어 어떤 버전이 고객에게 더 많은 구매를 유도하는지 비교합니다. 웹페이지 A안을 보는 집단은 대조군(Control Group), 웹페이지 B안을 보는 집단은 실험군(Experimental Group)이 됩니다. 실험을 통해 유저의 경험과 프로덕트의 성과를 향상시킵니다.
실험을 설계할 때 자주 등장하는 실험에 필요한 지표는 성공 지표(Success Metric), 가드레일 지표(Guardrail Metric), 서포트 지표(Supporting Metric), MDE(Minimum Detectable Effect) 가 있습니다. 실험 지표에는 일반적으로 아래의 4가지 목표 지표를 설정합니다.
Metric | Content |
---|---|
성공 지표(Success Metric) | 실험의 성공과 실패의 여부를 결정하는 지표입니다. 예를 들어 , 온라인 쇼핑몰 A/B 테스트에서는 구매 완료를 성공 지표로 정할 수 있는데요. 성공 지표는 실험의 최종 목표와 연결되어 가설에 대한 증거를 찾을 수 있습니다. |
가드레일 지표(Guardrail Metric) | 가드레일 지표는 실험의 안정성과 위험성을 측정합니다. 실험을 수행하는 동안, 가드레일 지표가 일정 수준을 넘어서면 실험을 중지해야 할 수 있습니다. |
서포트 지표(Supporting Metric) | 실험 결과를 분석할 때, 성공 지표와 가드레일 지표를 보완하는 지표입니다. 서포트 지표는 실험 결과를 해석하는 데 도움을 주는 지표로, 실험의 결과를 더욱 정확하게 이해하고 대처할 수 있도록 돕습니다. |
MDE(Minimum Detectable Effect) | 실험에서 효과를 측정하기 위해 사용되는 지표입니다. MDE는 실험에서 얻을 수 있는 최소한의 효과 크기를 나타내며, MDE 지표를 바탕으로 실험에 필요한 샘플 크기를 결정합니다. |
💡 실험을 위해 알아두면 좋은 통계 용어
귀무가설
: 일반적인 사실 또는 우리가 실험에서 틀리길 바라는 가설 대립가설
: 우리가 실험에서 맞다고 입증하고자 하는 가설, 차이가 있음을 실험을 통해 입증하고자 하는 가설p-value
: 귀무가설이 맞다는 가정에서, 실제 실험 결과와 같이 귀무가설을 지지하는 결과가 나올 확률을 의미합니다.가설 검정(t-test)
: 두 그룹 간의 차이가 통계적으로 유의미한지를 검정하는 방법 중 하나입니다. 일반적으로 서로 독립적인 두 그룹간의 비교를 통해 두 그룹의 평균값이 다른지를 검정합니다. t-test 결과, 귀무가설이 기각되면 두 그룹 간의 차이는 통계적으로 유의미하다는 것을 의미합니다.실험은 가설 설정 - 실험 설계 - 실험 진행 - 실험 결과 분석/실험 리뷰
4단계 프로세스로 진행됩니다.
가설 설정
: 실무에서 풀어야할 문제와 이에 따른 가설을 정의합니다.실험 설계
: 실험군과 대조군의 비율 설정, 실험 기간 설정, 목표 지표 설정과 같이 실험의 나침반을 제시할 가장 중요한 단계입니다. 실험 싸이클이 빠른 조직일 경우, 실험 기간은 1~2주내로 빠르게 실행됩니다.실험 결과 분석/실험 리뷰
: 실험 리뷰는 실험 결과를 분석하고 실험을 통해 얻은 효과를 리뷰합니다. 더 나아가 다음에 진행할 Action과 의사결정 Next Step에 대해 논의합니다.실험이 활발한 조직은 실험 플랫폼을 자체 개발하여 활용하기도 합니다. 실험 플랫폼이 개발된 조직은 국내 뿐만 아니라 글로벌 회사 사례에 많이 등장하는데요. 글로벌 빅테크 기업 중 넷플릭스는 Netflix 실험 플랫폼 XP, 스포티파이는 Spotify 실험 플랫폼 ABBA, Experiment Planner을 자체 개발하여 운영하고 있습니다.
이제 실험 프로세스를 알게 되었다면, 실험 조직의 구조와 실험 문화의 단계를 확인하고 리뷰하는 다음 단계도 중요합니다!
여러분의 회사는 실험 조직의 구조와 실험 문화의 성숙도는 어느 단계에 있다고 생각하시나요? 실험 조직의 구조는 중앙 집중식 구조, 분산 구조, 하이브리드 구조 3가지로 나눌 수 있습니다. 회사 전체의 실험을 주도하고 각 팀의 필요에 따라 실험의 우선순위를 지정하는 중앙 집중식 구조
입니다. 각 팀의 전문가가 다양한 실험 프로젝트를 동시에 실행하는 분산 구조
, 각 팀에 실험 유닛과 전문가가 있는 하이브리드 구조
가 있습니다.
trustworthy online controlled experiments 책을 참고하여, 회사의 실험 문화 성숙 단계
를 다음과 같이 정리해보았습니다.
3단계
: 실험이 민주화된 조직, 사내 개발된 실험 플랫폼이 존재하고 모든 조직이 실험을 주도적으로 하는 단계
이 단계는 실험이 수백번 이루어지고 데이터팀을 제외하고 모든 조직이 적극적으로 실험을 필요로 하고 진행하는 상황입니다.
2단계
: 다른 조직에서 실험의 필요성을 인지하고 데이터 조직에게 실험을 요청하는 단계
1단계
: 실험을 도입하는 단계(실험 관련 툴 도입 등)
0단계
: 실험이 무엇일까요? 아직 실험의 필요성을 인지하지 못하는 단계
실험이 끝나고 나서 실험을 리뷰하는 과정, 실험 프로세스를 최적화하는 과정도 굉장히 중요합니다. 실험을 잘 활용할 수 있는 방법과 실험이 액션으로 이어지려면 중요하다고 생각했던 점을 4가지로 정리해보았습니다.
1) 실험 결과 전사 공유
2) 실험 리뷰/타임라인 문서화
3) 실험 의사결정 트리
4) 실험 결과 대시보드화
데이터 분석가의 실무에서 자주 등장하는 실험에 대해 전반적으로 기초적인 내용을 살펴보았습니다. 가설 정의, 실험 설계, 실험 리뷰까지 실험 프로세스를 간단하게 살펴보았는데요. 실험을 설계하는 과정도 중요하지만 실험 문화를 구축하고 실험을 리뷰하고 실험 프로세스를 지속적으로 최적화하는 과정도 중요합니다. 실험을 도입하는 단계, 사내 플랫폼 구축되어 있는 실험 문화의 단계와 같이 사내 실험의 성숙도가 각기 다를 것입니다. 프로덕트 분석에서 실험은 프로덕트 성장을 이끌어주고 데이터 드리븐 문화의 성숙도를 높여줍니다.
만약 사내에서 실험을 하기 어려운 상황이라면 대체할 수 있는 방법 중 인과 추론을 추천합니다. 이번 글을 통해 실험을 진행해야하는 실무를 하고 계시는 분들에게 도움이 되길 바랍니다. 다음 글은 실험에 대한 실험 종류의 심화 내용으로 찾아오겠습니다.
👋 이 글을 재밌게 읽으셨다면 이 글의 원문 저자의 블로그를 확인해보세요!