부제: A/B 테스트의 가장 찾기 힘든 파라미터를 알아보기
이 글은 개인 블로그에 먼저 작성된 글입니다.
이번 글은 제가 작성한 글이 아닌, Facebook에서 Product Growth Analyst로 계신 Dennis Meisner 님의 글을 허락을 받고 번역한 글입니다.
원문 How to set the Minimum Detectable Effect in AB-Tests 는 이 링크를 통해 확인 할 수 있습니다.
(Image from Unsplash.com)
“이번 실험의 Minimum Detectable Effect Size는 어느 정도로 정해야 할까요?”
프로덕트 팀과 A/B 테스트를 진행하면서 겪게 되는 골치 아픈 부분 중 하나는 Minimum Detectable Effect (MDE
) 값을 정하는 것입니다. 이 MDE
라는 단어가 의미하는 것은 뭘까? 부터 이번 실험에 대한 값을 어떤 것으로 정해야 할까? 까지는 많은 헷갈림이 있죠.
이번 글에서는 MDE
의 의미와 MDE
의 실험 결과에 대한 영향 그리고 적당한 MDE
값을 설정하는 방법에 대해 다뤄보고자 합니다.
역주) 최소 검출가능 효과
라고 번역되기도 하는데요, 원어 그대로 사용하겠습니다.
A/B 테스트를 진행하며 얻어야 하는 최소 관측 수 (데이터
혹은 sample size
)를 결정하기 위해서, MDE
는 반드시 계산되어야 합니다. 동시에 A/B 테스트가 최소 관측 수만큼 진행되기 전까지는, 결과를 분석해서는 안되기도 합니다.
때때로 MDE
는 단어의 의미 그대로 감지 할 수 있는 최소의 효과 (Smallest effect possible that can be detected)로 해석되기도 합니다. 그러나 만약 특정 실험의 Effect size
가 (정해져야 하는) MDE
보다 작다면, A/B 테스트는 유의미한 결과를 만들어 낼 수 없고, 이는 실험이 false results
를 만들어 낼 수 없음을 의미합니다.
MDE는 A/B테스트에서 감지할 수 있는 가능한 가장 작은 “효과”가 아닙니다.
A/B 테스트에는 여러 가지 “우연과 확률에 따른” 불확실한 요소들이 있습니다. 다행히 우리는 유의수준 (level of significance
) 과 같은 파라미터를 통해 이 불확실을 어느 정도 제어 할 수 있습니다.
이 파라미터를 통해 실제로는 효과가 없지만, 실험에서 유의한 효과가 있다고 말할 수 있는 확률을 정할 수 있습니다. 실제로 A와 B에서 유의미한 효과가 없었음에도 통계적으로 (우연에 의한) 유의함은 확인할 수 있음을 고려하면, A/B 테스트는 effect
가 MDE
보다 작더라도 유의미한 결과를 만들어 낼 수도 있습니다.
또 다른 파라미터는 검정력으로 (level of power
), 실제 유의미한 결과가 있을 때 이를 실험을 통해 유의미한 결과를 얻을 확률을 결정합니다.
역주) 이 둘은 Alpha 와 Beta라고도 불리며 이해를 위해 아래의 그림을 첨부합니다.
from https://testview.wordpress.com/tag/significance/
유의수준(significance
)과 MDE
를 통해 실험에 필요한 최소한의 샘플 사이즈를 결정 할 수 있습니다. 이를 고려하면 Minimum Detectable Effect
의 정의는 아래와 같이 다시 표현될 수 있습니다.
MDE는 특정 확률로 탐지해야 하는 최소 효과 “크기”입니다.
문헌에서는 위 정의에 더 잘 맞는 Minimum reliably Detectable Effect
라는 단어로 표현되기도 하는데요. 어쨌든 정리하자면 MDE
는 실험에서 우리가 원하는 효과 크기 (effect size) 는 아닙니다.
이 질문에 대답하기 위해 한가지 상상을 먼저 해보겠습니다.
나사를 만드는 공장에서, 생산되는 나사의 50%가 저품질이라는 가설을 검증하고 싶다면 몇 개의 나사를 검사해야 할까요? 몇 개가 되든 간에 생산되는 나사의 2%가 저품질인지를 검증할 때보다는 적을 것입니다.
이 생각은 A/B 테스트에도 적용해 볼 수 있습니다. 우리가 확인하고자 하는 효과가 작을수록, 결론을 내기 위해 더 많은 수의 샘플을 수집해야 합니다. 그리고 더 많은 샘플은 실험 시간이 더 길어짐을 의미합니다. (우연히 나타날 수 있는 더 작은 차이를 확인하기 위해서는 더 많은 샘플이 필요합니다.)
A/B 테스트는 특정한 (기능, UI 등) 변경에 대한 비즈니스 리스크를 제어하는 방법입니다. 그리고 이 A/B 테스트에는 우리의 일부 고객(대조군)에게 조금은 덜 좋은 경험을 하게 하는 기회비용과 같은, 시간과 연관된 비용이 있습니다. 당연하게도 이 비용은 실험이 길어지면 길어질수록 더 증가합니다.
때때로 MDE
를 너무 낮게 설정하는 경우, 우리는 실험에 쓰이는 돈과 시간이라는 비용을 낭비할 수 있습니다.
프로덕트 팀이 웹사이트에서 유망한 MVP를 테스트하고 있다고 상상해볼까요? 기능을 새롭게 변경하기 위해 구현하는 것은 어쩌면 사용자 전환율이 많이 증가하게 할 수도 있습니다. 이는 동시에 개발 작업에 수개월이 필요한 위험한 도전이기도 하죠. 이 경우, 팀에서는 개발에 들어가는 비용을 “뽑아내기 위해” 새로운 기능이 전환율을 5% 이상 높여야 한다고 가정해보겠습니다.
따라서 5% 에 비해 낮은 MDE
를 설정하는 것은 테스트의 근본적인 원인 (비즈니스의 근본적인 원인이기도 한 매출입니다) 을 고려하지 않기도 했지만, 이 MDE
를 확인하기 위해 테스트를 오랫동안 해야 하기도 합니다. (이 경우 overpowered
라고 표현합니다)
당연히 A/B 테스트가 유의미한 효과를 잘 감지 할 수 있는지에 대해서 통계적으로 잘 설정되어 있는지도 고려해야 하겠죠.
이번에는 전환율을 높이기 위해 웹사이트의 바로구매 버튼의 문구를 바꾸는 실험을 해본다고 가정해보겠습니다.
이번 실험에서는 전환율이 50% 이상 증가 했을 때 감지 할 수 있도록 A/B 테스트의 power
를 설정했다고 가정해보겠습니다. 이제 테스트는 실제로 긍정적인 효과를 나타냈다고 하더라도 유의미한 결론을 내기는 어려울 가능성이 매우 높습니다. (25%의 상승이 있어도 50%라는 기준에 모자라 감지가 어렵습니다) 결국, 변경 사항이 차이를 내지 않는다는 잘못된 결론을 내리고 이전 버전의 바로구매 문구를 계속 사용하게 될 것입니다. (이 경우 underpowered
라고 부릅니다)
위의 예시들로부터 알 수 있듯, 적당한 MDE
는 팀의 상황과 실험에 따라 크게 다릅니다. 그렇기 때문에 실험에 연관된 리스크와 비용, 예상되는 결과들로부터 고려해볼 수 있죠. (정해진 MDE
값은 없습니다!)
우리의 실험을 위한 MDE
는, 실험을 위한 기능의 구현을 정당화할 수 있는 가장 작은 효과여야만 합니다. 물론 실험을 통해 더 많은 것을 배우기 위해 overpowered test를 만들 수도 있지만 이에 따르는 위험과 기회비용도 같이 고려해야 합니다.
정확한 수치는 어떻게 찾을 수 있을까요? 이는 간단한 ROI
(return on investment) 계산을 통해 이뤄집니다. 아래의 매우 매우 간단한 상황을 고려해보겠습니다.
이러한 수치에 기반하여, 기능의 “손익분기점”을 넘기 위해서는 연간기준으로 약 25,000개 의 보험을 판매해야 하며 이는 예약의 3.42% (25000 / 730000) 가 보험을 추가해야 한다는 계산을 할 수 있습니다.
보험 전환율이 실험의 주요 지표일 경우 3.42% 가 합리적인 MDE
가 될 수 있습니다. 이보다 낮은 값은 실험 기간이 늘기도 하지만 팀에 도움이 되지 않으며 (underpowered) 이보다 너무 높은 값은 기회를 놓칠 수도 있습니다. (overpowered)
많은 A/B 테스트에서 파라미터는 실무상에서 표준으로 쓰이는 값들로 결정됩니다. 가령 유의수준은 (significance level
) 95%, 검정력은 (power
) 80% 등이죠. 이러한 “기본” 값을 맹목적으로 사용하는 것은 권장되지 않는 행동이지만 합리적인 값을 찾는 과정으로는 괜찮습니다.
아쉽게도 MDE
에는 이러한 표준이 없기 때문에, 적절한 MDE
값은 뭘까? 라는 질문은 각각의 A/B 테스트에 대해 계산되어야 합니다. 이는 팀의 모든 구성원이 이러한 파라미터들의 의미와 이를 설정하는 방법들을 알고 있는 것이 더 중요하다는 것을 의미하기도 합니다.
때때로 실험의 기간이 먼저 정해지고 이에 맞춘 MDE
를 결정해야 할 수도 있습니다. 실험을 일주일 혹은 특정 동안 하는 데에는 충분한 이유가 있을 수 있습니다.
그러나 이러한 관행은 실험을 over / underpowered로 만들어 비즈니스에 결국 더 큰 위험 혹은 기회비용을 초래할 수도 있습니다. 따라서 가능하면 비즈니스의 상황을 고려하여 먼저 MDE
를 결정한 후, 샘플 크기와 실험의 기간을 MDE
에 맞추어 설정하는 것이 권장됩니다.
Finding the right Significance Level for an AB-Test
AB-Testing Challenges in Social Networks
Statistical Methods in Online AB-Testing by Georgi Georgiev