일을 하면서 그리고 생활 속에서도 우리는 다양한 숫자들을 마주하게 되는데요. 혹시 그 숫자들에 속고 있다는 생각을 해보신 적은 없으신가요?
이번 글에서는 우리가 일상에서 마주하게 되는 그리고 회사에서 업무를 하면서, 데이터 분석 결과를 확인하면서 흔히 속게 되는 데이터의 함정들에 대해서 알아보려고 합니다.
종종 신문을 보다 보면 평균 연봉에 대한 기사를 볼 수 있는 데요. 그 기사를 보면서 내 연봉을 비교해보고 자괴감에 빠지다가, “뭐 평균이라 그렇지 누군가 한 명이 엄청 큰 연봉을 받고 있는 걸 거야”. 라고 생각하며 정신을 차릴때가 있는데요.
평균이라는 게 분명 가장 많이 그리고 흔히 쓰이는 대표값이라는 사실에는 누구도 반론의 여지는 없겠지만, 또 평균이 현상을 정확하게 설명해주지 않는 다는 사실 역시 많이 알고 있을 거에요.
우선 아래의 예시를 한 번 살펴면서 자세히 얘기해 볼 게요.
✔︎ A사 : 평균 연령 32세, 평균연봉 8,000만원✔︎ B사 : 평균 연령 35세, 평균연봉 5,100만원
이 두 기업의 정보를 훑어 봤을 때 어떤 기업에 더 가고 싶으신가요? 혹은 어떤 기업이 더 좋아보시나요?
아마 A사가 더 젋고, 연봉도 높아보이니 훨씬 좋은 회사라고 생각하게 될 거 같은데요. 이렇게 생각하는 게 정말 올바른 해석일까요?
평균은 A사가 훨씬 높지만, 실상은 임원들을 빼면 대다수 20대 초반의 젊은 직원들의 연봉은 대표의 1/5에도 못미치죠.
평균으로 봤을 때는 훨씬 좋아보이던 A사가 실상은 그렇지 않다는 걸 알 수 있는데요. 오히려 B사가 괜찮게 느껴지실거에요. 이렇듯 단순히 평균만으로 판단했을 때에는 해석의 오류가 생길 여지가 있습니다.
평균이 분명 가장 널리 사용되는 대표값이긴 하지만, 그 외에 ‘중앙값’이나 ‘최빈값’이라는 말도 들어보셨을 거에요.
중앙값은 수치 집합의 원소를 작은 순부터 큰 순서대로 정렬했을 때 가운데에 위치하는 값인데요. 위의 이미지로 생각하면 A사의 경우 임 원2와 직원1의 연봉의 평균인 6,500만원이 되겠네요. B사의 경우는 4,900만원이 되구요. B사의 경우는 큰 차이가 없지만 A사의 경우는 그래도 평균과의 차이가 꽤 나게 되죠.
최빈값은 수치 집합의 원소가 가장 많은 원소가 포함된 범위의 값이라고 생각하면 됩니다.
이런 다른 대표값들도 같이 확인해야 평균이 주는 함정에서 빠져나올 수가 있죠.
대표값인 평균은 진실을 ‘잘’ 요약해 주지만, 모든 진실을 완벽하게 반영하는 것은 아니라는 점을 기억해야 합니다
통계의 함정과 약간은 비슷할 수 있는 또 다른 함정이 있는데요. 바로 심슨의 역설(Simpson’s Paradox)입니다.
내 프로덕트의 지표를 분석한다고 생각해보면, 자주 고민하게 되는 문제중 하나일 텐데요. 매일매일 지표가 나가는 데 이걸 일주일 합산을 보고 싶다고 한다면, 이미 계산된 데일리 지표의 평균을 일주일치 모아서 다시 평균해서 나갈지 아니면 일주일치의 데이터를 모두 합해서 평균을 새로 계산해야 할 지에 대한 고민이과 비슷하다고 생각되는데요.
매일매일의 지표를 평균하면 그 매일의 성과가 평균이 되어서 나가는 것이 되고, 일주일치를 다 합산해서 평균을 다시 구하게 되면 일주일 중에 클릭이 많거나, 전환이 많았던 날, 혹은 배속이 유난히 많았던 날이 전체 평균을 좌우하게 되겠죠.
데이터의 세부 변수들을 확인하지 않는 다면 의도했던 결과와는 전혀 다른 결론을 내릴수 있다는 점을 명심해야 합니다
우선 내가 회사의 차량 개발 담당자라고 생각해볼게요. 회사의 주요 제품은 1리터에 10km을 달리는 SUV차량과 1리터에 20km을 달리는 세단 차량이 있다고 가정 해보겠습니다. 요즘 대세인 ESG를 따라가기 위해 기존 제품의 연비를 절감하는 목표를 할당 받았다고 생각해볼게요.
아래의 상황을 봤을 때 어떤 모델을 업그레이드 하는 게 좋을까요?
A. 연비가 10km/ℓ인 SUV를 20km/ℓ로 향상시킨다B. 연비가 20km/ℓ인 세단은 50km/ℓ로 향상시킨다
위의 문장만 놓고 직관적으로 생각해본다면 B가 더 좋은 결정이라는 생각이 들거 같은데요. 연비의 상승폭으로 볼 때 30km/ℓ의 증가가 10km/ℓ증가 보다 훨씬 크기 때문이죠. 백분율로 생각해도 100% 향상인 A의 결과보다, 150% 향상되는 B의 결과가 더 좋아보입니다.
결국 단수히 숫자의 관계를 보고 대략적으로 파악하는 게 아닌 실제로 계산해보고 또 시각화해 그려보면서 데이터들의 관계를 파악해야 할 필요가 있습니다.
데이터나 수치들을 통한 생각들을 할 때 흔히 빠질수 있는 몇가지 함정들에대해서 살펴보았는데요. 이번 글을 작성하면서 생각보다 쉽고 흔하게 수치들이 주는 함정에 빠져서 잘못된 결론을 내리는 경우들이 있다는 생각이 들었습니다. 어떤 데이터를 접하게 될 때 단편적으로 바라보고 결론을 내는 게 아니라 좀 더 다양한 관점에서 데이터를 뜯고 맛보아야 할 것 같다는 생각이 드네요.
위의 내용들을 좀 더 자세하게 확인하고 싶다면 글을 쓰면서 주로 참고한 아티클 목록을 아래 작성해두었으니 살펴보아도 좋을것 같습니다.