천문학자인 형과 공원을 산책하다가 제가 하는 일에 대해서 이야기를 나누게 됐어요. 데이터 과학이라는 단어를 써서 제가 하는 일들을 설명했는데 형이 이런 질문을 하더라구요. “과학도 데이터를 사용해서 연구를 하는데 왜 데이터 과학은 데이터를 앞에 붙이는거야?”라는 질문을 들었어요. 지금까지 데이터 과학이라는 단어를 정말 많이 사용했지만, 과학과 다르게 왜 앞에 데이터라는 단어를 붙이게 되었는지 생각하게 됐어요.
과학과 데이터 과학. 둘 다 정의내리기 쉽지 않은 분야라는 사실을 깨닫게 됐어요. 무엇인가에 대해서 이해하려면 비교 하는게 도움이 되는데 이 참에 둘 사이의 차이에 대해서 생각해보게 됐어요.
과학은 연구를 통해서 새로운 사실을 발견하고 논문으로서 그 사실을 공표하는데요. A/B 테스트를 백번 넘게 했던 저로서는 비즈니스가 과학적 방법론을 차용했다는 생각이 들더라구요. A/B 테스트에서는 가설을 세우고 대조군과 실험군을 나눠서 측정하고 가설을 검증하잖아요? 사실 이런 연구 방식은 사회과학이나 의학계의 실험과 많이 닮아있어요. 어떤 약의 효과를 검증하기 위해 대조군과 실험군을 나누고 측정을 한다는 사실은 익히 알려져있어요.
하지만, 데이터 과학이 꼭 가설을 기반으로 검증하는 방법만 사용할까요? 그렇지는 않아요. 측정할 수 없던 무엇인가를 측정하게 만드는 것 만으로도 새로 알게 되는 사실이 많고, 이미 모여져 있는 데이터를 탐험 (보통 EDA라고 부르죠) 하는 것으로도 알게 되는 사실이 많죠. 꼭 과학적 방법론을 사용하지 않는다고 해서 새로운 사실을 발견하지 못하는 건 아니에요. 데이터 과학이 데이터를 통해 비즈니즈와 관련된 새로운 사실을 알아내는 과정이라면 과학적 방법론을 사용하지 않은 사례들도 충분히 데이터 과학이라고 부를만 해요.
과학은 기본적으로 새로운 지식의 발견에 초점을 맞추고 있어요. 과학자가 어떠한 사실을 발견했다고 해서 그 사실이 사회에 이롭게 사용되려면 무엇을 해야하는지 보통 제시하지는 않아요. 하지만 비즈니스에 몸담고 있는 데이터 과학자라면 발견한 사실이 사용되지 않는다면 그 가치가 없다는 것을 깨달았을 거에요. 데이터 과학자는 회사에 고용된 다른 사람들처럼 비즈니스를 개선하고 유지하는데 필요한 일을 하기 위해 고용된 것이에요. 따라서 데이터 과학은 과학에 비해 더 실용적인 면에 초점을 맞추는 경향이 있어요.
균형적인 사고를 위해 이러한 예시를 생각해봐요. A라는 데이터 과학자가 X라는 사실을 발견했어요. 하지만 그 X는 곧바로 비즈니스에 활용되지는 않았어요. 하지만 B라는 데이터 과학자가 X를 보고 활용해서 Y라는 사실을 발견했어요. Y는 곧바로 비즈니스에 활용되어서 비즈니스에 큰 영향을 끼쳤어요. 그렇다면 X는 가치가 없다고 할 수 있을까요? 어떠한 지식이 비즈니스에 영향을 어떻게 끼쳤는지는 사실 판단하기가 쉽지 않아요. 많은 지식이 쌓여있을수록 더 많은 사람들이 새로운 아이디어를 얻거나 새로운 사실을 발견하기가 쉬워질 수도 있어요. 이런 측면에서 생각해보면 논문으로 새로운 사실들을 모아놓는 과학계와 유사한 면이 있어요.
과학도 많은 연구에서 측정을 통해 데이터를 수집하고 그 데이터를 분석해서 기존의 가설을 검증해요. 보통 그 측정 방식을 만들고 고도화해나가는 과정을 과학이라고 인정하지는 않아요. 하지만 데이터 과학에서는 데이터의 수집과 정제 그리고 데이터의 품질 등은 핵심적인 부분이라고 인정해요. 누군가 데이터의 수집과 정제 과정을 크게 개선했다면 데이터 과학 분야에서 큰 성과를 냈다고 할 수 있으니까요.
이러한 차이가 생기는 이유는 (1) 데이터의 크기와 (2) 지속적 개선의 여부와 관련이 있을 거에요. 메타나 구글과 같은 서비스에서는 데이터의 크기가 상상을 초월해요. 그야말로 빅데이터라고 할 수 있어요. 이 정도의 데이터 규모에서는 단순히 숫자를 세는 것만해도 엄청난 컴퓨팅 리소스가 필요해요. 그래서 데이터 과학은 컴퓨터 과학과 뗄래야 뗄 수 없는 관계가 형성이 되는 것 같아요. 그 정도의 큰 규모의 데이터를 효율적으로 저장하고 조회하려면 컴퓨터 과학은 필수적이니까요.
또한, 비즈니스에서는 일회성으로 데이터로 사실을 발견하고 끝나지 않아요. A/B 테스트를 다시 한 번 떠올려보면 많은 회사에서 제품을 만들어가는 대부분의 의사결정 과정에서 과학적 방법론을 채택하고 있어요. 만약 제품을 만들어가는 1000개의 의사결정 중에서 800개의 의사결정을 데이터를 통해서 했다고 하면, 이 데이터는 사실 제품의 일부로 보는 것이 맞아요. 따라서 데이터 과학은 그 자체로 제품 개발의 과정에 참여하고 있다고 볼 수 있어요.
과학은 많은 경우 동료 과학자들의 리뷰를 받고 그 분들의 인정과 활용을 통해 각자의 작업이 가치가 생겨나요. 데이터 과학자들이 이야기하는 대상은 회사의 거의 모든 사람이에요. 데이터는 회사 프로세스와 부서 곳곳에 녹아있어요. 데이터를 통해 새로운 사실을 알고자 하는 사람은 거의 모든 직군이에요. 과학자가 아닌 사람들과 이야기하고 그들과 함께 데이터를 활용해나가는 입장에서 데이터 과학자는 과학자와 일하는 방식이 많이 달라져요.
예를 들어, 데이터 과학자는 논문이라는 형태를 고집하지 않아요. 논문이라는 형태를 쓰고 읽도록 훈련된 사람들이라면 논문으로 소통하는 것에 큰 문제가 없을 거에요. 오히려 같은 형태를 쓰기 때문에 소통하는 것이 더 빠를 수도 있어요. 하지만 100개의 직군과 하나의 형태로 소통할 수는 없어요. PM과 소통하는 방법, 경영진과 소통하는 방법, 엔지니어와 소통하는 방법이 모두 다를 수 밖에 없어요.
따라서 데이터 과학에서는 의사소통을 큰 역량으로 생각할 수 밖에 없어요. 새로운 사실을 발견했지만 사용되지 않는 이유는 그 사실이 별로 의미가 없어서일수도 있지만 사람들이 이해를 못해서 일수도 있어요. 새로운 사실을 발견하는 것만큼 모든 사람이 이해할 수 있게 쉽게 만드는 것도 중요해요. 저도 일할 때 이런 이유로 때로는 정확성보다는 명확성을 추구하게 되더라구요. 물론 데이터는 이렇게 다양한 사람들이 서로 잘 소통하게 만들어주는 중요한 역할을 담당하기도 해요.
이렇게 데이터 과학과 과학의 차이를 살펴봤는데요. 비슷한 점도 많고 다른 점도 많아요. 하지만 과학이라는 것에 대해서 사람들마다 생각하는 것이 같을까요? 생각보다 사람들은 과학을 다 다르게 생각하고 있어요. 또한 과학이라는 범주 내에서도 시대에 따라 분야에 따라 정말 다른 것들이 많아요. 과학이라는 것을 그렇다면 하나로 정의할 수는 없을까요?
“사피엔스“의 과학혁명에 관해 읽으면서 과학의 정의에 대해서 새롭게 생각하게 된 것이 있어요. 대항해 시대 이전 시대의 사람들은 지도를 그릴 때 비어있는 부분이 없이 그렸다고 하더라구요. 하지만 과학의 시작과 더불어 대항해 시대에는 지도의 빈 공간을 그렸다고 합니다. ”우리는 세상을 모른다“라는 생각을 사람들이 하게 된 거죠. 과학은 어쩌면 ”모르는 것“을 인정하고 ”새로운 것을 알기 위해 탐험“하는 것이 아닐까 싶었어요.
그렇게 생각한다면, 사용자에 대해서 모른다라고 인정하고 사용자에 대해서 알기 위해 노력하는 분들 모두 과학을 하고 있다고 볼 수도 있어요. 과학과 데이터 과학에 대한 통념이 우리를 가둬두지 않게 하는 것도 중요하다는 생각이 들더라구요. 저도 앞으로도 ”모르는 것이 많다“라는 것을 잊지 않고 과학을 하면서 살아가고 싶다는 생각을 하며 글을 마쳐봅니다.