요즘은 정말 데이터가 전부인 세상인 것 같습니다. 고객의 정보를 활용하여 맞춤 서비스를 제공하는 것이 당연한 세상이 되었고, 데이터를 잘 활용하지 못하는 기업은 퇴보를 겪고 있습니다. 스타트업부터 대기업까지, 데이터를 잘 활용하기 위해 모두가 심혈을 기울이고 있습니다. 이렇듯 데이터의 활용이 중요해진 세상에서 우리는 과연 데이터를 잘 활용할 수 있는 능력을 갖고 있을까요? 오늘은 데이터 활용 능력과 더불어 어떻게 하면 데이터 활용 능력을 향상시킬 수 있을지에 대한 글을 작성해 보려 합니다.
데이터를 활용하는 능력, 흔히 데이터 리터러시라고 말하는 이 능력에서 중요한 것은 데이터 분석 도구를 얼마나 잘 다루느냐가 아닙니다. 많은 사람들이 ‘데이터 활용 능력’이라고 하면 sql, python, 모델링 같은 기술을 떠올립니다. 하지만 정말 중요한 것은 데이터 활용에 대한 ‘설계’입니다. 즉, 어떤 이유에서 어떤 데이터를 사용할지에 대한 계획이 가장 중요하다는 것입니다. sql이나 python 을 사용하기도 전에 설계라니.. 무슨 뜻일까요?
우리가 올바른 데이터 활용을 하기 위해서 주 의해야 할 설계 방법 3가지 방법을 소개합니다.
데이터를 활용하려면 무엇부터 시작해야 할까요? ‘데이터부터 찾아야지’, ‘공공데이터 포털 가야지’라고 대답하셨다면 접근 방법을 바꿔야 합니다. 데이터가 그냥 답을 주는 경우는 없으니 데이터를 먼저 보아서는 안됩니다.
데이터 분석 이야기하면서 데이터를 먼저 보지 말라니, 의아하시죠? 데이터를 활용한다고 하면 대부분 기존의 차트를 모아보고 여기서 무엇을 알 수 있는지 생각하거나, raw 데이터를 가공하여 시각화하고 여기에서 어떤 인사이트를 얻을 수 있을까를 고민합니다. 그리고 적절한 결론이 나오지 않으면 데이터나 분석 방법에 문제가 있다고 생각해버립니다.
데이터는 어디까지나 하고 싶은 말을 뒷받침하는 근거 또는 해결하고 싶은 문제를 푸는 도구입니다. 데이터를 해석하는 그 자체가 목적이 되어서는 안됩니다.
데이터 활용을 제대로 하려면, 목적에 따라 데이터를 수집하고 분석 및 해석의 과정을 거쳐 결과를 검증하고 결론을 도출하는 목적 중심의 사고방식이 필요합니다. 데이터를 먼저 보게 되면 통계치 이상을 도출해 내지 못할 확률이 커집니다.
아래 이미지는 데이터 활용의 성공과 실패를 가늠하는 두 가지 접근법을 시각화한 것입니다. 데이터를 활용하려고 할 때, 데이터에서 시작하는 것과 목적에서 시작하는 것의 차이를 나타내고 있습니다. 즉, 데이터에서 무엇을 알 수 있을지를 먼저 생각하고 데이터를 가공하는 것이 데이터를 제대로 활용하는 방법이라고 할 수 있습니다.
데이터 활용을 효율적으로 하려면 데이터에서 무엇을 할 수 있을지를 먼저 생각해야 한다.
우리는 데이터를 먼저 보지 않는 것에 대해 질문할 수 있습니다. 데이터를 먼저 보지 않으면 무엇을 할 수 있냐고요. 데이터 활용은 구체적으로 어떤 부분을 알고 싶은지, 어떤 종류의 문제를 해결하고 싶은지 등 문제를 명확하게 정의하는 것부터 시작해야 합니다.
예를 들어보겠습니다. ‘우리 지역의 인구 문제’를 주제로 데이터를 활 용해서 해석한다면 무엇부터 해야 할까요? 우선 데이터를 모을까요? 그렇다면 잘못된 길로 들어서는 것입니다. ‘인구 문제’라는 것의 범위가 상당히 넓기에 ‘어떤 부분에서 어떤 종류의 문제를 해결하고 싶은지’를 먼저 생각해야 합니다.
데이터 활용은 문제를 명확하게 정의하는 것부터 시작해야 한다.
인구 문제라고 한다면, ‘저출산 문제를 해결하거나 완화하고자 한다.’, ‘고령화 문제를 해결하거나 완화하고자 한다.’, ‘인구 유출을 막고 유입을 촉진하고자 한다.‘와 같은 문제를 구체적으로 생각해 볼 수 있지 않을까 싶습니다. 이후에는 구체화한 인구 문제와 관련 있어 보이는 데이터를 모은 다음, 이를 가공해서 시각화하고, 인사이트를 발견해 봅니다. 이때 우리가 주의해야 할 것은 어쩌다 발견한 인사이트를 자랑하고 싶어 하는 것입니다. 인사이트를 발견하면 기쁩니다. 남들이 발견하지 못한 것을 나만 발견한 것 같고,, 성장한 것 같고,, 뭔가 뿌듯함이 밀려들어 자랑을 하고 싶어집니다. 우리는 이 기분을 주의해야 합니다.
인사이트를 발견했다고 해서 모두 제시하는 것은 무슨 말을 하고 싶은지 헷갈리게 할 뿐입니다. 우리가 집중해야 할 것은 문제 해결 과정이며, ‘나는 무엇을 알고 싶은가’, ‘무엇을 해결하고자 하는가’를 명확히 하는 것에서부터 데이터 활용 프로세스를 시작해야 합니다. 문제를 정의하는 과정에서 정답은 없습니다. 그저 자신의 생각을 논리적이고 객관적으로 정리하고, 이를 다른 사람에게 전달했을 때 이해시킬 수 있으면 됩니다.
목적과 문제 정의를 명확하게 했다면, 데이터를 활용하면 됩니다. 데이터를 수집하고 이를 분석하고, 해석하는 과정이 이에 해당하게 됩니다. 정의한 목적과 문제를 분석하기 위해 어떤 데이터를 사용하는 게 좋을까요?
무엇보다 ‘누가, 언제, 무엇을 했는지, 구체적인 행동을 특정할 수 있는지, 구체적인 판단을 내릴 수 있는지’를 고려하여 데이터를 수집하는 것이 좋습니다. 왜냐하면 문제는 항상 행동으로부터 발생하고, 행동으로부터 해결됩니다. 그렇기 때문에 우리는 ‘행동’이 포함된 데이터를 통해 어떤 행동이 문제를 일으키고 어떤 행동으로 문제를 해결할 수 있는지 알아내야 합니다.
데이터를 수집할 땐, 어던 데이터가 효과적일지 충분히 고민해야 한다.
여러 가지 데이터 중에 어떤 것을 활용해야 할지 고민된다면 목적과 사례에 맞춰 생각하는 것이 원칙이고, 한 시점에서 선택하기 어려운 경우에는 몇 가지 지표 데이터를 활용하여 각각 분석을 선행하는 것이 효과적입니다. 분석을 통해 내가 하고 싶은 이야기를 더 명확히 할 수 있는 데이터를 선택하는 것이 또 중요합니다. 우리는 흔히 이 과정에서 문제를 겪게 됩니다. 내가 생각한 데이터가 항상 준비된 것이 아니기 때문입니다.
데이터를 찾기 어려울 때는 (1) 유사한 데이터로 대체 (2) 데이터 수집 시작 (3) 수치화되지 않은 데이터(정성적 데이터)로 대응 등의 방법을 사용해야 합니다. 이도 저도 어려운 상황이라면 어쩔 수 없이 포기해야겠지만, 대체할 만한 데이터가 있을지 고민해 보는 것도 데이터로 문제를 바라보는 데이터 기반의 사고 능력을 기르는데 좋은 경험이 됩니다. 물론 데이터를 찾는 과정에도 정답은 존재하지 않습니다. 내가 이야기하고자 하는 ‘목적’과 ‘문제’를 잘 전달하기 위해 적합한 데이터를 사용하면 됩니다.
데이터를 시각화해서 인사이트를 얻은 다음에는 무엇을 해야 할까요? 아래의 데이터 시각화는 2020년 1인 가구의 연령대별 비중을 나타낸 막대 차트입니다. 지금 이 데이터 시각화를 보고 알 수 있는 정보로 ‘20대 미만의 비중이 가장 낮고 20대 이상의 비중이 가장 높았다’고만하면 단순한 현황 파악, 데이터를 정리한 것에 불과합니다.
2020년 연령대별 1인 가구 비중(데이터 : 통계청, [인구주택 총 조사])
데이터를 분석하고 해석하는 것이라면 단순히 현황 파악에서 그치지 않고 이 데이터를 통한 문제 해결 방안을 수립하거나 구체적인 행동 계획을 세우는 등 납득할 만한 판단을 내릴 수 있어야 합니다. 앞에서 본 것처럼 ‘20대 미만의 비중이 가장 낮고 20대 이상의 비중이 가장 높았다.‘고만하는 것은 데이터를 해석해서 나온 ‘결과’인데요, 이 결과가 얼마나 의미 있는지 설명하는 것이 결론입니다. 데이터를 제대로 활용한다고 하면 차트를 통해 읽을 수 있는 설명(결과)에 그치지 않고 이를 바탕으로 결론을 도출해야 합니다.
물론 정확한 주장을 위해서는 이를 뒷받침할 여러 관점의 데이터가 더 필요하겠지만, 이 데이터의 시각화만을 놓고 보았을 때 ‘20대의 비중이 가장 높은 것으로 보아 대학 진학이나 직장에 다니기 위해 혼자 사는 경우가 많다.‘거나 ‘30대와 40대에 1인 가구 비중이 낮아지는 것은 이 시기에 결혼을 하기 때문이다.’ 또는 ‘연령에 따라 변화하는 1인 가구 비중에 맞춘 정책 수립이 필요하다.‘라는 결론을 이끌어낼 수 있을 것 같습니다. 결과와 결론의 차이, 이해가 되셨나요?
결과에서 결론을 도출할 때는 정보를 집약하는 것은 물론 어느 정도 상상력도 필요하지만 자신의 해석을 필요 이상으로 덧붙이지 않도록 주의해야 합니다. 어디까지나 데이터를 통해 알 수 있는 사실의 범위 내에서 생각해야 합니다. 한 가지 더, 결론은 정답을 찾는 과정이 아닙니다. 내가 무엇을 말하고 싶은지, 어떤 것을 문제로 인식하고 있는지가 명확하다면 적절한 결론이라고 할 수 있습니다.
여기까지 데이터 활용에 대한 내용을 다뤄봤는데요. 여러분은 데이터를 분석할 때 어떤 것이 가장 어려우셨나요? 저는 데이터를 선택하는 것이 가장 어려웠던 것 같습니다. 위 (1)에서 언급했던 목적 없이 데이터부터 찾던 사람이 저였습니다. 데이터를 보고 고민을 해보는 시간이 필요하다는 말에 매일 같은 데이터를 들여다봤던 적도 있었네요. 목적 없이 데이터만 뒤적거리다 보니 점점 문제 해결과는 멀어지기를 반복했습니다. 목적을 갖고 적절한 데이터를 찾는 것, 얻어진 인사이트 전부를 남발하지 않는 것 이 두 가지만 지켜져도 조금 더 수월한 데이터 분석을 진행할 수 있을 것 같지 않나요? 저와 같은 고민을 하는 누군가에게 도움이 됐길 바라며 글을 마칩니다. 긴 글 읽어주셔서 감사합니다.