[통계수치의 마법②] ‘통계의 함정’에 빠지지 않으려면
[아시아엔=이원섭 마컴 큐레이터] 예전에 KOTRA의 웹사이트 이메일 마케팅 프로모션을 한 적이 있었는데 1만명에게 이메일을 보내 답장 이메일이 300건 정도 밖에 안되냐는 (반응률 3% 정도) 질책을 받은 적이 있었다. 우리가 어렸을 때부터 배웠던 고정 관념인 수, 우, 미, 양, 가 식의 평가와 백분율 몇 %의 수치에 익숙해져 있어 적어도 미 정도는 넘어야 보통이고 70% 정도는 되어야 기본이라는 인식을 가지고 있다. 평가적 잣대(기준)가 잘못된 것이다.
당시 세계적 시장조사 전문기관인 가트너사의 자료에 따르면 이메일 마케터들이 옵트-인(사전 메일 발송을 동의받은) 이메일 클릭률이 보통 6%에서 8% 가량이고 KOTRA처럼 옵트-아웃(동의받지 않은) 이메일은 기껏해야 1%의 반응률을 얻을 수 있다는 통계 수치가 있었다. 이 기준에 의하면 약 3배 정도의 우수한 성과를 달성한 것이었다. 그러나 그들 기준에서 3%는 말이 안 되는 성과였던 것이다. 이것이 통계 수치의 함정이다. 기준의 오류이다.
<통계의 함정> 책에서는 이런 사례도 든다. 유방암 검사를 받은 50세 이상의 여성 1000명 중 10년이 지나 사망한 숫자는 4명 정도, 검사를 받지 않은 여성 중에는 5명 사망, 결과적으로 1000명의 여성이 유방암 사망자 수를 1명 줄이기 위해 10년 동안 검사를 받았다는 이야기가 된다.
이 검사 결과를 보여줄 때는 대부분 ‘20% 감소’(5명에서 4명으로)라는 수치를 말한다. 왜냐 하면 상대적 리스크 감소(20%)가 절대적 리스크 감소(1000명 중 1명 감소, 0.1% 포인트)보다 당연히 더 깊은 인상을 주기 때문이다. 만약 1000명에서 1명 감소한 것을 강조했다면 검진으로 목숨을 구할 수 있다는 주장이 설득력을 가질 수 없을 것이다.
오늘날 사회는 숫자와 확률로 표현되고 의미를 전달하지만 이 통계 수치에는 위의 예처럼 많은 거짓 정보를 담을 수 있다. 따라서 통계의 허구와 함정의 의도성을 제대로 파악하지 못하면 상상할 수 없는 부작용을 초래한다. 교묘한 표본을 이용해 기만하려는 자의 의도에 끌려 다닐 수 있다.
<통계의 함정> 저자들은 통계왕국에서 쏟아져 나오는 실수와 오류, 조작의 사례들을 살피다 보면 우리가 얼마나 허위정보에 압도돼 살고 있었는지, 확률과 통계에 얼마나 무심했는지를 깨닫게 된다고 했다.
기업들의 경우도 통계의 오류나 함정에 자주 빠진다. 우리 제품의 대상 고객 기업이 약 150만개인데 우리 능력으로는 전체 중 5%의 능력이 있지만 최소로 잡아 겨우 1%만 가져도 1만 5천, 따라서 각 고객의 월 매출이 10만원만 되어도 월 15억원 매출이 가능하다고 단순 판단한다. 이런 판단으로 과거 중국에 진출했던 기업들이 얼마나 많이 실패를 경험했나?
4차 산업혁명시대에는 정확한 예측도 어렵고 비교 수치도 투입되는 대로, 즉 예전대로 응답(반응)이 일어나던 선형의 데이터가 아니다. 선형적 관계를 가정하고 판단하던 마인드로는 스스로를 함정에 빠뜨리는 위험에 처할 수 있다. 안다고 말하기에는 너무 다르게 나타나는 비선형(nonlinear) 사고와 마인드도 같이 가지고 판단해야 한다.
과거처럼 단순한, 단편 프레임으로 바라보면 안 된다. 융합(convergence)은 물론이고 결합, 교차의 복잡한 프레임으로 보려고 노력해야 한다. 그래야만 오류와 함정에 빠지지 않는다. 초연결 빅데이터 시대에 맞는 멀티 프레임, 복합 프레임을 가져야 한다.
이제 새로운 시각과 냉철한 마인드로 통계와 수치를 판단해야 한다. 데이터들을 제대로 보겠다는 생각과 분석, 파악할 수 있는 눈이 빅데이터 시대에 빅데이터를 만들 수 있다. 통계 수치가 필요한 것이 아니고 그 지식과 지혜의 인사이트(insight, 통찰)가 필요하다.
끝으로 게르트 기거렌처, 발터 크래머, 토마스 바우어 공동 저자들이 말하는 통계를 대하는 바람직한 태도를 정리한다. 일명 정보 왜곡과 조작에 성공적으로 대처할 수 있는 황금률이다.
1. 각각의 통계를 만드는 사람이 누구인지, 그가 거기서 노리는 목표가 무엇인지 항상 의문을 품을 것.
2. 상관관계와 인과관계를 절대 혼동하지 말 것.
3. 제로 리스크 환상, 즉 모든 리스크를 완전히 배제하려는 시도를 피할 것.
4. 퍼센트의 바탕에 주목할 것. 무엇에 대한 퍼센트인가?
5. ‘과학적으로’ 또는 ‘유의미한’이라는 형용사의 남용을 조심할 것.
6. 표본조사에서는 표본의 대상이 누구인지, 그리고 누가 대상이 아닌지를 주의할 것.
7. 증가율을 절대 산술적 수치로 생각하지 말 것. 60% 이상과 50% 이하의 평균은 5% 이상이 아니다.