본문 바로가기
정신체조수학

통계의 허와 실

by mathpark 2023. 2. 27.

 

방대한 데이터를 그대로 방치하면 하나의 쓰레기와 같지만 데이터를 정리하여 자료로 요약하면 영향력을 가진 막강한 숫자로 작용하게 된다. 막강한 숫자로 이루어진 통계 자료는 객관성 있는 정보를 제공해 줌으로써 여러 가지 판단에 도움을 주는 이점이 있지만 자칫하면 거짓말을 정당화할 수 있는 수단으로 악용될 가능성이 많다.

숫자는 거짓말을 하지 않지만 거짓말쟁이는 그럴듯한 수치로 사람들을 현혹한다.”는 말이 있듯이 통계가 주는 이점에 반해 위험 요소도 참 많다. 이를 대변이라도 하듯이 일찍이 영국 총리를 지낸 벤저민 디즈테일리는 세상에는 세 가지 거짓말이 있다. 거짓말, 새빨간 거짓말, 그리고 통계.”라는 말을 했고, ‘통계라는 이름의 거짓말이라는 책의 서문에는 통계는 신용을 잃었다.”는 말이 나온다.

이처럼 통계라는 것이 때에 따라 진실을 왜곡하기 위해 그 수치를 과장하거나 축소하여 거짓말의 도구가 되기 때문에 우리는 이제 통계로 주어진 정보를 접할 때 데이터를 올바르게 이해하는 방법뿐만 아니라 통계 속에 감춰진 나쁜 의도를 알아차리는 연습까지도 병행해야 한다.

소위 통계의 오류라 불리는 몇 가지 사례를 소개하면 다음과 같다.

 

평균의 오류

모집단의 분포가 고르지 않은 이상, 평균을 모집단의 대푯값으로 정하는 것은 때에 따라 매우 위험하다. 이를 평균의 오류라 하는데 평균의 오류로 인해 극단적인 결말을 가져온 이야기가 있다.

전쟁을 치르는 지휘관이 강가에 다다랐다. 강을 건너기 위해 그 강의 평균 수심을 물었더니, 한 부하가 강의 평균 수심은 1.4m이고 병사들의 평균 키는 1.6m입니다.”라고 답했다. 1.41.6이라는 수치만 생각하고서 모든 병사가 강을 충분히 건널 수 있다고 판단한 지휘관은 부하들에게 행군을 명하게 된다. 하지만 안타깝게도 강 가운데의 수심은 평균보다 훨씬 깊었고, 그곳에서 병사들이 모두 물에 빠져 죽고 말았다.

평균의 오류에 대한 또 다른 예를 살펴보자.

어느 한 구단의 프로야구 선수들이 구단주와 갈등이 생겨서 파업을 한 일이 있었다. 구단주 측에서는 평균 연봉이 120만 달러나 되는 선수들이 파업을 했다는 식으로 발표했고, 선수들은 비난을 받을 처지가 되었다. 하지만 120만 달러에는 심각한 오류가 숨어 있었다. 당시 선수들은 30만 달러 정도만 받는 경우가 대부분이었는데 몇몇 스타 선수들의 몸값이 턱없이 높다 보니 평균 연봉이 120만 달러나 된 것이었다.

평균의 오류를 야기한 기사는 일상적인 기사에서도 비일비재하게 다뤄지고 있다.

대기업 사원의 평균 연봉’, ‘농어촌 가구당 평균 소득’, ‘가구당 평균 사교육비등등 제목만 보아도 평균 수치가 어떻게 작용할지 짐작될 것이다.

 

편향된 통계 자료의 오류

1936년 미국 대통령 선거 때, ‘리터러리 다이제스트잡지사에서 여론 조사로 큰 실수를 저질렀다. 공화당의 랜던 후보와 민주당의 루스벨트 후보에 대해 실시한 설문이었는데 표본과 방법에 대해 100% 신뢰를 가지고서 랜던 후보가 당선될 것이라고 확신을 갖고 예언한 것이다.

그러나 실제 투표에서는 루스벨트가 압도적인 표 차이로 대통령에 당선되었고, 그 잡지사의 여론 조사는 왜곡의 가능성을 의심받게 되었다. 무엇이 문제였을까?

이에 대한 여러 사후 조사에서 밝혀진 바로는 여론 조사의 왜곡은 바로 표본추출에 있어서 객관적이지 못했다는 것이었다. 그 잡지사는 무작위의 전화 통화나 잡지 구독자의 설문을 통한 표본조사로 후보의 지지율을 조사하였는데 실제 1936년 당시에 전화를 소유하거나 잡지를 구독할 만한 사람들이란 특별한 층의 사람들이었던 것이다. 이 특별한 층의 사람들은 대부분이 공화당을 지지하였기에 결코 투표자 전체를 대표하는 표본은 될 수 없었던 것이다. 이를 통계에서는 편향된 통계 자료의 오류라고 한다.

편향된 통계 자료의 오류에 관한 또 다른 예로 다음 기사를 살펴보자.

“교통사고 원인 1위는 휴대 전화 사용”
운전 중 휴대 전화 사용이 교통사고의 가장 큰 원인인 것으로 나타났다.
○○병원 관절센터팀은 최근 교통사고로 병원을 찾은 환자 326명을 대상으로 사고 원인을 조사한 결과 전체의 31%(101명)가 본인 또는 상대방(가해자)이 운전 중 휴대 전화를 사용하다가 사고를 낸 것으로 나타났다고 20일 밝혔다. (하략)

 

위의 기사의 가장 큰 오류는 ○○병원이라는 단 한 곳의 환자만 표본으로 잡고서 마치 전체를 대표하는 듯하게 발표하였다는 것이다.

더구나 ○○병원 관절센터의 교통사고 환자들은 교통사고 원인을 조사하여 그 통계를 내는 데 매우 부적절한 표본이다. ‘관절센터의 환자들이니만치 다른 진료(내과 등등)를 받는 교통사고 환자들이 배제되어 있을 것이며, 사고가 크게 나서 아예 사망한 사람들도 제외되어 있다. 그런데도 운전 중 휴대 전화 사용이 교통사고의 가장 큰 원인이라고 아무런 단서 없이 일반화를 꾀한 것이다.

비록 운전 중 휴대 전화 사용 자제에 대한 경각심을 불러일으키기에는 좋은 기사일지 몰라도 정확한 자료를 통해 정확한 정보를 전달해야 할 의무를 저버린 것이다.

 

- 발췌 및 수정 : 《숨마쿰라우데》

 

- 관련글 : 2011.04.25 - [정신체조수학] - 숫자도 때로는 거짓말을 한다.

 

 

 

 
728x90

'정신체조수학' 카테고리의 다른 글

원에 관한 여러 이야기  (0) 2023.08.08
삼각비의 어원과 탈레스  (0) 2023.07.25
제논의 역설  (0) 2023.02.24
지수와 로그의 실생활에서의 활용  (2) 2023.01.04

댓글