같이 보고 싶은 책 찾기/How to Lie with Statistics (통계로 거짖말 하기)

3장, 잊혀진 소수 (The Little Figures That Are Not There) [1 / 2]

parkindresden 2025. 10. 1. 06:52

  광고에 Doakes’s 치약을 쓰면 “충치가 23% 줄어든다”고, 독립된 기관에서 나온 자료라니 믿어야 하나… 하지만 치약 하나 바꿔서 충치를 이만큼이나 줄일 수 있다니 살짝 의심이 가지(?). 거의 1/4로 줄어드는 건데 사실이라면 치과의사들은 다른 직업을 찾아봐야 하지 않을까 싶어. 

그래서 작은 글씨를 자세히 보면, 겨우 12명의 임상 실험 결과야. 문제는, 12명 표본에서 나온 23%는 정확한 값이 아닐 수 있고, 작은 표본의 편차에서 오는 오류로 회사에 가장 유리한 값을 취했을 뿐이며, 모든 사람들 (모집단)이 사용했을 때의 실제 결과와는 매우 다른 결과 인거야. 실제 결과가 23%가 아니라 2% 줄어드는 것이라면 누가 새 치약에 관심을 기울이겠어.   

통계적으로 너무 적은 표본(샘플, sample)은 편차(deviation)에서 자유로울 수 없어. 

과장된 치약 광고

 

  소아마비 백신(polio vaccine)의 효과를 확인하기 위해, 1,130명 어린이 중 450명에게는 백신을 주사하고 680명은 주사하지 않았어, 얼마 후 소아마비가 유행처럼 지나갔는데 결과는… 

백신을 맞은 어린이는 모두 무사했고, 백신을 맞지 않은 어린이들도 모두 무사했어 🤔. 

이 실험의 문제는 1,130명의 표본이 크다고 생각했지만, 이 정도 크기의 표본에서는 일반적으로 2명 정도가 소아마비에 걸릴 정도로 감염률이 낮아 실제로 유의한 결과를 얻기 위해선 50배 정도 (>50,000명) 이상의 표본이 필요한 실험이었어.    

 

  그럼, 작은 표본 수로 편차가 심해 잘못된 결론을 내기 쉬운 오류는 어떻게 피할 수 있을까? 

표본조사 수치 또는 평균에 추가해 ‘표본오차(선택한 ‘신뢰수준’ 내에서의 Standard Error, SE)’, 또는 최고와 최소 차를 보여주는 ‘범위(Range)’에 대한 정보가 있으면 좀 더 정확하게 이해할 수 있어. 

 

  * 통계에서 ‘신뢰수준(Confidence level)’ 95%(2𝝈, 2 sigma)란 말은 같은 조사나 실험을 100번 반복했을때 95번은 ‘신뢰수준’ 이내의 결과 즉, 95번은 모집단의 실제 값이 포함 된다는 거야. ‘신뢰수준’ 68%(1𝝈)은 100번 반복 실험에서 68번은 모집단의 실제 값이 포함되고 나머지 32번의 경우엔 모집단에 없는 수 즉, 포본의 오차로 모집단을 대표하지 않는다고 볼 수 있어.

또, ‘신뢰수준’과 유사한 개념인 ‘유의수준(Significance Level, 𝜶)’은 결과의 차이가 우연이 아니라 실제 결과를 대표하는지 검증하는데 사용하고 있어.  

유의수준(significantlevel)

 

  평균은 결과를 지나치게 단순화해 어떤 경우에는 모르는게 잘못 아는 것보다 낫고, 선무당이 사람 잡는다는 말처럼 약간 어설프게 아는게 더 위험할 수 있어. ‘평균의 함정’이라 부르는 사례는; 

미국의 주택 수요를 예측해 미리 공급하기 위한 주택 계획은 통계 조사를 통해 평균 가족 수 3.6명에 맞게 진행되었어. 즉, “평균적인 가족을 위한 평균적인 주택을 공급한다”면서 3~4인 가족에 필요한 방 2개짜리 주택들을 주로 지었어. 하지만 실제론 평균인 3~4명 가족이 45%, 1~2명인 가족이 35%, 나머지 20%는 4명 이상의 가족 수로, 방 하나나 3개 이상의 주택 수요가 방2개 보다 많았어. 결과적으로 방2개인 주택이 과잉 공급되었어. 미국 공공 건강 협회가 지적했듯이, 수학적인 평균(average)과 함께 분포를 확인했다면 방 두개 만큼이나, 방 하나나 세개 이상의 주택도 필요했다는 걸 미리 알았을 거야.

전체 수요의 반이 되지 않는 방 2개 짜리 주택의 과잉 공급

 

미국 아동발달 학자 ‘게젤 (Arnold Gesell)’이 발표한 ‘게젤의 발달규준(Gesell's norms)’에 따라 목을 가누는 시기가 평균 5개월이라 했을때 5개월 이전에 목을 가누는 아기 부모는 아기가 빠르다며 천재를 낳은 듯이 좋아하고, 시기를 지난 아기 부모는 안절부절 조급해 하게되. 하지만 정상 범위를 알고 있는 부모라면 그리 조급해하지 않았을 거야. ‘정상적(normal)’인 상태와 ‘바람직한(desirable)’ 상태를 혼돈하면서 필요없는 걱정을 만들어. 게젤은 자신이 관측한 사실을 표로 만들었을 뿐으로, 이를 받아들이는 부모들은 평균에 맞추어 아이를 재단하지 말고 정상 범위에 따라 며칠이나 몇 달 늦는 것이 별일 아니라는 것을 받아들여야 해. 

수십억년 동안 진화로 축적되어 온 생명의 아동 발달 규준이라 생각하면 편차가 적어야 할 것 같지만, 자연은 편차를 크게 유지하는 방법으로 진화의 효율을 높이는 것은 아닌가 싶어. 같은 부모 밑에 태어나도 생김새나 성격이 다른 것처럼, 비교가 아니라 존중으로 아이들을 대해야 하지 않을까.     

 

유사한 예로, 아이를 키울 때 병원에 가면 각 연령별 키를 표시해 놓은 성장 차트를 볼 수 있어. 평균으로만 만들어 놓은 이 차트를 심각하게 받아들이는 부모는 없겠지만, 정상범위(range)나 편차(deviation, sigma)가 표시되어 있지 않으니 혹시나 하는 걱정을 일으키기기도 하지. 하지만 아이들의 키는 덩그러니 붙여진 표보다는 부모의 키를 비교해 보는게 빠를 거야. 

 

심한 경우 좌표의 수치(scale)를 조작하여 표시해 매해 현저히 성장하는 기업으로 광고하는 시각적 데이터 조작을 하는 경우도 있어. 

y축 수치를 바꾸어 동일한 내용을 다르게 보이도록 조정한 차트

 

뒤숭숭할 때 점을 보거나 사주를 보는 것도 마찬가지로, 점쟁이의 입장에서야 오랜 세월 축적된 지식이라고 주장하지만, 도 아니면 모인 경우가 많아보여(큰 편차). 그보다는 사람됨을 관찰해 보는게 정확하지 않을까.

 

  한때 금서처럼 몰래 들여다보았던 성 연구의 선구자 ‘알프레드 킨지(Alfred Kinsey)’가 발표한 ‘킨지 보고서(Kinsey report)’는 주로 미국 도시의 교육받은 백인을 대상으로 수집한 자료의 평균을 발표한 것이어서 표본 자체가 보편적이지 않고 편향되었지만, 그 수치를 자신이나 주위과 비교하고는 정상적(normal) 또는 일반적(usual)이지 않은 수치라고 생각한 사람들로부터 잘못된 비판을 받곤 했어. 표본의 대표성을 확인하고 의미를 부여하는 측면은 읽는 사람들의 몫이야.

 

  따뜻한 하와이 호놀룰루에 사는 사람이 텍사스 오스틴에 여행을 오면서 찾아보니 연평균 온도가 25도와 26도로 거의 같아 마음의 준비 없이 7월에 방문했다가 경험한 적 없는 35도가 넘는 한낮 땡볕에 놀랐다면, 연중 최저와 최고 온도차가 하와이는 5도인 데 비해 텍사스는 18도로 편차가 크다는 것을 간과한 잘못이야.  

하와이와 텍사스 연중 기온의 차이



* 3장, 잊혀진 소수(The Little Figures That Are Not There) [2 / 2]’로 이어집니다.