같이 보고 싶은 책 찾기/How to Lie with Statistics (통계로 거짖말 하기)

3장, 잊혀진 소수 (The Little Figures That Are Not There) [2 / 2]

parkindresden 2025. 10. 27. 16:53

* ‘3장, 잊혀진 소수(The Little Figures That Are Not There) [1 / 2]’에 이어서… 

 

또다른 익숙한 예로; 

선거 때마다 우리는 지지율 조사 결과의 홍수에 빠져. 이번 주 지지율은 몇 퍼센트이고, 지난 몇 주간 트렌드는 어떻고, ‘신뢰구간’이 몇 퍼센트 밖에서 앞서고 있다는 자세한 설명까지. 통계 수치는 우리 일상에 늘 따라다니고, 우리는 벌써 익숙하게 통계 수치를 우리의 권리를 행사하는 중요한 판단의 방법으로 사용하고 있어. 

하지만 이 통계 수치들은 확정된 사실 또는 진실이 아니고, 출구 조사에서 이긴 후보가 지는 일은 비일비재 하지. 단지 통계 수치는 예측하고 비교하는 방법을 제공할 뿐이야.

아래 지상파 출구조사에서 보일듯 말듯 작은 글씨로 “신뢰수준 95%에 표본오차 +-0.8포인트’란 말은 (우측 위 Bar 차트와 같이) 푸른당과 빨간당 지지율의 신뢰구간이 서로 겹치는 구간이 너무 커서 빨간당이 우위에 있기는 하지만, 혹시 빨간당이 지더라도 조사기관의 잘못은 아니라는 말이야. 

만약 더 많은 사람에게 물어봐 (표본수 확대) 오차가 0.8%가 아니라 0.2% 였다면, (오른쪽 아래 Bar차트와 같이) 신뢰구간이 서로 겹치지 않아 확실히 빨간당이 우위에 있다고 95% 확신 할 수 있겠지.   


[*이대목에서 확률 분포에 대해 생각해보면, 

확률 분포는 어떤 사건이 여러 번 발생할 때 그 사건들이 어떤 패턴으로 분포하는지 구별한 것으로, 시각화한 그래프로 보면 아래 그림과 같은 여러 종류가 있어. 

주사위를 계속 던지면 6개의 번호가 횟수가 늘어나면서 일정하게 분포할 것이고, 아래표에서 ‘균일 분포(Uniform Distribution)’라 불리는 분포를 하지.

동전을 던진다면, 앞면 또는 뒷면 두 가지 경우의 분포가 될거고, 이런 분포를 ‘베르누이 분포(Bernoulli Distribution)’라 불러.  

모집단이 ‘정규분포’를 하는 경우는 자연적인 기준이 있는 현상과 관련된 것이 많은데, 사람이 살기 위해선 일정 수의 심장 박동이 있어야 하고 평균 심박수보다 높거나 낮은 사람의 수가 평균에서 멀어질수록 줄어들어. 키나 몸무게도 연령별로 평균이 있고, 평균보다 크거나 작은 수는 멀어질수록 적어지지. 산업현장에선 제품 특성에 대한 불량률이 정규 분포인 경우가 많아, 목표로 하는 정상 제품 특성치을 기준으로 더 많거나 적은 수가 기준치에서 멀어질수록 수가 적어지지.

표본 취합 방법과 순서, 가정에 따라 다른 확률 분포 모델

 

  이러한 기본적인 분포들은 무작위 사건(random event)들을 어떤 방법 또는 순서로 취합하고, 어떤 가정을 세우느냐에 따라 이항분포(binomial), 기하분포(geometric), 푸아송분포(poisson)나 지수분포(exponential)와 같은 다른 확률 분포 모델을 따르게 돼.  

  예로, 단순한 ‘베르누이 분포(Bernoulli distribution)’를 하는 동전 던지기로 게임을 한다고 해. 

동전을 10번 던지는 것을 한 세트로 하고, 세트마다 앞면이 나오는 수가 많으면 이긴다고 하면, 각 세트를 여러 번 반복해 앞면의 수를 모은 데이터는 좀 더 복잡한 ‘이항 분포(Binomial distribution)’모델을 따라.

동전을 10번 던지면 확률적으로 앞/뒤가 모두 50%이니 당연히 앞이 5번, 뒤가 5번 나와야 할것 같은데, 직접 해보니 앞이 8번 뒤가 2번, 다시 10번 던지니 앞 4번 뒤 6번 … 흠 🤔 

우리의 단순한 직관에 의한 오류를 보여주는 예로, 이항분포를 한다는 것을 알고 있으니 확률함수로 계산하면 계속 10번씩 던져봐도 앞/뒤가 정확히 5번 (50%) 나오는 경우는 두세번 정도 (24.61%) 밖에 안된다는 걸 계산해 낼 수 있어. 

   앞면이 나올 확률(p)은 0.5이고, 

   뒷면이 나올 확률(1-p)은 0.5, 

   시행횟수(n)은 10 이라고 하고, 

   앞면이 나오는 성공 횟수(k)는 0에서 10번까지 가능해 (즉, 앞면이 10번 중에 한번도 안나오거나(k=0), 1에서 9번(k=1 ~ 9) 나오거나, 10번 모두 나오는 (k=10) 경우). 

  그러면, 앞이 정확히 5번(k=5) 나오는 경우는 24.61%로 계산되지.

 

이 동전 던지기의 경우, ‘모집단(population)’은 동전을 던지는 모든 시도의 집합이고, 게임으로 정한 “한 세트 10번 던지기”는 모집단에 포함된 ‘표본(sample, n=10)’이야. 이때 시행 횟수 n이 많을수록 ‘이항분포’는 ‘정규분포’라 불리는 종 모양에 가까워져.] 

 

동전을 10번 던지는 것을 한 세트로 하고, 동전의 앞면이 나오는 수를 기록하면, 이 그림에서 처음 몇번의 시도들은 변화가 큰걸 보게되 그러다 시도가 늘어나면서 누적되가는 평균이 50%에 가까워지고 있음을 알 수 있어.

이렇게 “어떤 분포를 가진 ‘모집단(예: 동전 던지기, 공장의 각 생산품)’이든 상관없이, 그 모집단에서 충분히 큰 크기의 표본(동전 10회 던지기를 한 세트)을 추출하여 각 표본의 평균을 구하면, 이 표본 평균들의 분포가 점차 정규분포에 가까워진다”는 것이 ‘중심 극한 정리 (Central Limit Theorem, CLT)’이며 확률과 통계에서 가장 중요하고 기본적인 정리 중 하나야.  

일반적으로 표본의 크기(n)가 30 이상일 때 정규 분포가 나타난다고 알려져 있어

시행 횟수(n)에 따라 정규분포로 가까와 지는 그래프 들

 

  어려서 비슷한 구슬 장난감을 본 기억이 있는데, ‘갈튼보드(Galton Board)’라고 불리는 구슬 장치가 있어. 이항분포하는 사건이 충분한 표본만 있다면 정규분포에 가까워진다는 ‘중심극한정리(CLT)’ 이론을 시각적으로 잘 보여줘.

떨어진 구슬은 핀에 부딪히는데, 이때 왼쪽으로 떨어질 확률과 오른쪽으로 떨어질 확률이 동전 던지기와 같이 각각 반(0.5)인 이항분포야. 정해진 수의 핀을 거쳐 수평으로 밑에 만들어진 구획된 방에 떨어진 구슬은 가운데 있는 방에 가장 많이 쌓이고, 좌우로 멀어질수록 수가 적어지는 정규분포를 보여. 수학자 베르누이가 손으로 한 확률 계산을 구슬장치로 바로 볼 수 있어.   

Galton board https://upload.wikimedia.org/wikipedia/commons/d/d2/GaltonBoard.png