같이 보고 싶은 책 찾기/How to Lie with Statistics (통계로 거짖말 하기)

1장, 편향된 표본 [1 / 2] (The Sample with the Built-in Bias)

parkindresden 2025. 8. 31. 07:21

  1924년 학번(헐~) 예일대학교 졸업생의 평균 연봉이 $25,111(현재 가치로 $325,000)라는 ‘타임’지 기사는, 자식이 예일대를 나오면 그때나 지금이나 부모와 자식 모두 조기 은퇴할 수 있다는 것을 뜻해, 모두 예일대학에 보내야겠다는 꿈을 꾸게 하지. 

이 기사에서 마음에 걸리는 점은 지난해 연봉도 제대로 기억 못 하는데 금액이 마지막 자릿수까지 너무 정확하다는 점이야. 

이 정도의 소득이면 보통 연봉 이외에도 수입이 있을 것이고, 예일 졸업생이 설문지에 답한 것이라면, 연봉이 낮아 숨기고 싶은 사람도 있을 테고, 반대로 허풍이 심한 사람도 있을 거야. 또, 우편조사라는 것에서부터 편향될 수 있는 여지가 있어, 25년 후 그많은 졸업생의 주소를 어떻게 정확히 알고 전달했겠어. 그러니 결과에 대해서는 특별한 목적이 있지 않나 의심하게 되겠지.

통계의 가장 중요한 부분을 차지하는 표본 선정의 중요성을 보여주는 한 예야.

자루 안에 섞여 있는 검은콩과 붉은콩의 수를 알기 위해 창고 안의 모든 자루의 콩을 일일이 셀 수는 없으니, 잘 섞은 뒤 샘플로 일정양만 세어 전체를 추정할 수 있어. 하지만, 콩이 잘 섞이지 않았거나, 예일대의 경우 25년이 지난 후 주소가 잘 알려진 허풍 센 성공한 졸업생만 설문에 답한다면 표본이 편향되어 결과를 신뢰하지 어렵게 되지.

 

  어느 잡지가 많이 팔리는지 조사하기 위해 각 가정을 방문해 "어느 잡지를 읽고 계십니까?" 하고 물으면, 재미로 읽는 ‘True Story’(~80년대 ‘선데이서울’)보다는 고상한 잡지 ‘Harper’s’(~시사 잡지 ‘신동아’)를 읽는다는 조사 결과가 많아. 하지만 가판에서는 ‘True Story’가 훨씬 잘 팔려. '응답편향'이라 불리는 이런 경우 "오래된 잡지를 사려고 하는데 집에 팔 만한 잡지가 어떤 게 있습니까?"라고 물어보는 것이 더 정확한 답을 얻을 수 있지 않을까(?).

 

  Wheelan은 ‘Naked Statistics’ 7장 ‘Importance of Data’ 에 데이터의 중요성을 잘 정리해 놓았어.

 

   2012년, 저명한 ‘Science’지에 게재된, 짝짓기 기간에 암컷에게 거부당한 수컷 초파리는 (사람처럼) 술을 찾는다는 연구 결과에 대해 ‘The New York Times’는 “혈기왕성한 젊은 수컷들이, 실연한 젊은 청년들이 그러하듯 충족되지 못한 욕망을 삭이기 위해 술에 빠진다”고 기사화 했어. 

뇌의 보상 체계에 대한 연구에 기여한 이 논문은 언뜻 받아들이기에 약간 의아한 점들이 있어. 초파리들이 자주 찾는 전용 술집이 있다는 말을 들어본 적이 없는데 어떻게 초파리가 술을 마시고, 게다가 연애 리얼리티 쇼도 아닌데 절친도 모르는 초파리들의 연애 속사정을 어떻게 알아냈을까?

이 실험은 결과 뿐 아니라, 언뜻 불가능해 보이는 데이터를 수집하는 실험 계획의 창의적인 예시를 보여줘.

 

우선, A그룹의 수컷 초파리들은 아직 짝짓기를 하지 않은 암컷 초파리들 사이에 풀어넣고, B그룹의 수컷들은 짝짓기가 끝나 수컷에게 전혀 관심이 없어진 암컷 초파리 사이에 풀어나. 이후, 지친 A와 B그룹 수컷에게 일반 음식(이스트+사탕)과 술을 첨가한 음식(이스트+사탕 + 술) 두 가지를 넣어 주면, A그룹의 초파리는 (이스트+사탕)에 많이 몰리고 B그룹은 (이스트+사탕 + 술)에 많이 몰리는 걸 관찰했어. 

이 창의적인 연구는 실험 데이터를 분석해 통계적으로 합당한 결론을 찾아낸 성과도 중요하지만, 통계적으로 유의한 결론을 낼 수 있는 데이터를 추출해낸 것이 더 뛰어나 보여.

미식축구에서 뛰어난 쿼터백이 있기 위해선 쿼터백을 둘러싼 좋은 공격진이 있어야 하는 것처럼, 뛰어난 통계적 결론을 내기 위해선 좋은 데이터가 있어야 해. 말 그대로 “Garbage In, Garbage Out”이야. 

2012, 'Science' 발표 논문, 'Male-Specific Pheromones Mediate Social Transmission of Alcohol Preference in Drosophila'

 

 

  일반적으로 데이터는 다음 세 가지 중 하나여야 하는데;

 

  첫째는, 사용하는 표본 데이터는 모집단(우리가 관심이 있는 큰 집단 전체)을 잘 표현해야 해. 

일반적인 방법은 무작위(random)로 표본을 선택하는 거야. 어떤 동네의 4,000명 주민(모집단) 중 100명 주민(표본)만 선택해 표본조사를 한다면 4,000명 각각에게 동일한 확률로 100명에 뽑힐 수 있는 기회가 주어져야 함을 말해. 이 경우 4,000명 주민의 전화번호 중에서 무작위로 선택하는 방법도 있겠지. 

모집단을 잘 표현하기 위해 100명이 아니라 300명 등 표본의 크기를 키우는 방법도 있지만, 표본이 편향되지 않도록 주의해야해.

 

  둘째는, 비교할 수 있는 대상이 필요해. 

위의 초파리 대상 연구와 같이 ‘대조군(control group, 초파리 그룹 A)’과 ‘치료군(treatment group, 초파리 그룹 B)’으로 나누어 상대 비교할 수 있어. 

미식축구 선수들의 지속적인 충돌에 의한 뇌진탕이 뇌 관련 질환에 미치는 영향은, 초파리에게 헬멧을 씌워 서로 부딪히게 해 실험할 순 없으니, 어떤 시점(time 1)과 시간이 지난 후 다시 조사한 다른 시점(time 2) 간의 추적 조사를 하기도 하지.

 

  셋째는, 청소년의 “그냥 해봤어” 라는 반항 섞인 반응처럼, 가능한 한 많은 데이터를 수집해 놓는 거야.

살인 사건 현장에서 많은 현장 사진과 지문을 확보하는 것은 나중에 그중 하나에서라도 실마리나 증거가 나올 수 있을 거라 생각하기 떄문이지. 

미국 보건국과 보스턴 대학이 실행한 ‘Framingham Heart 연구’는 1948년부터 프에이밍햄(Framingham) 거주 5,209명의 키와 체중을 비롯해 유전과 생활 습관에 이르는 많은 건강 지표를 수집하고 2~4년 간격으로 계속 추적했어. 1950년 이후 이 데이터를 가지고 심장, 흡연, 비만, 뇌출혈 등 전반적인 병인을 이해하고 결과를 예측하는데 큰 업적을 남긴 수천개의 연구 논문이 발표되었어.         

LDL 수치에 따른 10년 후 심장병 사망률을 예측하는 '프레이밍햄 위험 스코어'

 

*  1장, 편향된 표본 [2 / 2] 로 연결…