같이 보고 싶은 책 찾기/How to Lie with Statistics (통계로 거짖말 하기)

2장, 평균의 오용 (The Well-Chosen Average)

parkindresden 2025. 9. 15. 07:08

  그닥 속물처럼 보이지 않는 새로 알게 된 지인이 내가 사는 지역에 집을 보고 있었는데, 아직 잘 모르는 사이기도 해서 대충 이 지역 평균 소득이 $150,000 정도 된다고 알려줬어. 이웃들의 높은 소득에 끌려서인지 지인은 집을 샀지. 얼마 뒤 지역의 세금을 낮추기 위한 지역 공청회 중에 우리 지역의 소득 평균이 $35,000 라는 공무원의 말에 놀란 지인이 나를 어이없는 표정으로 쳐다본다면, 평균 $150,000 정도 된다고 생각해 왔던 나도 처음 듣는 적은 숫자에 어리둥절한데… 뭐라 변명을 해야 하나? 

통계 수치를 잘못 사용한 기초적인 실수 중 하나로, $150,000은 평균값(mean), 공무원이 말한 $35,000은 중간값(median) 이었어. 영어로 ‘Average(평균)’ 는 ‘Mean’ 과 ‘Median’을 모두 의미해.    

 

  [* Mean은 모든 사람의 소득을 더해 사람 수로 나눈 값으로, 소수의 소득이 극단적으로 많으면 많은 쪽으로 치우치게 돼

     Median(메디안)은 모든 사람을 소득순으로 일렬로 세웠을 때 가장 중간에 있는 사람의 소득을 말해

     Mode(모드)는 소득 중 가장 많이 나타나는 값이야 ]

 

이 세 가지 다른 정의를 목적에 따라 선택적으로 써서 독자를 속일 수 있어.

온화한 기후의 한적한 바닷가인 내가 사는 지역의 평균과 메디안이 큰 차이가 나는 것은, 이 지역의 대부분은 나이 드신 은퇴자들인데, 주말에만 별장에 와서 즐기는 소수의 억만장자들이 평균(Mean)을 높이기 때문이야. 소득을 그래프로 그려보면 다음과 같을 거야.

평균(Mean), 중간값(Median), 최빈값(Mode) 그래프

 

  회사들이 발표하는 임금 관련 자료에는 숨은 꼼수가 있을 수 있으니 늘 주의 깊게 봐야 해. 한 예로, 세명의 동업자가 오너인 기업이 연간 90명의 직원에게 $198,000을 지급하고, 오너들이 연봉으로 $11,000과 $45,000의 수익을 셋이 나누어 가진 뒤 연말에 기업회계 자료를 공고하는 경우;

  만약, 다음과 같이 꾸밈없이 발표하면 투자자나 직원들이 어떻게 생각할까? 내가 직원이라면, 열심히 일해서 남의 배만 불려주고 있는 것 같은 박탈감이 들지 않을까 싶어. 

  

        평균 직원 연봉               = $  2,200  

        기업 오너들 연봉 + 수익 = $ 26,000  (*오너의 연봉이 직원의 11.8배) 

 

다른 사람 눈치 안 보는 오너들이야 별 관심 없지만 당황한 전략기획실장이 회계 담당자를 닥달해, 이번엔 아래와 같이 동업자 세 명의 보너스로 $30,000, 수익으로 $15,000, 그리고 $33,000의 연봉은 직원들과 함께 인건비에 넣어 공개 자료를 만들었어.  

 

        평균 직원 연봉    = $ 2,806.45  (* 오너의 연봉 포함)

        기업 오너들 수익 = $ 5,000       (* 오너의 수익이 직원의 1.7배)

 

여기다 전체 수익중, 임금에 96.96%가 쓰이고 오너가 가져가는 순수익은 5.04%라는 내용까지 더해 발표하면, 언뜻 보아선 직원이 우선인 좋은 회사의 이미지를 확실하게 만들 수 있어. 이래서 전략기획실이 필요해. 

성공적으로 오너들의 수익은 줄이고 임금을 늘인 파이차트

 

급여가 아니라 보너스를 받아가며 직원과의 급여 차를 줄여 발표하는 기업 오너의 온 가족과 경영진들이 쓰는 방법이야. 기업의 평균 급여가 발표되면 누가 포함되어 있고, 어떤 급여의 평균인지 확인해봐야 정확히 이해할 수 있어. 

노조와 기업의 임금 협상이 늘 엇박자인 것도 이런 회계상의 꼼수들이 많아서인 경우가 많지.

 

  다른 예로, ‘US Steel’은 급여가 1940년에서 48년 사이 107% 인상되었다고 발표한 적이 있는데, 1940년 자료에는 임시직을 포함하는 방법으로 왜곡했어.    

     

  최근 발표된 500대 기업 영업이익을 가지고 친정부와 반정부 언론사마다 기사의 방향이 다른데, 

반정부 언론의 기사 제목은 “500대 기업 영업이익, ‘SK 하이닉스’ 제외하면 전년 대비 1.7% 감소”로, 

기존에 매년 500개 기업을 대상으로 취합한 실적을, 실적이 급상승한 SK를 빼고 499개 기업만 취합하면 역성장이라고 기사에 쓰고 있어.

이상값(outlier)을 보이는 회사를 빼고 싶다면, 공평하게 급상승한 SK와 함께 같은 업종의 경쟁사로 급하락한 S사를 빼고 498개 기업을 취합해야 하지 않을까? 이 경우 다시 전년 대비 증가하는 결과가 나와. 

언론이 어떻게 우리에게 같은 내용을 다르게 전달하고 있는지 알 수 있어. 

목적에 따라 편집된 내용만 볼 게 아니라 한 발짝 물러서 자료의 기준과 산출 방식까지 확인해 보는 수고를 해야 통계 수치가 주는 정확한 내용을 알 수 있을때가 있어. 기사를 위해 기준을 바꾸는 건, 이 정도면 사기라고 봐야지.        

요즘처럼 극단화되어가는 세상에선 더더욱 언론을 가장한 편향에 대한 주의가 필요해. 

 

  위의 사례에서 본 수치들과 스포츠에서 선수와 팀을 비교하기 위해 사용하는 대부분의 지수들, 볼링 점수, 경제 지표, 학교 순위, 성적 등을 우리는 ‘기술 통계(Descriptive statistics)’ 수치라 불러. 이 지수들은 특정한 여러 정보들을 요약한 숫자들로, 하나의 지수만 비교해 결론을 낼 순 없고 여러 지수들을 모아 종합적으로 결론을 내려야 해. 

한 예로, 2011년 미식축구 플레이오프 게임에서 쿼터백의 전체 패스 성공률(passing rate)을 보면 당연히 ‘그린베이’가 이길 거라 예상되었어. 패스 성공률은 단순히 패스 성공뿐 아니라 거리 같은 다른 여러 요인들을 고려한 지수로, 55.4%와 31.8%의 경기력 차이는 큰 수지. 하지만 ‘시카고’가 승리하면서 예상이 빗나갔어 😝. 

 

      Team                  Passing rate       Playoff

      시카고                     31.8                     승

      그린베이                  55.4                     패

 

좀더 시간을 들여 리그의 모든 팀을 상대로 한 전체 평균이 아니라 개개 팀과의 결과를 추가로 찾아보면 시즌 내내 ‘시카고’ 쿼터백의 ‘그린베이’ 상대 패스 성공률은 85.6%로, 왜 ‘시카고’가 승리 했는지 이해가 되.

 

  야구에서 A 선수의 타율이 4할이고 B 선수의 타율이 3할이라면 우리는 쉽게 A가 B보다 뛰어난 선수라고 생각하게 되. 하지만 경기 수, 득점, 도루, 수비 등등 아직 판단의 기준들이 남아 있어. 

대학 성적 GPA가 3.7이라면 3.5인 학생보다 공부를 더 잘했다고 생각되지만, 3.7인 학생은 점수 좋은 교양 위주로 수업을 들은 데 비해 3.5인 학생은 전공 위주로 수업을 받아 성적이 낮을 수도 있어. 이런 경우 GPA만으로 학생의 성취도를 판단할 수 없지. 

야구 지수, KBO site

 

  지금까지 본 것 처럼 일반화된 또는 단편적인 지수에 인한 오류의 위험이 있긴 하지만 ‘기술 통계’는 모아진 데이터를 처리해 의미 있는 결과를 얻기 위한 분석에 필요한 가장 기본이 되는 자료야. 

또한, 객관적인 비교를 할 수 있는 방법이기도 해.

기술 통계 지수 그래프와 차트

 

수업 시간에 통계가 어렵다고 투덜거리던 학생이 식당에서 친구들과 기술 통계 수치 중 하나인 미식축구 쿼터백의 ‘패스 성공률(Passing Rate)’을 신나게 떠들고 있는걸 보면 의아하지 😳. 

단 몇 개의 지수를 모아 매주 발표하는 쿼터백 순위는 완벽해 보이지는 않지만 이런 투덜이 학생도 어려움 없이 쉽게 선수 비교를 위해 사용하고 있어.

 

  이런 스포츠 관련 ‘기술 통계’ 수치들에 불편해하는 사람들은 적어, 하지만 경제학자들이 소득 불균형을 측정하기 위해 사용하는 ‘지니 계수(Gini coefficient)’는 쿼터백의 패스 성공률과 유사한 지수인데도 왠지 어려운 듯한 거부감 부터 들어.

‘지니 계수’는 모든 가구의 부가 동일 하다면 “0%”, 옛날 왕국과 같이 왕과 소수의 귀족에게 나라의 모든 부가 몰려 있다면 “100%”이 되도록 정규화(normalized)된 수치야. 즉, 패스 성공률과 마찬가지로 계수가 갖는 수는 본질적인 의미는 없고 단지 상대적으로 비교하는 방법으로 사용할 뿐이야. 

세계지도에 표시된 지니계수 (%), https://en.wikipedia.org/wiki/File:Global_map_of_high_inequality_countries,_2022.png

 

그럼 지니계수가 ‘소득 불평등’을 완벽히 설명하나?  아니야. 하지만 ‘패스 성공률’ 처럼 여러나라의 소득 불평등을 객관적이고 상대적으로 쉽게 비교해 볼수있는 가치있는 자료야.