티스토리 뷰

  



일일이 세어보진 않았지만, TV 를 보면 정말 틈만나면 나오는 것처럼 느껴지는 지겨운 광고 중 으뜸은 단연 대출과 보험 광고다. 보험 광고 중엔 자동차 광고와 암보험이 상당히 많다. 건강, 생활, 살림 정보 등을 주제로 하는 아침 방송들을 보면 암이 단골 주제다. 또야? 싶을 정도로 툭하면 하얀 가운을 입고 나와서는 흔히 보는 광고 문구처럼 "한국인 사망 원인 1위! 4명 중 1명이 이것으로 사망합니다! 앞으로 2명 중 1명이 이것으로 사망할 것으로 예상되고 있습니다!" 고 외치는 그들은 바로 사람들에게 암의 공포를 전도하는 의사들이다. 나도 그럴 때마다 위 내시경이랑 대장 내시경 검사 받아야 하는데, 내 아내도 종합 암 검진 한 번 받아야 할텐데, 하며 덜컥 겁이 날 때도 있다. 하지만 인간의 신체 부위 중에 암에 걸리지 않는 부위가 거의 없다시피 하다는 걸 알고나서는 암도 팔자려니 하고 살고 있다. 어느 날 밥을 먹고 있는데 각종 암의 위험성을 말하는 의사의 목소리가 너무 신난 것처럼 들려 몹시도 짜증이 나서 채널을 돌려버렸다. 머지않아 세상 사람들 둘 중 하나가 암으로 죽을 것처럼 살벌하게 협박하는 모습을 보면 문득 쌩뚱맞을 지도 모르지만 평화의 댐 생각이 난다. 근데 통계는 분명히 명백하게 4명 중 1명이 암으로 죽는다고 알려주고 있다. 이걸 어떻게 받아들여야 하나? 이런 생각을 하던 중 우연히 잘못된 통계에 대해 다루는 이 책들을 읽어보게 되었다.


벌거벗은 통계학 저자는 대학 교수로, 감사의 글에서 스스로 '새빨간 거짓말, 통계' 에 대한 존경심에서 책을 쓰게 되었다고 밝혔다. 저자는 통계가 현실을 파악하는데 필요한 통찰을 제공해주고 수많은 문제를 해결하는데 도움이 되는 유익한 도구임을 강조한다. 하지만 잘못쓰면 치명적인 재앙을 초래하는 무기가 될 수 있음 또한 매우 잘 알고 있다. 그래서 통계를 잘 배우고 이해해야 한다고 역설한다. 그래서 자세한 설명이 많으며, 대체적으로 통계 사용의 긍정적 사례, 잘못된 사례, 통계 이론과 개념을 균형있게 골고루 다루는 편이다. 아무래도 미국 사람의 책이라, 사례들은 거의 미국 사례다. 당연히 2007년 미국 금융위기도 다룬다. 내용 중 중요한 부분은 볼드체로 강조가 되어있다. 특히 학자들이 연구에 주로 사용하는 회귀분석법의 원리 같은 이론 부분을 상당히 상세하게 설명하고 있는데, 나같은 사람이 읽기에는 좀 어렵다. 그래서 난 그런 어려운 부분은 그냥 대충 넘겼다. 저자가 교수라 그런걸까? 몇몇 장의 부록에는 통계와 확률 관련한 기본 개념과 공식도 정리해준다. 내용을 풀어나가는 방식과 내용이 전체적으로 학술적인 분위기가 흐르는 게 마치 대학교 통계 관련 교양 과목 교재를 보는 느낌도 든다.


통계의 함정은 독일의 심리학자와 통계학자, 경제학자 세 명이 공저한 책이다. 이들은 독일에서 넘쳐나는 '불량 통계' 의 가면을 벗겨야겠다고 결심하고, 정기적으로 '이달의 불량 통계' 를 선정해 발표하는 사이트를 만들어 활동하기도 했다. 이 책 또한 그들의 '계몽 프로젝트' 중 하나이다. 즉, 저자들의 목적은 '불량 통계' 를 들춰내서 사실을 밝히고, 사람들에게 경종을 울리고자 하는 것이다. 그래서 통계에 대해 좀 더 비판적인 시각으로 바라보는 편인 것 같다. 비판적이라고 해서 통계를 악의적으로 이용하려는 집단을 상정하는 음모론에 치우친 것은 아니다. 그보다는 통계를 다루는 사람들도 편향에 빠져 실수할 수 있다는 점과, 사람들이 통계를 잘 이해하지 못하는 데서 비롯한 오해와 부작용을 알려주고 있다. 역시 독일인들이라, 나오는 사례도 독일 중심이다. 하지만 읽다보면 왠지 우리나라 얘기 같기도 할 때가 있다. 많은 사례를 가볍게 다루기보다, 주요한 사례 몇 가지를 중점적으로 더 깊이 있게 다루는 편이다. 그래서 그림이나 그래프 등의 자료가 많다. 영가설, 대립가설 등의 기본 개념과 이론이 나오기도 하는데, 그 부분에선 벌거벗은 통계학 정도로 깊거나 어렵지는 않다. (두 책에서 용어 해석이 좀 다른 부분이 있다. 분석하고자 하는 가설을 이 책은 '영가설' 이라고 하는데, 벌거벗은 통계학에서는 '귀무가설' 이라고 부른다.) 저자들은 에필로그에서 정보의 홍수 시대에 넘쳐나는 정보 왜곡과 조작에 대처할 수 있는 '십계명' 을 제시한다.


괴짜 통계학은 2008년 나온 책으로, 저자는 국내 대학 경영학과 교수로 MBC 라디오에서 통계이야기 프로그램을 진행했고 한국경제신문에 컬럼도 연재했다고 한다. 통계는 정보화 사회에서 점점 더 중요해지고 영향력이 커지고 있는 만큼 통계에 대한 올바른 이해도 더 중요해지고 있는데, 아직도 많은 국민들은 '수문맹' 에서 벗어나지 못하고 있는 점을 지적하며, 독자들이 숫자를 올바로 이해하는 힘을 얻는데 도움을 주고자 하는 의도를 밝히고 있다. 통계나 확률 관련한 지루하고 어려운 이론을 동원하지 않고 주위에서 흔히 볼 수 있는 다양한 정보 왜곡과 오류, 오해 사례들을 통해 이해하기 쉽게 풀어서 설명하고 있어서 읽는 데 부담이 없고 금방 읽을 수 있다. 저자가 교수여도 라디오 진행이나 컬럼을 쓴 이력이 있어서 그런지, 학술적이기 보다는 흥미를 끄는 대중적인 성향의 책이다. 소개되는 사례는 역시 한국 사례가 많다. 또 각 챕터의 내용이 길지 않아서 오고가며 잠깐 시간이 날 때 짬짬이 읽을 수도 있다. 내용이 쉽다고 해서 별 도움이 안된다거나 가볍다거나 하지는 않다. 풍부한 사례만큼 사람들이 통계를 대할 때 주의해야 할 점들을 폭넓게 다루고 있어서 실용적이다. 벌거벗은 통계학이나 통계의 함정을 먼저 천천히 읽어보고 상세한 이론이나 개념을 익힌 다음 이 책을 빠르게 읽으면 그 내용들이 떠오르면서 더 잘 정리되는 느낌이다. 


다시, 암 통계로 돌아가서. 통계의 함정에 암 관련 통계에 대한 비판적인 내용이 두 챕터에 나오는데, 그 중 하나는 유방암의 달 캠페인과 유방암 통계에 대한 것이다. 유방암의 달은 1985년 제약그룹인 아스트라제네카에서 도입했다고 한다. 그리고 유방암 인식을 위한 국제적인 상징인 핑크색 리본의 기원은 미국의 수전 코멘 재단으로 거슬러 올라가는데, 코멘 재단은 M&M's 와 공동으로 당분과 지방이 많은 사탕에 핑크색을 덧입힌 제품을 출시하고 KFC 와는 기름에 튀긴 치킨을 핑크색 봉지에 담아 팔았다고 한다. 역설적이게도 두 제품은 비만과 암을 유발하는 식품이다. 


유방암의 달 캠페인의 주요 활동은 대비나 예방이 아닌 '조기 발견' 이다. 10월이 지난 지 얼마 안지나서 그런지, 인터넷 검색을 해보니 유방암의 달 행사 관련 결과가 꽤나 많이 나왔다. 주로 자가진단법을 소개한 글이 많았고, 마치 어디선가 배포한 것을 복사해서 퍼다 나른 듯한 것들 중에는 정기적으로 병원에서 초음파, 촬영술, 조직검사, 유전자검사 등을 받아야 한다는 것들도 있었다. 저자들은 유방암의 달이 되면 각종 통계가 난무하는데, 정작 검진을 받을 지 말 지 판단할 때 필요한 중요한 정보인 유용성과 폐해에 관한 수치는 정확히 알려주지 않는다고 지적한다. 코크란 연합이 무작위 연구를 분석한 결과, 10년 동안 마모그래피(X선 촬영) 검사를 받은 50세 이상의 여성 1000 명 중 유방암으로 사망한 사람은 4명 정도인데, 검사를 받지 않은 여성 집단에서 사망자는 5명이었다고 한다. 하지만 유방암을 포함한 전체 암으로 사망한 수는 동일했다고 한다. 반면, 유방암과 무관한데 오진으로 잘못된 경고를 받은 여성은 100명이었고, 불필요한 검진과 치료를(유방 전부 또는 일부 제거 등) 받은 여성은 5명이었다고 한다. 저자들은 이런 통계 자료를 공개하여 여성들 스스로 선택하고 결정할 수 있도록 해야한다고 주장한다. 


검사를 받으면 생존율이 올라간다는 통계도 또 다른 함정의 예로 들었다. 검사를 받은 집단의 생존율이 올라가는 것은 조기 발견 편향과 과잉치료 때문이라는 것이다. 조기 발견 편향은, 사망 시점은 동일한데 조기 발견으로 더 오래 생존한 것 같은 착각을 일으키는 경우다. 어떤 사람이 60세에 암발병하고 65세에 발견 후 70세에 사망할 경우 5년 생존율에 포함된다. 하지만 똑같이 60세에 발병하고 67세쯤 발견 후 70세에 사망할 경우는 5년 생존자에 포함되지 않는다. 과잉진단은, 비진행성이거나 비침입성 암으로 생명에 지장이 없고 환자 본인도 평생 몰랐을 암도 발견하여 조기 발견에 의한 생존율을 높이는 경우다.


'암의 위험성에 대한 신화' 편에서는, 암 사망율은 기대수명이 올라감에 따라 같이 올라갈 수 밖에 없음을 말하고 있다. 위생과 의료 수준이 높고 사람들이 더 오래 사는 나라일수록 암 사망율이 높다는 것이다. 독일의 1970년과 2012년 암 사망 통계를 비교해보면, 그 때나 지금이나 나이가 들수록 암 사망률은 가파르게 올라가고 있다. 오히려, 모든 연령대에서 암으로 사망할 확률은 낮아졌다. 사망 원인으로 암이 폭발적으로 늘어난 것은, 80세 이상 노인이 많아졌기 때문이기도 하다. 사망자 수로 따지면 약간 늘어나긴 했는데, 이는 그만큼 평균연령이 높아지고 있기 때문이기도 하다. 


한국은 어떨까? 국가암정보센터 홈페이지에 들어가보면 암 발생률, 생존율, 사망률, 유병률 통계들을 볼 수 있다. 그런데 사망률은 연도별이나 연령대별로 보여주지 않고 2017년 주요 암 종류별, 성별로만 보여주고 있다. 대신 암 발생률은 연도별, 연령대별 등 몇가지로 보여주고 있는데, 그래프와 함께 표도 볼 수 있다. 남자는 50대를 지나 급격히 모든 암 발생률이 높아지고, 여자도 마찬가지지만 갑상선암과 유방암은 40대에 가장 발생률이 높다. 발생률은 몇가지 기준이 있는 것 같다. 그 중 조발생률은 특정 인구집단에서 새롭게 발생한 암환자수를 전체인구로 나눈 값이라는데, 일반적으로 인구 10만명당 발생 비율로 표시한다고 한다. 암 환자 파악 방법은 정확히 설명되어있지 않은데, 각종 암환자 자료를 취합하고 암사망자료 중 등록되지 않은 암사망자를 포함한 암발생 의심자에 대한 의무기록조사 결과도 포함되었다고 한다. 생명에 지장이 있는 위험한 암 환자 자료만 수집한 것인지, 그에 상관없이 모든 암 환자가 포함된 것인지는 설명이 없다. 암 오진 발생률은 얼마나 되는지, 암으로 진단 받았다가 나중에 오진으로 판정난 경우는 어떻게 처리되었는지, 단순히 암 판정만 받고 치료받지 않은 사람도 포함되었는지, 아니면 입원해서 치료를 받은 사람만 포함한 것인지, 재발한 경우는 통계에 어떻게 계산되는지, 또 한 사람이 여러가지 암에 동시에 걸렸을 경우 암 종류별 발생률 통계 산출시 어떻게 처리했는지 등등 여러가지로 상세한 설명이 없다. 그 외 지역이나 소득수준별, 음주나 흡연 여부 등 여러가지 기준에 따라 볼 수 있는 다양한 통계 또한 없다. 그리고 2015년 이후 자료는 아직 없다.


아래 남자 그래프를 보면 세로축 조발생률이 800 까지 있는 걸 보면, 비율이 아니라 숫자인 듯 하다. 통계를 보다보면 혼란스러운 것이, 암 발생률 숫자 뿐 아니라 그래프 모양도 전체 대상, 성별 구분, 연령대 구분에 따라 판이하게 달라 보인다는 것이다. 더 헷갈리는 것은, 암발생률 추세 분석이다. 암발생률 추세 분석에는 조발생률이 아니라 연령표준화발생률을 기준으로 한다. 각 연령군에 무슨 가중치를 준다고 하는데 무슨 소린지 잘 모르겠다. 하여간 2012년 이후 암발생률은 매년 꾸준히 감소 추세라고 한다. 이건 또 무슨 소리일까? 분명 TV에서 의사는 앞으로 둘 중 하나가 암으로 죽을 거라고 했는데! 물론 발생률이 낮아진다고 해서 사망률도 낮아진다고 보장할 순 없겠지만, 발생률이 낮아지는데 사망률이 높아진다면 정말 그럴까 의심이 갈 수밖에 없지 않나!


국가암정보센터, 통계로 보는 암, 연령군별 암발생률 통계 (https://www.cancer.go.kr/lay1/S1T639C642/contents.do)

좌 : 2015 남자 연령별 10만명당 주요 암 발생률, 우 : 2015 여자 연령별 10만명당 주요 암 발생률

위 그래프를 나란히 놓고 보면 남녀가 비슷해보일 지 몰라도, 남자의 경우 세로축 최대값이 800 인 반면 여자는 400 이다. 그러니까 좀 더 정확히 남녀 차이를 비교해보려면 여자 그래프 세로축 최대값을 800 으로 놓고 기울기를 반으로 줄여야 한다. 그렇게 해서 보면 남자 암 발생률이 여자보다 거의 두 배가 넘는다. 국가암정보센터 홈페이지에는 남녀전체 암 발생률 그래프도 있다.


국가암정보센터, 통계로 보는 암, 암발생률 추세 분석 (https://www.cancer.go.kr/lay1/S1T639C643/contents.do)

좌 : 남자 연도별 연령표준화발생률 추이, 우 : 여자 연도별 연령표준화발생률 추이

위 그래프를 보면 연령대별 통계가 아니라서 연령대별로 어떤 차이가 있는지 알 수 없다. 남자는 대체로 암 발생률이 낮아지는 것처럼 보이고, 여자도 숫자만 보면 암 발생률이 낮아진 것 같지만, 유독 갑상선암 발생률이 크게 줄어들었고 오히려 유방암 발생률은 늘어났으며, 나머지는 별 차이가 없는 것 같다. 갑상선 암 한가지가 전체 통계 수치에 큰 영향을 끼치고 있는데, 이 때문인지 국가암정보센터 홈페이지의 통계를 보면 갑상선암을 제외한 통계가 따로 있다. 


TV에 나와서 머지않아 둘 중 하나가 암으로 죽을 거라고 말하는 의사들에게 묻고싶다. 도대체 어떤 통계를 보고 그런 예측을 한 것인가? 그리고 2~30년 후에 환경 악화로 암이 더 많아질 지도 모르지만, 암을 예방하고 치료할 수 있는 획기적인 기술이 나올 지 또 어떻게 아는가? 권위있는 사람 몇몇이 나와서 이러하고 저러하니 내가 시키는대로 이거하고 저저해라하며 끝낼 게 아니라, 사람들에게 다양한 시각과 관점의 통계 자료를 제시하고 종합적인 판단을 할 수 있도록 해주면 좋겠다.


그런데 암과 관련한 통계를 가장 정확하고 치밀하게 알고있는 사람들은 누구일까? 아마 보험회사일 것이다. 벌거벗은 통계학에서 이에 대한 약간의 힌트가 나오는데, 어떤 것이든 '장기적으로' 가면 확률에 수렴한다는 것이다. '몬테카를로법' 같은 게 아마 그런 원리를 이용하는 방법일 것이다. 저자는 기댓값과 기대손실에 대해 설명하며 왜 카지노가 돈을 벌 수밖에 없는지, 보험회사는 어떻게 손실을 예상하는지 알려준다. 예를 들어, 주사위 1부터 6까지 각각 100원에서 600원까지 받을 수 있다면, 주사위를 던져 기대할 수 있는 돈은 각 눈이 나올 확률 1/6 에 금액을 각각 곱한 값의 합인 350 원이다. (100/6 + 200/6 + 300/6 + 400/6 + 500/6 + 600/6 = 2100/6 = 350) 이것은 장기적으로 봤을 때의 기댓값이다. 만약 10번 던지면 1000원일 수도 있고 6000원일 수도 있지만, 100번을 넘어 1000번, 그 이상을 던지면 모든 눈이 나오는 횟수가 점점 비슷해지기 때문에 만약 1만번을 던지면 벌 수 있는 돈은 거의 350만원에 가까워질 것이다. 그래서 기댓값이 350원이 나오는 것이다. 그래서 주사위 한 번 던지는데 300원을 내야한다면, 해볼만한 것이다. 만약 주사위 던지는 비용이 기댓값을 넘어서면, 위험한 것이다. 카지노 게임의 확률은 그렇게 항상 카지노에게 유리하도록 만들어졌기 때문에, 몇몇 게이머들은 돈을 벌겠지만 장기적으로 보면 결국 카지노가 돈을 벌 수 밖에 없다는 것이다. 보험회사도 이와 같은 원리로 손실을 예상하여 보험료를 책정한다고 한다. 그러니까 아마 암보험 회사들이 그 어느 집단보다 암 통계를 가장 잘 알고 있을 것 같다. 그들이 알고있는 진실은 무엇일까?


이 세 책에서는 공통적으로 다루는 주제가 여럿 있는데, 알면서도 늘 속는 퍼센트와 퍼센트포인트의 차이, 독립적인 사건과 그렇지 않은 사건을 혼동하는 것, 상관관계와 인관관계를 혼동하는 것, 전제나 조건 등 기준에 따라 판단과 해석이 달라지는 확률과 통계, 표본 집단이 모집단을 얼마나 대표할 수 있는지의 문제, 여론조사 방법의 문제, 통계를 만들거나 보는 사람들이 자주 빠지는 편향 등 읽을거리가 많고 재미도 있다. 암 관련 통계 뿐 아니라 선거철 지지율, 실업율, 평균 임금, 자살율 등등 언론에서 자주 나오는 통계들에 대한 사례들도 다루는데, 앞으로 그런 통계를 대할 때 어떤 점들을 생각해야할 지 많은 것들을 생각해보게 해준다. 가끔 생각날 때 한 번씩 다시 읽어볼만한 책들이다.



★ 통계의 함정에서 제시하는 '십계명'


    1. 각각의 통계를 만드는 사람이 누구인지, 그가 노리는 목표가 무엇인지 항상 의문을 품어라. 사실을 밝히려는 것인가? 특정 의견이나 결과를 팔려는 것인가?

    2. 상관관계와 인과관계를 혼동하지 말라. A, B 두 변수가 한 방향에 있을 때는 세 가지 가능성이 있다. A가 B의 원인이거나, B가 A의 원인이거나, 우연을 포함한 제 3의 변수가 둘 다의 원인이거나.

    3. 제로 리스크 환상을 피하라. 모든 리스크를 완전히 없앨 수는 없다. '리스크가 있는가?' 가 아니라 '리스크가 얼마나 되는가?' 를 물어야 한다.

    4. 끊임없이 리스크의 절대값을 물어라. 상대적인 리스크는 증가든 감소든, 착오로 이어지기 마련이다. 리스크가 거의 없을 확률이 100% 라는 것은 언제나 거의 불가능하다.

    5. 퍼센트의 바탕에 주목하라. 무엇에 대한 퍼센트인가?

    6. '과학적으로' 혹은 '유의미한' 이라는 형용사의 남용을 주의하라. 

    7. 표본조사에서는 표본으로 누가 파악되는지, 특히 누가 파악되지 않는지 물어라.

    8. 증가율을 절대 산술적인 수치로 생각하지 마라. 60% 이상과 50% 이하의 평균은 5% 이상이 아니다.

    9. 통일된 기준에 주목하라. 누가 환자고 누가 실업자인가? 개념 규정에 따라 결과는 전혀 달라진다.

    10. 우연이 큰 역할을 한다는 것을 인정하라. 경제생활이나 사회생활은 물론이고 일상생활에서도. 우리가 안다고 믿는 많은 기준은 전혀 기준이 되지 못한다. 전체를 반복하면 그 기준은 사라진다.


★ 괴짜 통계학에서 소개한 방송위원회 '방송의 여론조사 보도 기준'


    1. 조사의 주관자와 후원자

    2. 조사 대상 모집단에 관한 정보

    3. 자료 수집의 구체적인 정보

    4. 표본의 크기와 추출 방법

    5. 실제 조사에 사용된 설문

    6. 조사 시기

    7. 표본 오차와 신뢰 수준

    8. 오차의 요인들에 관한 정보


★ 한국조사연구학회 여론조사보도지침 - 여론조사 보도에서 언론인이 던져야 할 20가지 질문 

    1. 누가 여론조사를 실시했는가?
    2. 누가 여론조사의 비용을 지불했으며, 조사의 목적인 무엇인가?
    3. 조사응답자의 수는 몇 명인가?
    4. 조사대상자들을 어떻게 선정했는가?
    5. 조사대상자의 모집단을 어떻게 규정하고 있는가? 조사대상자를 어느 지역 혹은 어떤 집단에서 구했는가?
    6. 여론조사 결과는 모든 응답자들의 대답에 근거하여 산출한 것인가?
    7. 응답률은 얼마인가?
    8. 언제 여론조사를 실시했는가?
    9. 어떤 조사방법을 사용했는가?
    10. 인터넷이나 웹 상에서의 여론조사는 믿을만한 것인가?
    11. 여론조사에서 표집오차란 무엇인가?
    12. 누가 선두인가?
    13. 조사 결과를 왜곡시키는 요인으로는 또 어떤 것이 있는가?
    14. 어떤 질문을 사용했는가?
    15. 어떤 순서로 질문했는가?
    16. 여론조사를 가장한 "푸시 폴(Push Poll)" 은 어떻게 해야 하는가?
    17. 동일한 주제에 관한 다른 조사들이 있었는가? 그 조사들도 같은 결과를 보여주는가? 다르다면, 왜 다른가?
    18. 묻고자 하는 질문은 모두 물었다. 대답 또한 매우 그럴듯 해 보인다. 그렇다면 그 조사는 정확한 것이라고 생각할 수 있나?
    19. 잠재적 문제가 있음에도 불구하고 조사결과를 보도해야 하는가?
    20. 이 여론조사 결과는 보도할 가치가 있는가?



● 벌거벗은 통계학 목차


들어가며 - 1그램의 정보가 1톤의 의견보다 무겁다!

1장. 진실, 거짓, 그리고 탐정

- 지니계수는 공정한가

- 무의미한 정보를 유의미한 결과로 만드는 통계학

- 숫자로 표현하고, 숫자로 비교하다

- 부분을 보고 전체를 추론하다

- 확률로 리스크를 예측하다

- 통계라는 이름의 탐정

- 통계학을 배워야 하는 궁극적인 이유

2장. 메이저리그, 역대 최고의 야구선수는 누구일까?

- 3억 3000명의 경제 수준을 요약하다

- 평균을 좌우하는 이탈값과 변함없는 중앙값

- 절대 수치와 상대 수치

- 평균으로부터 흩어져 있는 정도, 표준편차

- 평균을 중심으로 좌우 대칭을 이루는 정규분포

- 절대 수치를 알 수 없는 퍼센트

- 복잡한 정보를 하나의 숫자로 만드는 지수

- 통계는 결과가 아니라 과정이다

- 부록 : 분산과 표준편차 공식

3장. 숫자의 함정, 사실을 왜곡하는 아주 교묘한 거짓말들

- 정확성과 정밀성의 함정

- 분석 대상 정의의 함정

- 분석 단위의 함정

- 평균과 중앙값의 함정

- 수치 비교의 함정

- 통계 분석의 함정

- 통계 조작의 함정

4장. 넷플릭스는 내가 좋아하는 영화를 어떻게 찾아낼까?

- 변수들의 연관성을 나타내는 상관계수

- 텔레비전 수와 SAT 점수의 상관관계

- 개인의 취향을 찾아내는 알고리즘

- 부록 : 상관계수를 찾는 공식

5장. 보증 기간 연장에 돈 쓰지 말라

- 블라인드 테스트에도 당당했던 슐리츠

- 1,267,650,600,228,229,401,703,205,376 분의 1

- 교통사고 발생률을 높인 9.11 테러

- DNA 샘플로 유죄를 인정할 수 있는가

- 숫자와 문자로 조합된 비밀번호

- 큰 수의 법칙

- 보험 회사와 기대 손실

- 기댓값 측정을 위한 의사 결정 트리

- 범죄 예측은 정말 가능한가

- 우리의 소비를 좌우하는 신용카드 회사

51/2장. 몬티 홀의 딜레마. 염소와 자동차는 어디에 있을까?

6장. 국제 금융 시스템을 망쳐놓은 확률의 달인들

- 금융 분석가들의 고장난 속도계, VaR

- 확률을 다루는 사람들의 흔한 실수들

독립적이지 않은 사건을 독립사건으로 추정

독립적인 사건에 대한 이해 부족

암 다발 지역의 우연성

검찰의 오류

평균회귀

통계적 차별

7장. 쓰레기를 넣으면 쓰레기가 나온다

- 데이터의 조건 1. 모집단을 대표하는 표본

- 데이터의 조건 2. 비교 가능한 것

- 데이터의 조건 3. 없음

- 데이터로 거짓말하기

선택 편향

출판 편향

기억 편향

생존 편향

건강한 피험자 편향

8장. 슈퍼스타, 통계학의 르브론 제임스를 기억하라

- 마라톤 선수들이 탑승한 버스를 찾아라

- 모집단 평균과 표본집단 평균

- 표준오차

- 사라진 버스를 찾다

9장. 왜 교수님은 내가 부정행위를 했다고 생각했을까?

- 데이터로 사회 현상을 통찰하다

- 귀무가설과 대립가설

- 합리적 의심

- 귀무가설의 기각

- 통계적으로 유의한 것들의 증명

- 표본 평균과 모집단 평균의 비교는 어떻게 가능한가

- 표준오차를 구하는 법

- 귀무가설의 긍정 오류와 부정 오류

- 부록 : 평균 차이의 표준오차 계산

- 부록 : 단측검정과 양측검정

10장. 여론을 보다 정확하게 파악하는 방법들

- 미국을 대표하는 1000 명의 여론

- 68퍼센트 신뢰도와 95퍼센트 신뢰도

- 500명 표본과 2000명 표본의 차이

- 여론조사를 검토할 때 필요한 질문들

의견을 알아내고 싶은 모집단에 대한 정확한 표본을 추출하였나?

관심 주제에 대한 정확한 정보를 이끌어낼 수 있게 질문이 제시되었는가?

응답자가 사실을 말하고 있는가?

11장. 데이터를 분석하는 기적의 만병통치약

- 변수들의 상관관계

- 스쿼시를 해서 건강한가, 건강해서 스쿼시를 하는가

- 최소제곱법과 잔차

- 종속변수와 설명변수

- 교육, 체중, 운동, 가난, 인종의 상관관계

- 업무 결정권이 낮은 공무원의 질병 발생률

- 부록 : t-분포

12장. 명백한 데이터 앞에서도 논리를 잊지 말라

- 비선형 관계를 분석하는 데 선형 회귀분석을 사용한 경우

- 상관관계와 인과관계는 다르다

- 역인과관계

- 변수 누락 편향

- 서로 관련이 깊은 설명변수(다중공선성)

- 데이터 범위를 벗어난 추정

- 데이터마이닝(지나치게 많은 변수)

- 명백한 데이터 앞에서도 논리를 잊지 말라

13장. 하버드에 가면 정말로 인생이 바뀔까?

- 무작위 통제 실험

- 자연 실험

- 비동질 통제

- 이중 차이

- 불연속 분석

맺음말. 통계로 답할 수 있는 다섯 가지 질문

- NFL 의 미래는 어떨까?

- 자폐증 발생 빈도가 급격히 증가한 원인은(만약 있다면) 무엇일까?

- 어떻게 하면 좋은 학교와 교사를 가려내어 보상할 수 있을까?

- 세계 빈곤 문제와 싸우는 가장 좋은 방법은 무엇일까?

- 당신에 대해 알게 되는 사람은 누구인가?

사의 글



● 통계의 함정 목차


1부. 위험성과 부작용


01. 위험하다는 말을 그대로 믿어서는 안된다

- "최대의 리스크는 최소한의 리스크도 감수하려고 하지 않는 것이다" - 버트런드 러셀

- 발트 해의 콜레라

- 콜레스테롤 강하제가 뇌졸증을 48퍼센트 낮춰준다

- 시카고 범죄율 17퍼센트 증가

- 고속도로를 확장하지 않고 어떻게 수용 능력을 높일 것인가?

- 어떻게 손실에서 이익을 만들어낼까?

- 두 가지 잣대를 이용하는 기술

- 결론

02. 당신을 퍼센트를 이해하는가?

- "알다시피 감독은 자주 질책할 수 있다. 선수마다 10%만 생각이 부족해도 11명이면 110퍼센트가 된다." - 스포츠 전문기자 베르너 한슈

- 절반의 절반은 0 이 아니다

- 50퍼센트 비싼 것이 2배 비싼 것인가?

- 기준에 따라 다르다

- 퍼센트포인트 대 퍼센트

03. 주의 : 10월은 유방암의 달

- "유방암 검사를 받지 않았다면 가슴 외에 더 많은 부위의 검사를 받아야 한다." - 1980년대 미국암협회의 캠페인 포스터

- 대비보다 조기 발견!

- 마모그래피 검사의 유용성과 폐해

- 러시아 여성은 독일 여성보다 검사의 유용성 인지력이 뛰어나다

- 여성들을 어떻게 속이는가?

- 의사들을 보건 통계를 이해할까?

- 핑크색 대신 계몽을!

04. 제로 리스크 환상

- "아무리 적어도 유해물질이 검출되면 나머지 모든 것을 발견하게 된다." - <슈피겔>

- 약과 독은 오직 용량의 문제

- 한계용량을 둘러싼 보이지 않는 전쟁

- 안전에 대한 환상

- 전체적으로 왜곡된 리스크 편향

- <에코 테스트>의 사례


2부. 데이터 마이닝과 선택


05. 여성에 대한 폭력

- "우연도 아무 근거 없이 일어나는 것이 아니라 나름대로 규칙이 있다." - 노발리스

- 모든 이론은 불투명하다

- 독신생활의 흐름을 보여주는 설문

- 부족한 답변

06. 명사수 효과 : 통계학에서 배우는 난센스

- "가설검정은 사실을 배체하는 데 적합하지 않다. 적어도 남용이라고 볼 수 있을 것이다." - 도르트문트 대학교 통계학 시험에서

- 출발점으로서의 가설

- 언제 영가설을 받아들이지 않는가?

- 과소평가된 제1종 오류

- 구하면 얻으리라

- 가설을 받아들이지 않는 것만이 훌륭한 가설이다

07. 고를레벤의 여아 감소

- "바티칸 라디오 방송국 부근에서 빈발하는 벽혈병" - <FAZ>

- 백혈병에 얽힌 커다란 수수께끼

- 크뤼멜과 끝없는 가설

- 그라이저의 연구

08. 폴란드인이 독일인보다 부지런하다

- "머릿속에 숫자와 부호만 들어있는 사람은 인과관계를 알아낼 수 없다." - 아르투르 쇼펜하우어

- 수습 기간의 스트레스?

- 양계장의 항생물질


3부. 비율과 순위


09. 쉽게 만드는 실업률

- "실업률을 떨어뜨리는 방법은 통계적 속임수 밖에 없다." - <벨트>

- 정치의 노리개

- 목소리를 높이는 통계

- 분수의 두 번째 부분

10. 범죄의 수도 바티칸

- "플라멩코를 추고 텔레비전 진행자로 일하는 세계에서 가장 아름다운 여성." - <슈피겔 온라인>

- 범죄자 대부분은 어디에 사는가?

- 루르 지역의 교통사고 피해자

- 부자인가 아닌가?

- 어떻게 많은 것 중에 하나를 고르는가?

- 본이냐 베를린이냐?

11. 독일은 가난해지는가?

- "미치긴 했지만 조리는 있군." - <햄릿> 제2막, 제2장

- 핵심 변수로서 소득의 문제

- 소득 대 재산

- 빈곤은 물질만의 문제가 아니다

- 통계의 중대한 잘못

- 센의 빈곤 개념

- 센이 보는 실제의 빈곤 개념


4부. 단순 확률과 조건부 확률


12. 나이가 들수록 더 행복하다고?

- "확률 계산의 큰 장점 중 하나는 첫인상을 불신하는 법을 배운다는 것이다." - <확률에 관한 철학적 시론>

- 추가 정보의 의미

- 바꿔야 할까 바꾸지 말아야 할까 : 유명한 염소 문

- 나이가 들수록 더 행복해질까?

- 예수 그리스도의 무덤

- 대표성 발견법의 함정

13. 불평등한 일에 대한 불평등한 임금

"- ...같은 일을 하는데도 여성의 소득이 남성의 77퍼센트밖에 안되는 소득 격차를 주목해야 한다..." - 독일 우르술라 폰 데어 라이엔 장관

- 성별 임금 격차

- 임금 격차는 줄어들지만 차별은 늘어나고

- 대졸자 비율에 대한 집착


5부. 상관관계와 인과관계


14. 초콜릿을 먹으면 날씬해진다?

- "내가 샹페인 한 병을 다 마신 날이면 그때마다 아내가 임신했다." - 한스 메이어

- 잊어버린 변수

- 무엇이 원인이고 무엇이 결과인가?

- 완벽한 실험

- 실험의 난센스

15. 암의 위험성에 관한 신화

- "우리가 숨 쉬는 공기, 우리가 마시는 물, 우리가 취급하는 화학물질, 우리가 삼키는 알약이 암이라는 데는 의심할 여지가 없다. 암은 산업화의 대가로 내는 세금이며 환경의 질을 되돌릴 수 없게 한 고삐 풀린 경제성장의 결과다." - <차이트>

- 암 위험성의 원인

16. 뚱뚱하면 머리가 둔해진다

- "아이큐를 떨어뜨리는 고무젖꼭지. 젖먹이 때 고무젖꼭지를 빤 아이는 성인이 되면 아이큐가 낮다." - <AP통신>

- 어디서 비롯된 것인가?

- 콜레라와 흡연

- 다시, 상관관계냐 인과관계냐?


에필로그

용어설명



● 괴짜 통계학 목차


1장. 우연을 가장한 필연의 법칙


01. 머리 식히는 문제 몇 개

02. 머피의 법칙? 머피의 오류!

03. '우연의 일치'야말로 우연일 뿐이다

04. 포탄이 떨어진 자리에 몸을 숨겨라?

05. 노스트라다무스 예언의 적중률

06. 코가 큰 사람은 그것도 크다?

07. 치마 길이와 경기의 상관관계

08. 상관관계 vs. 인과관계

09. 오사카 사람들은 성격이 급하다?


2장. 숫자를 이해하면 인생이 명쾌, 통쾌해진다.


10. 숫자, 좋아하세요?

11. 숫자를 두려워하는 사람들

12. 노벨상 수상자를 이긴 부인의 판단

13. 행복한 이기주의자의 평균 선택법

14. 평균을 알아야 연봄을 더 받지

15. 흩어져 있는 정도를 알아야 한다

16. 퍼센트의 현란한 기준에 속지 말자

17. 담뱃값과 흡연인구


3장. 통계, 알면 약이고 모르면 독이다


18. 로또 당첨, 혹시 조작은 아닐까?

19. 통계는 살인범도 구한다.

20. 딸 부잣집의 속사정

21. 점쟁이가 떼돈을 버는 이유

22. 사이비 치료법은 왜 성행하는가?


4장. 알쏭달쏭, 현란한 눈속임의 통계들


23. 입학시험에서 남녀차별, 있다 vs. 없다

24. '2년생 징크스'의 진실

25. 깜빡 속기 쉬운 그래프의 속임수들

26. 함정을 파고 있는 그래프들의 실제 사례

27. 그럴 듯한 숫자놀음

28. 찬성율 33%를 67%로 올리는 간단한 방법

29. 포인트를 붙이느냐 마느냐가 바로 포인트!

30. 이혼하면 수명이 짧아질까?

31. 특성과 조건이 결과를 좌우한다

32. 다빈치의 IQ 가 135라고?


5장. 수치를 모르면 코 베어가도 모르는 세상


33. 평균을 강요하지 않는 사회를 위하여

34. 표본만 조사해도 다 나와!

35. 오르가슴을 통계로 나타낸다고?

36. 원하는 답을 유도하는 질문

37. 표본의 크기와 대표성

38. 과학적이지 않은 과학실험

39. 효과적인 자료수집 방법

40. 사람들은 자연스럽게 거짓말한다

41. 퍼센트와 퍼센트포인트를 구별하자

42. 속내를 알 수 없는 부동층

43. 못 믿겠어, 근거를 대봐!

44. 정확한 수치를 이용하고 과장된 수치를 파악하는 힘


'읽어본 책' 카테고리의 다른 글

모두 거짓말을 한다  (0) 2018.12.09
무기화된 거짓말  (0) 2018.12.05
괴짜경제학  (0) 2018.11.25
아웃라이어  (0) 2018.11.24
보이지 않는 고릴라  (0) 2018.11.17