[BOOK]Naked Statistics
들어가며:1그랩의 정보가 1톤의 의견보다 무겁다!
Monty Hall의 문제. 데이터를 꿰뚫어 보는 직관의 힘
누구도 미적분이 어떤 중요한 의미를 가지고 있는지 제대로 설명해주지 않았기 때문이었다. 통계는 다방면에 널리 이용되면서도, 모순되게도 재미 ㅇ벗고 어렵다는 오명을 면치 못하고 있다. 이는 수많은 통계 관련 책과 수업이 수학과 전문 용어에 지나치게 치중된 탓일 것이다. 그러나 통계를 배우기 위해서는 세밀한 기술적 지식도 중요하지만, 직관적 통찰 없이는 그 모든 것이 그저 알아들을 수 없는 외국어 처럼느껴질 뿐이라는 것을 저자는 꼭 말하고 싶어한다. 통계는 생각보다 훨씬 흥미롭고 대부분 그리 어렵지도 않다. 하나의 예시로 무한급수가 어떻게 유한한 값에 수렴하는 지를 이해시키는 방법으로 두 사람사이의 거리를 남은 거리의 절반씩 이동하는 방식으로 무한급수의 원리를 설명했다. 이렇게 저자의 경험에 의하면 직관은 수학을 비롯한 세세한 기술적 지식들을 더욱 이해하기 쉽게 해주지만, 반대로 수학이나 기술적 지식들이 직관적 통찰력을 높여주는 것은 아니라고 한다.
통계와 관련해 언뜻 모순 되어 보이는 것에 대해 이야기 한다. 근무 중 잠깐의 휴식을 취하는 직장인들이 암에 걸려 사망할 위험이 훤씬 높다는 기사가 떴다고 가정해보자. 이 가정에서 사람들은 쉽게 휴식을 만류하기 위해 대책을 강구해야 할것이라 생각한다, 그러나 실상은 휴식을 취하는 직장인들이 담배를 피울 가능성이 크고 암을 유발하는 원인은 담배일 가능성이 훤 씬 크다고 추론해야할것이다, 다소 우스꽝스럽게 지어낸 사례지만 분명 현실에서도 이처럼 어이없는 엉터리 통계 분석을 쉽게 찾아볼수있따.
통계는 고성능 무기와 같아서 올바로 이용되면 유익하지만, 잘못쓰이면 치명적인 재앙을 불러올 수 있다,. 이 책은 읽는 당신을 통계 전문가로 만들어 주지 않을 것이다 그러나 이책을 통해 통계에 충분히 주의를 기울이고 신중하게 접근함으로써 치명적인 핗를 주지 않도록 하는것이다. 통계로 거짓말하기는 쉬워도 통계없이 진실을 말하기는 어렵다 - Andrejs Dunkels
1장_진실, 거짓, 그리고 탐정
통계치는여러 측면을단순화시키지만 이는 강점인 동시에 약점이다. 지니계수도 복잡한 정보들을 하나의 숫자로 표현하는 간편한 도구이다. 이 자체가 어떤 의미를 지닌 것은 아니고, 다만 비교를 위한 도구이다. 통계는 정보의 또 다른 매력적인 이름인 데이터 처리를 돕는데 쓰인다. 데이터는 때로 스포츠 점수만큼 사회적으로 크게 중요하지 않은것도있지만 때로는 소득 분배에 관한 지니계수처럼 인간 존재의 본질에 대한 통찰을 제공하기도 한다 통계학의 주요 기능중하나는 정보를 다 갖고 있지 못한 상태에서 현재 가진 데이터를 사용해 비교적 큰 물음에 대해 좀 더 잘 추측하는것이다 즉, 미지의 세계를 알려진 세계에서 나온 데이터를 사용해 추론 하는것이다.
카지노의 경우 결국 돈을 버는 것은 카지노이다. 언제나 그렇다. 그렇다고 어느 순간에나 돈을 번다는 뜻은 아니다. 벨이 울리고 휘슬이 울려퍼지는 때는 어떤 하이롤러가 수천달러를 따는 순간이다. 그러나 기본 확률이 카지노에 유리할때, 아무리 벨이 울리고 휘슬 부슨 소리가 계속 난다고 해도 도박이 거듭될수록 결국에 가선 카지노가 이기는 경우가 늘어난다는 사실은 분명하다
2008년의 금융 위기는 카지노의 경우처럼 극히 일어나기 어렵다고 생각되는 일련의 사건들로 촉발되었다고 볼수 있다. 이에 가장 중요한 것은 위험을 다루는 그 어떤 모델도 밑바탕에 확률이 내재되어 있다는 사실이다. 확률은 효과적인 무기이지만 사용하는데 현명한 판단력이 필요하다 우리는 인간을 실험용 쥐처럼 취급할수없다 따라서 통계학은 추리를 잘하는 탐정들의 업무와 꽤 비슷하다. 데이터는 궁극적으로 의미있는 결론의 토대가 될 실말리와 패턴을 만들어낸다.
통계학의 궁극적인 목적은 수학 그 자체에 있다거나 앞선 통계적 기술로 친구와 동료들 앞에서 으쓱대는 데 있지 않다. 통계학의 쓰임새는 우리 생활에 유용한 정보를 제공하는 데 있다,. 최상의 상황에서도 통계적 분석이 진실을 온전히 밝혀내는 경우는 매우 드물다. 불오나전한 데이터를 토대로 특정 상황에 적용되는 판단을 내리게 된다 그 결과 개인들이 어떤 통계적 결과나 그 의미에 대해 결코동의하지 못하는 수많은 이유들이 존재한다. 통계적 분석은 솜씨 좋은 탐정 업무에 더 가깝다. 똑똑하고 정직한 사람은 데이터가 시사하는 바를 잘 분별한다. 하지만 통계학을 이용한다 해서 몯 ㅜ똑똑하거나 정직하다고 볼 수 있을까? 이책은 How to Lie with Statistics에 대한 존경의 의미로 쓰였따. 이 책은 가장 흔한 통계적 오류와 그릇된 설명의 수많은 사례를 살펴본다 그러한 오류를 이용하기 위해서가 아니라 그런 오류를 발견해내기 위해서이다.
메이저 리그, 역대 최고의 야구선수는 누구일까?
야구에서 불리는 할푼리 타율을 기술 통계 혹은 요약 통계(summary statistics)라 한다.
모든 미국인의 이름과 소득 이력이 수록된 자료 파일에는 한 나라의 경제적 건정성에 대해 이제껏 우리가 알고자 했던 모든 정보가 담겨있을 수도있다. 하지만 방대가히만 하고 다듬어지지않아서 우리에게 아무것ㄷ고 알려주지 못할것이다. 역설적으로 데이터가 많을 수록 명료함은 떨어진다 그래서 복잡한 데이터 집합을 기술하는 몇개의 숫자로 줄이는 단순화가 필요하다. 좋은 소식은 이런 기술 통계들이 분명하지 않은 현상에 관한 관리할 수 있고 의미있는 요약을 제공한다는 사실이다. 그러나 나쁜 소식은 단순화가 잘못 이용될 수도있다는 사실이다.
기술을 위한 첫번째 작업은 데이터 집합의 중간(middle) 혹은 통계학자들이 중심 경향(central tendency)이라고 부르는 것을 찾아내는 것이다. 분포의 중간을 알아내는 가장 기본적인 측정 방법은 평균이다.그러나 평균이 중간을 의미한다고 하기에는 약간의 문제가 있다는 사실이다. 바꿔말하면 평균은 이탈값(outlier)에 의해 왜곡되기 쉽다. 예를 들면 한 술집안에 빌게이츠가 들어오면 술집안의 사람들의 평균 소득이 확 높아지는 것과 같이 말이다. 이러한 이유로 평균과 다른 방식으로 분포의 중간을 나타내는 중앙값을 사용한다. 중앙값이나 평균은 둘다 계산이 어렵지 않다 중요한 것은 특정 상황에서 중간을 측정하기 위해 어떤 방법을 사용할지 결정하는것이다.
한 초등학교에서 학업 성취도를 평가 하는 수학 시험에서 60개중 43개를 맞췄다고 했을때 절대 성적은 별 의미가 없다. 해당 정답의 개수가 전체 초등학교에서 83번쨰 백분위에 들어간다면, 이학생은 초등학교 전체에서 대부분보다 공부를 잘한다고 할 수 있다. 이 처럼 백분위 수(상대점수)가 정답 개수(절대점수)보다 의미가 있다,.
뒤죽박죽으로 보이는 숫자들을 기술하는 또 다른 통계치가 표준편차인데, 데이터가 평균에서 얼마나 흩어져있는 지를 나타내는 척도이다. 평균 주변의 산포를 측정해 하나의 숫자로 표시하는 기술 통계다. 이런 산포의 측정이 왜 중요할까? 표준편차는 분산도를 측정하는 것으로 조사 대상이 평균 주위에 얼마나 빽뺵하게 모여있는지를 나타낸다. 일반적으로 관찰값 대부분이 평균과 1 표준편차 범위 내에있다
가장 중요하고도 도움이 되는 일반적인 분포 중 하나인 정규분포는 여러 가지 일반적인 현상을 기술한다. 이는 종 모용의 좌우 대칭을 이루고 관찰값들이 평균에서 ㅂ표준편차 범위에 속하는 비율(68.2), 2표준편차 범위에 속하는 비율(95.4), 3표준편차에 속하는 비율(99.7)에 대한 비율에 대해서 정해진 수치가 있다는 사실이다. 하찮게 들릴지도 모르지만, 사실 이것이 통계학의 많은 부분을 이뤄낸 토대이다.
상대적 비교를 할 때 의미를 부여하는 가장 쉬운방법은 백분율을 사용하는 것이다. 그러나 백화점에서 20%를 인하하고 다시 20%를 올리면 처음 가격과 같을까? 이는 그저 웃어 넘길 수 있는 재미난 퀴즈가 아닌 우리를 혼란스럽게 만들 가능성이 있고 심지어 속이기까지 하는 문제이다. 이러한 백분율의 변화는 항상 다른 무언가와 비례한 상대적인 가치라는 사실이다 그러므로 비례대상이 무엇인지 잘파악해야한다 한 가지 더 구별하자면 퍼센트 변화를 퍼센트 포인트 변화와 혼동해서는 안된다. 세율이 최근 3퍼센트에서 5퍼센트로 인상되었다고 하자. 그럼 3에서 5로 2퍼센트 포인트가 올랐다고 할 수 있고, (5-3)/2로 67 퍼센트가 올랐다고 할 수 있다. 두 가지 방법 모두 엄밀히 따지면 정확한 설명이지만 두번째 부분이 가져올 영향력을 더 정확하게 알려준다고 말하고 싶다.
복잡한 정보를 하나의 숫자로 만드는 지수 다른 여러 기술 통계츠릴 종합해 만든 또 다른 기술 통계치이다. 안타깝게도 모든 지수의 단점 역시 수많은 복잡한 정보를 통합해 하나의 숫자로 나타낸다는 데 있다. 지수를 만들기 위해 대충 꿰맞춘 여러 기술 통계와 통계의 구성요소 각각에 주어진 가중치에 모든 지수는 굉장히 민감하게 반응한다. 결과적으로 지수는 불완전하지만 유용한 도구 일 수 있고, 완벽한 속임수가 될수도있다.
통계는 결과가 아니라 과정이다. 기술 통계는 우리의 관심사에 대한 통찰을 제공한다. 기술 통계를 활용하면 다양한 결론을 이끌어 낼 수 있다.
경제적 건전성을 평가할때 우리는 소득(다른 여러 소득원에서 받는 보수의 총합)이나 임금(근로시간에 대해 정해진 금액을 지급받는것)을 조사해볼수있다 위와 같은 내용을 토대로 30년간 미국인의 임금을 나타낸 그래프에서 다양한 결론을 이끌어 낼 수 있다. 데이터는 중산층의 경제적 부에 고나해 단 하나의 정답을 제시하지 않는다. 하지만 중앙값에 해당하는 임금을 받는 전형적인 미국 근로자 계층이 30년 가까이 제자리 걸음을 하고 있음을 부여준다.한편 상위 백분위에 있는 근로자들의 상황은 훨씬 좋아졌다. 기술 통계는 이런 사회적 문제를 파악하는데 기여한다. 이제 우리가 해야할일은 이렇게 규명된 문제를 보면서 이데올로기적,정치적 물음을 던지는 것이다.
숫자의 함정, 사실을 왜곡하는 아주 교묘한 거짓말들
통계학이 수학에 뿌리를 두고 있고 수학은 정확하지만, 복잡한 현상을 설명하는 통계의 ㅘㄹ용은 정확하지 않다. 이 때문에 진실이 가려질 가능성도 크다. 불순한 동기를 가진 누군가가 전적으로 의심스럽거나 불법적인 결론을 뒷받침하기 위해 지극히 올바른 사실과 수치를 끌어다 쓸수도 있는것이다. 정밀성(precisin)과 정확성(accuracy)의 중요한 차이점 부터 살펴보자. 정밀성은 우리가 무엇인가를 얼마나 정교하게 표현하는 지를 의미하고, 정확성은 어떤 수치가 진실과 전반적으로 얼마나 일치하는 지를 재는 처도이므로 정밀하다고 해서 저확하다고 착각하면 위험하다. 사실 정밀성은 확실하다는 그릇된 인식을 심어줌으로써, 은연중에 혹은 다분히 의도적으로 부정확함을 감추기도 한다. 심각한 영향을 미치는 사례를 드어보자. 2008년 금융위기 이전 월스트리트의 리스크 관리 모델 대부분은 매우 정밀했다. value at risk라는 개념은 발생 가능한 기업의 최대 손실금액을 정밀하게 수량화 할 수 있도록 해주었다.이를 통해 얻는 해답은 불안감을 없애줄 정도로 정밀했다. 그러나 이 모델들에 내재된 글로벌 금융 시장을 예측하는 가정들은 명백히 잘못된 것이었고, 이로 인해 월스트리트뿐만 아니라 세계 경제 전체를 위태롭게 만드는 지극히 부정확한 결론이 도출되고 말았다. 가장 정밀하고 정확한 기술 통계라도 더 기초적인 문제, 즉 정확히 무엇을 정의하고, 기술하고, 설명하려는 것인지 명확하지 않아서 생기는 문제를 겪을 수 있다.
분석 단위의 함정. 단순한 성과 측정치에 동의할 떄에도 통계적인 해석의 여지는 많다. 두가지 모두 사실일 수 있는 가상의 명제들을 살펴보자 학교 수준이 점점 나빠지고 있습니다. 전체 학교 가운데 60퍼센트가 지난해에 비해 올해에 시험 점수가 떨어졌습니다. 학교 수준이 점점 좋아지고 있습니다. 전체 학생 가운데 80퍼센트가 지난해에 비해 올해에 시험 점수가 올랐습니다. 힌트는 학교마다 학생수가 모두 같지는 않다는 것이다. 얼핏 서로 모순되어 보이는 두 주장을 다시 살펴보면, 통계에서 비교되거나 묘사되는 대상인 분석단위를 다르게 사용했다는 것이다.
치명적인 병에 걸렸다고 가정해보자. 다행히 치료에 효과적인 신약이 개발되었고 기대 수명 중앙값이 2주 늘어난다고 알려준다. 그러나 이 경우 중앙값은 대단히 잘못된 판단으로 이끄는 통계일 수 있다. 많은 환자들이 약으로 효과를 보지 못했지만 40퍼센트는 왼치되었다고 가정해보자. 이러한 경우는 중앙에서 위인지 아래인지만 따지는 중앙값의 특성이 약점으로 들어난다. 반대로 평균은 분산에 영향을 받는다. 정확성을 높이기 위해 중앙값과 평균 중 어느 것을 선택해야하는지에 대한 판단의 기준은 이탈값이 전체적인 기술을 왜곡하는지, 아니면 전달하고자 하는 메시지의 중요한 일부인지에 달려있다. 다시 말하지만 판단력이 수학보다 중요하다.
수치 비교의 함정 명목 수치(nominal)는 인플레이션을 감안하지 않은 수치이고, 실제(real) 수치는 인플레이션을 감안하여 조정된 수치이다. 일반적으로는 사과와 사과를 비교하기 위해 모든 수치들을 특정 연도의 단일 단위로 바꾸는 것이다. 이렇게 2011년 미국 내에서 가장 큰 매출을 올린 영화로는 <슈렉2>가 5위로 뽑혔다. 왠지 이 목록이 약간 수상쩍지 않은가? 이를 보도하는 ㅇ기자들은 단순히 명목 수치를 사용하는데, 최근 영화들이 더 성공한 것처럼 보이는 가장 큰 이유는 영화표의 가격이 비싸기 떄문이다. 자 다시 인플레이션을 감안한 미국 역대 최고의 흥행을 기록한 영화목록에서는 <슈렉2>가 31위까지 떨어진다. ‘사과와 사과’를 비교할 때에도 여전히 속임수가 끼어들 여지는 충분히 남아 있다. 앞 장에서 논의한 바와 같이 통계의 가장 큰 역할은 시간에 따른 수치의 변화를 기술하는 것이다. 백분율은 거짓말을 하지 않지만 과장 할 수는 있다. 성장세를 폭발적으로 보이게 만드는 방법 중 하나가 상대적으로 매우 낮은 시자 지점에서의 변화에 백분율을 사용하는 것이다.
통계 분석의 함정. 통계의 핵심은 우리의 관심사에 대해 의미있는 관점을 제시하는데있지만, 많은 경우 사람들은 이러한 수치들을 바탕으로 행동하기를 원한다. 유명한 경영학 경구에 “수치화 할 수 없다면 관리할 수 없다”는 말이 있다. 맞는 말이다. 그러나 수치화하고자 하는 대상이 정말 관리하고자 하는 대상과 일치하는지는 분명히 따져 보아야 할 것이다. 예를 들어 부유한 동네와 가난한 동네의 학교 중 최고의 고득학교 순위를 보도할때, 주 시험 성적 자료를 근거로 삼는다. 그러나 이것은 키 큰 학생들을 잘 모집햇으므로 그 농구 팀에 상을 준다는 논리와 똑같다.
통계 조작의 함정. 심지어 측정하고 관리하려는 대상에 대한 분명한 지표가 있어도 어려움은 계속된다. 다행스러운 점은 ‘통계에 의한 관리’를 통해 관리 대상 개인이나 기관의 근본적인 행동 방식을 개선할 수 있다는 것이다. 불량품 비율을 낮추는 노력의 대가로 인센티브를 제공함으로써 행동 방식을 바람직한 방향으로 변화 시킬 수 있을 것이다. 다만 어떤 경우에는 그저 통계치만 더 그럴뜻해 보이도록 노력하게 만들 수도 있다. 이는 달갑지 않은 사실이다. 학교의 시험 성적을 향상시키는 비도덕적인 방식은 성적이 가장 나쁜 학생들이 시험을 치르지 못하게 하는 것이다. 이렇게 되면 평균 성적은 올라가게 된다. 통계 지수(statistical index)는 여타 기술 통ㄱ에 있을 수 있는 잠재적 위험들에 더해 다수의 지표들을 하나의 숫자로 합치는 데에서 비롯되는 왜곡도 나타날 수 있다. 정의상 모든 지수는 구성을 어떻게 하는지에 민감할 수 밖에 없다. <USNWR> 순위는 미국의 대학교를 평가하기 위한 16개 지표를 사용한다. 그러나 각각의 지표에 얼마의 가중치를 부여할 것인지는 학교의 질을 판단하는 척도 가운데 무엇이 가장 중요한가에 대한 우리의 판단에 따라 갈린다. 이렇게 순위를 발표하는 것은 해로운 일이 아닌 듯 보이지만, 사실 학생들이나 대학 교육에 그다지 좋지 않은 행위를 부추기고 있다. 예를들어 경쟁률을 높이기 위해 실제로 입학할 가능성이 없는 이들까지 포함해 더 많은학생들이 자기 대학에 지원하도록 독려해 경쟁률을 높일 수 있기 때문이다. 확률을 다루는 다음 장으로 넘어가기에 앞서, 이러한 순위는 쉽게 사라지지 안을 확률이 높다고 예상한다. 바드 컬리지 학장 Leon Botstein이 이런 현실을 제대로 지적한다. “사람들은 쉬운 대답을 사랑한다. 가장 좋은 학교는 어디인가? 바로 1위에 오른 학교이다”
이번장의 전반적인 교휸은, 통계적 부정행위는 수학 기술이 부족하기 때문이 아니라는 것이다. 오히려 복잡한 계산이 사악한 동기를 숨길 수 있다. 판단력과 정직함이 무엇보다 중요하다. 법에 대한 세부지식이 범죄행위를 방지하지 못하듯, 통계에 대한 세세한 지식이 부정한 행위를 막지 못한다.
넷플릭스는 내가 좋아하는 영화를 어떻게 찾아낼까?
상관관계는 두가지 현상이 서로 관련되어 있는 정도를 측정한다. 그러나 이런 관계는 모든 관찰값이 패턴에 들어맞지 않기 때문에 까다롭다. 네슬릭스가 수백만명의 고객이 영화 수천 편에 매긴 평점을 산포도로 그린다면 결과가 넷플릭스 본사를 모두 다 덮어 버릴것이다. 반면 통계 도구로서 상관관계가 가진 강점은 두 변수의 연관성을 상관계수라는 단 하나의 기술 통계로 압축해서 표현할 수 있다는 사실이다. 상관계수에는 굉장히 매력적인 두 가지 특징이 있다. 첫째는 -1에서 1사이의 값이라는 것과 두번째 매력적인 특징은 단위가 ㅁ붙지 않는다는 것이다.키와 몸무게의 단위는 서로 다르지만 키와 몸무게 간의 상관관계를 계산할 수 있다. 상관계수는 기적 같은 일을 한다. 서로 다른 단위로 측정된 복잡한 데이터들을 명쾌한 하나의 기술 통계로 간단히 정리하는 것이다. 한 변수가 평균으로부터 떨어진 거리가 다른 변수가 평균으로부터 떨어진 거리와 대략사응ㅇ한다면 둘 사이에 강한 양의 상관관계가 있다고 예상할수 있다. 반면 다른 변수가 반대 방향으로 상응하는 경향이 있다면 강한 음의 상관관계가 있다고 볼 수 있다. 학업 적성 검사로 알려진 SAT 논리력 시험은 세 영역으로 이뤄진 표준화된 시험이다. 당신은 왜 SAT를 봐야하는지 깊이 생각해보지 않았을 것이다. 이 시험의 목적은 학업 능력을 평가하고 대학 성취도를 예측하는데 있다. “그럼 고등학교 성적은 왜 매기는가? 고등학교 성적을 볼 수 있는데 왜 네시간짜리 시험이 그렇게 중요한가?”라며 논리적으로 따질수 있지만 고등학교 성적은 불완전한 기술 통계이다. 따라서 SAT는 “모든 학생들에게 대학 진학의 공평한 기회를 주기 위해서” 만들어졌다. 그렇다면 이러한 관점에서 SAT는 얼마나 효과적일까? 대학 1학년 성적을 예측하는데 고득학교 평균평점과 대학교 1학년 평균 평점 사이의 상관계수는 0.56이고, SAT총점과 대학교 1학년 평점 평균과의 상관 관계 역시 0.56이다. 그리고 사실 가장 좋은 예측 방법은 SAT 점수와 고등학교 평균 평점을 조합하여 계산한 방법으로 이 점수와 대학교1학년 성적의 상관계수는 0.64다. 이런 전반적인 노의에서 중요한 점은 상관관계가 인과관계를 내포하지 않는다는 사실이다. 두 관계가 상관관계가 있다고해서 한 변수에서 일어난 변화가 반드시 다른 변수를 변화시킨다는 뜻은 아니다. 가정의 텔레비전 수와 SAT 점수 사이에 양의 상관관계가 있을 법하다고 넌지시 이야기를 하면 교육 수준이 높은 부모일수록 텔레비전을 여러대 구입할 경제력이 있고 그들의 자녀가 시험 성적이 평균보다 높은 경향이 있다는 것이다. 따라서 제3의 변수에 좌우될 가능성이 있다.
개인의 취향을 찾아내는 알고리즘 넷플릭스는 가장 기본적인 수준에서 상관관계라는 개념을 활용하고 있다. 내가 매긴 평점과 상관관계가 높은 평점을 준 사람들을 찾아내기 위해 다른 사람들의 평점과 비교한다. 이것은 “큰 그림”이고 실제로는 더 복잡하다.
보증기간 연장에 돈 쓰지 말라
한 맥주 회사는 NFL슈퍼볼 하프타임에 자신들의 맥주와 경쟁사들의 맥주를 가지고 블라인드 테스트를 진행했다. 100명의 테스트 참가자 중에서 적어도 40명이 해당 맥주 회사의 제품을 고르면 만족했을 거라고 가정해보자. 이론상 블라인드 테스트가 정말 동전 던지기와 같아다면 기본 확률 계산을 통해 최소한 40명이상이 해당 맥주 회사를 선택할 가능성은 98퍼세늩이고 최소한 45명이 선택할 가능성은 86퍼센트 인것을 알 수있다. 이론상 이 도박은 아주 위험한 도박은 아니었다. 여기서 우리는 두 가지 사실을 알 수 있다. 확률은 매우 강력한 도구라는 것과 1980년대의 주요 브랜드 맥주들은 서로 별 차이가 없었다는 사실이다.
확률은 불확실성이라는 요소가 수반되는 사건과 그 결과에 대한 학문이다. 확률을 기반으로 하는 분석은 매우 유용할 수 있다. 쉬운 부분부터 시작해보면 많은 사건에는 알려진 확률이 있다. 그러나 확률은 무슨 일이 일어날지 확실히 알려주지 않는다. 무슨 일이 일어날 가능성이 높고, 무슨 일이 일어날 가능성이 낮은지만 알려준다. 현명한 사람들은 사업과 일상생활에서 이와 같은 숫자를 확용할 줄 안다.
확률은 어떤일이 일어났을 가능성이 높은지 혹은 낮은지를 사후에 우리에게 알려주기도 한다. 한 예로 DNA 분석에서 자원이 한정되어 있거나 DNA 샘플이 너무 적거나 심하게 오염되어 전체를 검사하지 못하는 경우. FBI와 기타 수사 기관에서 법정에 제출하는 확률은 추정값이다. 여기서 FBI에 따르면 두 사람 사이에서 아홉개 이상의 유전자가 일치할 가능성은 1,130억 분의 1이라고 한다. 그러나 DNA 데이터 베이스를 검색한 결과, 아홉개 이상의 유전자좌가 일치하는 사람들이 1,000쌍 넘게 발견되었다. 여기서 알아야 할 것은 DNA 분석이라는 놀라운 과학도 그 확실성을 뒷받침하는 확률만큼만 유효하다는 사실이다.
다양한 사건의 발생확률을 알면 매우 유용한 경우가 많다. 예를 들어 비밀번호를 10$^{6}$이라는 경우의 수는 컴퓨터를 이용하면 금방 풀 수 있기에 36$^{6}$으로 바꾸어 안전한 비밀번호를 만들었다고하자 그러나 사건이 독립적인 경우에만 이공식을 적용할 수 있다는 것으로, 이는 한 사건의 결과가 다른 사건의 결과에 영향을 미치지 않음을 뜻한다.
확률은 또한 모든 경영상의 의사 결정, 특히 재무 분야에서 가장 유용한 도구인 기댓값을 계산 할 수 있게 해준다. 기댓값은 기본적인 확률에서 한 단계 더 나아간다. 이는 서로 다른 모든 결과의 합이며, 각각의 결과는 해당 확률과 해당 이득으로 가중치가 매겨진다. 실제로 얻을 수 있는 값이 아닐 수도 있는 기댓값은 언뜻 보면 상대적으로 별 소용이 없는 수치처럼 보인다. 그러나 사실 기댓값은 대가와 예상 결과가 주어졌을 때 특정 사건이 ‘공정’한지 여부를 알려줄 수 있기 때문에 매우 강력하다. 예를 들어 복권을 사면 절대 안되는 이유 역시 이와 같은 기본 분석을 통해설명할 수있다. 각각의 당첨금에 해당 확률의 가중치를 적용해 더한 뒤 즉석복권의 기대 당첨금을 계산해보면 1달러 짜리 복권의 기대 금액은 약 0.56달러로 계산 되었고, 1달럴르 쓰기에 완전히 형편없는 방법임이 드러났다. 이처럼 복권을 사는 것은 어리석은 짓이다. 이는 확률의 아주 중요한 교훈 중 하나이다. 물론 기본 확률로 판단한 결정이 좋지 않은 결과를 가져올 수도있고 좋은 결과를 가져올 수도있다. 하지만 결국에는 확률이 승리한다. 큰수의법칙(law of large numbers)으로 알려진 이론에 따르면, 시도 횟수가 늘어날수록 결과의 평균은 기댓값에 점점 가까워 진다고 한다. 마치 카지노가 항상 돈을 버는 이유와 같다.
이쯤 되면 품질기간 연장에 돈 쓰지 말라는 이장의 제목 뒤에 숨은 의미를 한눈에 알 수 있을 것이다. 전체 보험 산업은 확률을 기반으로 이루어진다. 4만달러짜리 자동차가 도난 당할 가능성이 0.1퍼센트라면 자동차의 연간 보험료는 40달러 이상이어야 한다. 바로 여기서 보험회사가 카지노나 복권과 똑같아진다. 소비자는 장기적으로 봤을 때 보험이 돈을 절약해주지 않는다는 사실을 알아야한다. 이처럼 보험에 드는 것은 통계학적으로 봤을때 보험에 드는 것은 잘못된 내기 이다 그러나 여전히 보험은 인생을 망가뜨릴 수도 있는 결과에 대비해 보호책을 마련하는 합리적인 도구가 될 수 있다. 기댓값은 서로 다른 시점에 온갖 비상사태가 벌어질 수 있는 복잡한 의사결정문제를 푸는 데에도 도움이 된다. 의사결정트리를 만들면 정보를 정리 할 수 있고. 각각의 결과와 연관된 확률이 정확하다면 해야 할 일을 확률적으로 검토하는 데 도임이 된다. 매력적인 기댓값을 가지고 있다해도 중요한 기회를 가능성이 낮은 결과에 선택하는 것은 당신의 선호도에 달려 있다. 큰 수의 법칙을 따르면 워런 버핏 같은 부자는 이처럼 결과는 불확실하지만 기대 수익이 매력적인 기회를 많이 찾아야 한다. 만약 기대 수익이 유리하다면 투자 횟수가 많아질수록 결과는 언제나 더 좋아지게 되어있다.
확률은 때때로 의심스러운 패턴을 알려줌으로써 우리에게 도움이 된다. 확률은 위험성을 탐색하는데 도움이 된다. 그리고 정보를 통해 관련 확률에 대해 더 잘 이해할 수 있다. 예를 들어 신용 회사에서 저렴한 식재료를 사는 사람은 대금을 제때 지불하지 않을 확률이 더 높다고 하자. 그러면 신용 회사에서는 이러한 사람들에게 대출을 해주지 말아야 할까? 확률은 우리에게 인생의 복권을 사지 않는 것과 같이 불확실성을 다룰 수 있는 도구를 제공한다. 그러나 확률은 결정적인 것이 아니다. 복권은 사지말아야 하지만 복권을 사서 당첨도리 수도 있다. 확률이 사기꾼과 범죄자를 잡는데 도움이 될 수도 있지만, 부적절하게 사용되면 죄 없는 사람을 감옥으로 보내야한다.
몬티 홀의 딜레마
‘몬티 홀 문제’는 <렛츠 메이크 어 딜> 이란 TV 게임 쇼에서 참가자들이 직면했던, 확률과 관련된 유명한 수수께끼이다. 참가자는 사회자 몬티와 함께 세개의 커다란 문을 마주하게 되고 한개의 문에만 값비싼 상품이 노여 있고, 나머지 두개에는 염소가 있다고 알려준다. 첫 선택에서의 확률은 명명백백하다. 그러나 첫 선택을 마친후 사회자는 남은 두개의 문 가운데 염소가 있는 문 하나를 열어 보여주고나서 선택을 바꿀 생각이 있냐고 물어본다. 여기서 참가자는 선택을 바꾸어야 할까? 그렇다. 자신의 선택을 고수하면 이길 확률은 1/3이 되고, 그렇지 않을 경우 2/3가 되기 떄문이다. 참가자가 마음을 바꿔 닫혀있는 다른 문을 선택한다고 해서 뭐가 달라질까? 중요한 것은 몬티 홀이 각각의 문 뒤에 무엇이 있는지 안다는 사실이다. 문이 열린 당므에 선택을 바꿈으로써, 참가자는 하나의 문이 아니라 두 개의 문을 선택하는 혜택을 본다.
직관적인 설명으로 당신이 1번문을 선택했다고 하자. 그러면 몬티는 2번과 3번 문두개를 대신 서택할 수 있는 기회를 제공한다. 그러면 당신이 자동차를 얻을 확률이 2/3로 늘어난 다는 것을 의미한다. 바로 그때, 몬티가 당신이 선택한 문 2개 중 염소를 보여준다면 어떨까? 그렇다고 당신의 결정이 후회 되는가? 물론 아닐 것이다. 문을 열어 보여주었다는 사실 자체에 현혹되지마라. 극단적인 경우를 가정해보자. 몬티홀이 100개의 문을 선택안으로 제시하고 당신이 하나를 선택 한 후 98개의 염소가 있는 문을 열어준다고 하자. 그러면 당신은 선택을 바꿔야 할까? 당연히 그래야한다. 처음에 선택하지 않은 99개의 문 뒤에 자동차가 있을 확률이 99퍼센트이기 때문이다. 따라서 여러 분야에서 당신의 확류에 대한 직관적인 생각이 때로는 당신을 잘못된 길로 인도할 수 있다는 교훈을 얻을 것이다.
검증이 필요. 그러나 이러한 것은 관점의 문제가 아닐까? 라고 생각이 든다. 만약 해당 룰을 알고 있고 마지막 결정에서 바꾼것도 똑같은 결과가 나올까?(?)
국제 금융시스템을 망쳐놓은 확률의 달인들
통계는 그것을 사용하는 사람들보다 더 똑똑할 수 없다. 경우에 따라서 똑똑한 사람이 통계 때문에 멍청한 일을 벌이기도 한다. 2008년 금융 위기 이전에 월스트리트에서 사용하는 리스크 측정 방법은 리스크 지표인 VaR$^{a}$모델을 사용했다. 이론적으로 해당 지표는 간결함과 확률의 힘을 겸비했다. 이 모델은 회사의 모든 투자에는 가능한 결과의 범위가 있다고 가정했다. 따라서 기업들이 해당 모델을 신뢰했고 확률이라는 강력한 도구이다. 이는 NFL 하프타임에 블라인드 테스트를 하느라 많은 돈을 쓰기 전에 해봤던 계산과 다름없지 않은가? 꼭 그렇지는 않다. 특히 이 모델은 금융 위기를 일으키고 심화시킨 원인으로 비난 받았다. 가장 주된 비난으로 근본적인 위험들이 동전 던지기나 맥주 블라인드 테스트 처럼 예측 할수 없다는 것이다. 모델에 내재된 잘못된 정밀도가 잘못된 안도감을 불러일으켰다. 이는 없는 것보다도 못한, 고장난 속도계와 같았다. 고장 난 속도계를 맹신하면 현재 속도가 위험하다는 다른 신호를 염두에 두지 않게 된다. 반대로 속도계가 아예 없다면 당신이 실제로 얼마나 빠르게 가고 있는지 단서를 찾기 위해 주위를 살펴볼 수 밖에 없다. 이 모델에 두가지 큰 문제점이 있었는데 첫째, 내재된 확률은 과거 시장의 움직임에 기초하고 있었다. 둘째, 기본 데이터가 미래의 리스크를 정확히 예측 할 수 있다 해도 이 모델이 제안하는 99퍼센트 확신은 위험할 정도로 쓸모가 없었다. 왜냐하면 정말로 곤란하게 만드는 것은 바로 1퍼센트이기 때문이다. 평소엔 잘 작동하다가도 사고가 나면 작동하지 않는 에어백과 같다는 말이 있다.
사건에 대비하는 과정에서 비현실적인 가정을 함으로써 이런 실수를 악화시켰다. 어떤 면에서 이 모델의 대실패는 맥주 블라인드 테스트 사례와 정반대이다. 해당 테스트 사례는 알려져있는 확률 분포를 이용했다. 그러나 이 모든게 그저 맥주였고 국제 금융 시스템은 아니었다는 사실이다. 금융시장 분석가들은 세가지 기본적인 실수를 저질렀다. 첫째, 그들의 정확성과 정밀성을 혼동했고 잘못된 정밀성으로 인해 리스크 관리가 되고 있지 않은데도 관리 된다고 믿었다. 둘쨰, 근본적인 확률 추정이 틀렸다. 셋째, ‘꼬리 리스크’를 간과했다. 이러한 통계적 교만이 결국 심각한 금융 침체를 불러왔다. 리스크를 줄이려고 이런 정교한 도구를 설계했다는 사실을 감안하면, 대단히 역설적인 결과다.
다루는사람들의 흔한실수들 확률은 강력하고 유용한 도구들을 제공한다. 이 중 상당수가 올바르게 사용되어 세상을 이해하는데 도움이 되지만, 일부는 올바르지 않게 쓰여 세상에 엄청난 피해를 입히기도 한다. 통계적 실수는 몇 가지 사건이 종속사건이 아니라 독립사건이라고 가정하는 데 있었다. 영국 검찰과 법원은 유아돌연사증후군(SIDS)과 관련되어 두 명의 아이가 돌연사를 할 확률은 매우 드물다고 설명해 많은 부모들을 감옥으로 보냈다. 심지어 앞서 신생아가 돌연사 했다는 이유로 다음 아기가 태어나자마자 부모에게서 아기를 뺏기까지 헀다. 왕립통계학회(The Rotal Statistical Society)가 조롱하듯 지적한 것처럼, 이 추론에는 명백한 오류가 있다. 유아돌연사가 완전히 무작위이며, 호가실히 연관 있는 어떤 요소가 없다면, 이확률계산은 맞다. 하지만 이러한 돌연사처럼 미스터리한 현상은 다른 어떤 요소와 연관되어 있을 가능성이 꽤 높다.
독립적인 사건에 대한 이해 부족. 또 다른 종류의 실수는 사건들이 독립적인데도 그렇지 않다고 여길 때 일어난다. 종종 ‘도박사의 오류’라고 부르는 이것은 카지노에서 “이제 나올 때가 됐다”고 단언하는 사람들을 보게 된다. 두 사건이 통계적으로 독립적이란 말은 한 사건의 결과가 다른 사건의 결과에 아무런 영향을 끼치지 못한다는 의미다. 확률과 관련된 가장 유명하고 흥미로운 학술 논문 가운데 하나가 이른바 ‘핫 핸드’라는 통념을 반박했다. 이는 농구 경기 중에 선수들이 연이어 골을 성공시키는 현상이 주기적으로 반복된다는 생각이다. 그러나 연이은 슛의 결과 사이에 양의 상관관계가 있다는 증가거 없다는 사실이 밝혀졌다. 핫 핸드를 주제로 한 이논문들은 사람들의 인식과 실증적 현실이 다르다는 것을 보여주었다는 데 의미가 있다. 저자들은 “사람들이 무작위성을 직관적으로 이해하는 방식은 우연의 법칙과는 근본적으로 다르다”라고 지적했다. 우리는 실제로 존재하지 않는 패턴을 인식한다.
우연성. 연달아 6명의 동전을 던져 앞면만 나온 사람만 살아남는다고 하자. 이렇게 하면 몇명은 남아있을텐데, 이 사람들은 우연히 앞면이 많이 나오게 동전을 던졌을 뿐이다. 하지만 우리가 앞뒤 상황을 무시하고 이와 같은 이례적인 사건을 보면 무작위성 뒤에 분명 무언가 원인이 있다고 추정하게 된다.
검찰의 오류. 우리는 DNA가 다른 사람과 일치할 확률은 100만분의 1이라고 정당하게 말할 수 있다. 그러나 범죄자리에 있던 사람과 DNA가 일치하는 범죄 현장에 없던 사람을 수사할때 두번째 사람은 우연히 범죄자와 비슷한 DNA를 가지게 된 100만명 중의 하나일 가능성이 크다. 100만명으로 구성된 샘플로 구성된 데이터 베이스와 샘플을 대조하면, 100만개 중에서 우연의 일치 한 개를 찾을 확률이 비교적 높기 때문이다.
평균회귀(평균 복귀). 운동선수나 팀이 표지나 잡지에 실린 이후로 다음 경기에 부정적인 영향을 준다고하는 징크스가 있다. 이보다 통계적으로 깊이 있는 설명은 운동선수나 팀이 이례적인 성적을 거두 었을 때 표지나 잡지에 실리기 마련이고, 그 다음부터는 그저 정상 상태, 즉 평균으로 돌아기기 때문이라는 것이다. 확률적으로 어떤 이상치(outlier)가 생기더라도 그 이후에는 장기적으로 평균에 더 가까운 결과들이 계속될 가능성이 많다.
언뜻 보기에 평균회귀는 ‘도박사의 오류’와 반대되는 것으로 보인다. 동전던지기에서ㅏ 연달아 뒷면이 여러번 나왔다는 사실이 다음번 동전을 던질 때 앞면이 나올 가능성을 높여주지는 않는다. 그러나 우리는 뒤이은 동전 던지기를 많이 한다면 큰 수의 법칙이 예측한 대로 50대 50이라는 평균 결과와 더 비슷해 질것이다.
통계적 차별. 확률이 시사하는 바에 따라 행동해도 항상 괜찮을까? 그럴 수 없는 경우는 언제 일까? 범죄가 일어나기 전에 막는다는 온갖 놀라운 방법들은 어떯까? 확률은 우리를 흥미롭지만 괴로운 곳으로 아내하기도 한다. 확률 기반 예측 모델에 따라 18~30세 히스패닉 남성일 확률이 높다고 한다면, 우리는 어떻게 반응해야 할까? 확률은 어떤 것이 일어날 가능성이 더 높고 어떤 것이 더낮은지를 알려준다. 그렇다, 확률은 앞서 설명한 도구, 기본 통계일 뿐이다. 하지만 사회적으로 영향력을 가진 통계이기도 하다. 이런 정보를 예측 가치가 있는 것으로 가정하고, 무엇을 할 수 있거나 해야 한다고 결정하는 것은 통계적 질문에 대한 답이 아니라 철학적이고 법률적인 질문에 대한 답이다. 우리는 매일 점점 더 많은 일에 관해 점점 더 많은 정보를 얻고 있다. 만약 이런 데이터가 틀리는 경우보다 맞는 경우가 훨씬 더 많다면 차별도 괜찮은가? 이것이 바로 통계적 차별, 즉 ‘합리적 차별’이라는 용어의 기원이다. 확률의 간절함과 정밀함에도 불구하고, 우리가 무엇을 계산하고 있으며 왜 그 계산을 하고 있는지에 대한 생각을 멈추지 말아야한다.
쓰레기를 넣으면 쓰레기가 나온다
통계에 있어 데이터의 중요성은 스타 쿼터백 선수에게 든든한 공격 라인이 중요한 것과 같다. 공격 라인 없이는 스타 쿼터백은 절대 존재할 수 없다. 아무리 화려한 분석으로 무장하더라도 데이터에 근본적으로 결함이 있다면 소용이 없다. 그래서 ‘쓰레기를 넣으면 쓰레기가 나온다’고 하는 것이다.
일반적오로 데이터는 세가지 중 하나를 충족해야한다. 데이터의 조건 1. 모집단을 대표하는 표본 데이터는 어떤 큰 집단이나 모집단을 대표할 수 있는 표본이어야한다. 모집단을 대표하는 표본을 가장 쉽게 추출하는 방법은 단순 무작위 표본이나 현실에서는 어려움이 있고 복잡함이 있다. 여기서 핵심은 제대로 표본을 추출할며ㅕㄴ 모집단을 닮아야 한다는 것이다. 만약 수프를 충분히 저었다면, 단 한 숟가락만 맛을 봐도 전체 수프맛이 어떤지 알 수 있는 것처럼 말이다. 데이터의 조건 2. 비교 가능한 것 데이터를 통해 어떤 식으로든 비교할 수 있어야한다, 물리학에서 처리 집단을 만드는 일은 상대적으로 간단하다. 그러나 인간을 대상으로 하는 실험에서는 어려움이 있다. 이런 어려움 때문에 무작위 추출이 연구 방법의 ‘황금률’인 것이다. 데이터의 조건 3. 없음 데이터를 수집하는 세번째 이유는 ‘그냥’이다. 떄로는 정보를 가지고 무엇을 해야겠다는 구체적인 생각이 없는 경우도 있다. 단지 언젠가 이 정보가 쓸모 있을때가 오리라고 짐작할 뿐이다.
데이터로 거짓말하기 중요한 연구 뒤에는 그런 분석을 가능케 한 좋은 데이터가 있다. 하지만 사람들은 종종 ‘통계로 거짓말 하기’에 대해 말한다.. 통계적 분석은 제대로 인데, 그런 계산들이 이루어진 데이터들이 엉터리이거나 적절하지 못한 것들이다.
선택 편향(selection bias) : 닉슨 대통령 당선 후 “닉슨이 이겼을 리 없다. 내 주변에 아무도 그에게 투표하지 않았다.”라는 말은 엉터리 표본으로 인해 모집단에 대해 잘못된 결론에 으르게 된다는 걸 보여주는 멋진 사례이다. 이와 관련된 자기선택편향(self-selection bias)은 피험자들이 처리 잡단에 편성되가자 자청할 때 나타난다. 약물 치료를 자원한 재소자들은 자발적으로 지원했다는 이유 그 자체만으로 다른 수감자들과 구별된다. 프로그램에 자원하게끔 만들었던 다른 요소들(가령 다시는 감옥으로 돌아가고 싶지 않다는 강한 욕구) 때문일 ㅅ수도 있다.
출판편향(publication bias) 긍정적인 연구 결과는 부정적인 연구 결과보다 출판될 가능성이 높고, 그 결과 우리가 접하는 결과물이 왜곡될 수 있다. 예를 들어 비디오게임이 대장암과 연관이 없다는 연구는 발표될 가능성이 거의 없지만, 연관이 있다는 연구는 발표되면 관심에 사로 잡힐 것이다. 통계학에서 반복되는 중요한 개념 가운데 하나는 특이한 결과가 이따금 우연히 발생한다는 사실이다. 이 편향은 연구 자체에서 비롯되는 것이 아니라 대중이 실제로 접하게 되는 정보가 왜곡되었기 때문에 발생한다. 물론 이 사례가 우스꽝스럽긴 하지만 이런 문제는 실재할뿐더러 심각하다. 이런 문제를 해결하기 위해 연구 프로젝트를 시작하는 시점에 미리 해당 내용을 등록하게끔 정해 긍정적인 연구 발견과 그렇지 않은 연구 발견간의 비율을 추정할 수 있는 최소한을 마련하고 있다.
기억 편향(recall bias) 기억은 대단히 힝므로운 것이지만, 기억을 통해 항상 좋은 데이터가 얻어 지는 건 아니다. 우리는 본능적으로 현재를 과거에 일어났던 일들의 논리적 결과라고 인과관계를 적용하여 이해한다. 문제는 우리가 현재 특별히 좋거나 나쁜 결과를 설명하려 할때 우리의 기억이 ‘구조적으로 결함이 있는’것으로만 나타난다는 것이다.
생존 편향(survivorship bias) 표본에서 관찰 대상 일부 혹은 다수가 탈락한 결과, 남아 있는 표본의 구성이 바뀌고 분석 결과에 영향을 미치는 생존 편향이라는 현상이 의심된다.
건강한 피험자 편향(Healthy User Bias) 비타민을 규칙적으로 섭취하는 사람들이 건강할 가능성이 높은 이유는 그들이 비타민을 규칙적으로 챙겨 먹는 부류의 사람들이 기 때문이다. 이러한 사람들은 건강을 다른 방법으로도 챙기려고 노력하는 사람이기 때문이다.
통계가 탐정이라면 데이터는 단서에 해당된다. 좋은 단서는 도움이 된다. 데이터도 마찬가지이다. 하지만 좋은 데이터를 구하는 작업은 보기보다 훨씬 어려운 일이다.
슈퍼스타, 통계학의 르브론 제임스를 기억하라
때때로 통계학은 거의 마법처럼 보인다. 우리는 비교적 적은 양의 데이터에서 폭넓고 효과적인 결론을 이끌어 낼 수 있다. 이렇게 일반화할 수 있는 놀라운 힘은 어디서 나오는 걸까? 그 힘의 대부분은 통계학의 르브론 ㅔ임스라 할 수 있는 중심극한정리에서 나온다. 중심극한정리는표본을 이용해 크기가 큰 모집단을 추론하는 수많은 통계 활동의 ‘원동력’이다. 이런 추론이 신기해 보일 수도 있지만, 사실은 앞서 살펴본 확률과 적절한 표본추출이라는 두 도구의 조합에 불과하다
만약 중심극한정리를 이해한다면, 통계적 추론의 유형 대부분을 직관적으로 알 수 있을 것이다. 핵심 원리는 규모가 크고 적절히 추출된 표본이 모집단과 유사하다는 것이다. 분명히 표본 사이에는 편차가 있다.하지만 표본이 모집단에서 크게 벗어날 확률은 매우 적다. 중심극한정리에 따르면, 표본 평균들은 모집단 평균을 중심으로 거의 정규분포로 퍼져있을것이다. 2장에 나왔듯이, 정규분포는 관측값의 68퍼세느가 중심에서 1 표준편차 내에 있고 95퍼센트가 2표준편차 내에 있는 식으로 종 모양의 분포이다. 이 모든 것은 모집단 분포가 어떤 모양이든 상관없이 사실이다. 표본 평균들이 정규분포하기 위해 표본이 추출된 모집단이 정규분포일 필요는 없다. 예를 들어 미국 가계소득 분포라는 우측으로 치우쳐진 분포가 있다 생각해보자. 이제 여기서 무직위 표본을 뽑아 가계 연 소득에 대한 정보를 모은다고 하자. 앞서 말한 정보와 중심극한정리를 바탕으로 무엇을 추론할 수 있을까? 아주 많은 것을 추론할 수 있다. 우선 각각의 표본 평균을 가장 잘 추측한 값은 모집단의 평균이 될것이고 대표 표본에서 핵심은 기본 모집단과 같은 모양이라는 것이다. 올바르게 뽑은 표본은 평균적으로 전체 미국의 모습과 같아서 모집단과 거의 같은 비율로 있을 것이다. 이것이 정확할까? 아니다. 하지만 크게 다르지도 않을 것이다. 이것은 모두 기본 논리일 뿐이다. 중심극한정리 덕분에 우리는 한 단계 더 나아가ㅓ, 모집단 평균 주변에 모여있는 각표본 평균들의 기대 분산을 알아낼 ㅜ 있다. 이번 사례로 표본 평균들은 모집단 평균 주위로 정규분포를 이룰 것이다. 기본 모집단의 형태는 중요하지 않다는 점을 기억하자. 모집단의 분포는 치우쳐져있을 수있지만 표본 평균 분포는 치우쳐있지 않을 것이다. 표본의 수가 많아질수록 분포는 정규분포에 더 가까울 것이다. 그리고 각 표본의 크기가 클수록 분포는 더 촘촘해질것이다.
이제 통계에 대한 모든 꿈을 달성하는 데 매우 가까이 와 있다. 표본 평균들은 위에서 설명한 거서럼 거의 정규 곡선으로 흩어져있다. 정규분포의 힘은 관측치가 어떤 비율로 평균에서 표준편차 범위 이내에 있을지 안다는 사실에서 비롯된다. 이것은 매우 강력하다.
표준오차(Standard error). 표준오차는 표본 평균들이 흩어져 있는 정도인 분산을 측정한다.표본 평균들이 모집단 평균 주위에 얼마나 촘촘하게 모여 있다고 예측할 수 있을까? 분산의 측정 방법으로 표준편차와 표준오차라는 두가지 다른 방법을 소개했으므로 헷갈릴 수도있다. 그 둘을 정확히 알기 위해서 다음을 기억할 필요가 있다. 표준편차는 모집단 내의 분산을 측정, 표준오차는 표본평균들의 분산을 측정한다.표준 오차는 표본 평균들의 표준 편차이다. 표준오차가 크다는 거은 표본 평균들이 모집단 평균 주위에 넓게 퍼져 있음을 의미하고, 작다는 것은 비교적 촘촘히 몰려 있음을 의미한다. 표준오차(SE) = $\frac{s}{\sqrt{n}}$, 여기서 s는 표본이 추출된 모집단의 표준편차이고 n은 표본의 크기이다. 기본 모집단의 표준편차가 크면 표준 오차도 클 것이다. 넓게 분포되어 있는 모집단에서 뽑아낸 크기가 큰 표본 또한 평균에 몰려 있을 것이다. 계속해서 표본 크기가 더 커지면 표준 오차가 더 작아진다고 예상할수있다. 크기가 큰 표본들은 극단적인 이탈값에 의해 왜곡될 경향이 더 적기 때문이다. 이것이 표본크기가 분모에 있는 이유이다.그러나 실제로 모집단의 표준편차를 모르는 경우가 흔하다. 크기가 큰 표본에서는 표본의 표주년차가 모집단 표준편차와 꽤 가깝다고 가정할 수 있다. 마침내 이 모든 것의 결말에 이르렀다. 표본 평균들이 정규분포를 이루기 때문에 정규곡선의 힘을 이용하여 표본 평균들이 모집단 평균의 표준오차 범위 안에 있다고 예상할 수있다.
중심극한정리를 적용하기위해 표본 크기가 비교적 클 필요가 있다는 것에 주목해야하고 표본 표준편차가 모집단 표준편차와 대략 같다고가정하려면, 비교적 큰 표본이 필요하다. 여기까지가 통계적추론에 관한 대부분이다. 이 추론의 대부분은 중심극한 정리 덕분에 가능하다.
n에 제곱근을 취하는 이유 serach
왜 교수님은 내가 부정행뤼를 헀다고 생각했을까?
통계는 어떤 사실을 확실히 입증하진ㄴ 못한다. 통계적 추론의 힘은 입증하는 데 있는 것이아니라, 어떤 패턴이나 결과를 관찰한 뒤 확률을 이용하여 가장 그럴뜻한 원인을 찾는데 있다. 하지만 증거가 뒷받침 되지 안는다면 의심스러운 패턴은 그저 의심스러운 패턴일 뿐이다. 뒷부분에서 확률이 우리를 잘못된 길로 이끌었을때 생기는 오류에 대해서도 논할것이다. 지금은 통계적 추론으로 중요한 문제를 다룰때에는 데이터를 이용한다는 것을이해해야한다. 통계적 추론은 데이터가 우리에게 단서를 제공하는 과정이며 이를 통해 우리는 의미 잇는 결론을 도출할 수 있다. 이것이 바로 우리가 바라는 결과이다. 통계학에서 중요한 것은 대랴의 정밀한 수학 계산이 아니라 주요 사회현상에 대한 통찰을 얻는 데 있다. 통계적 추론은 데이터와 확률을 중심극한정리의 도움을 조금 받아 실제로 결합한것이다. 이 책에서의 목적은 통계적 추론이 가진 힘을 소개하고, 그 원리를 설며아는 것이다. 일단 원리를 알고 나면 복잡한 것들도 쉽게 다룰 수 있다.
통계적 ㅜ론을 하는데 가장 자주 쓰이는 도구 중 하나가 가설검정(hypothesis testing)이다. 통계적 추론은 입증하는 데 사용되는것이 아니라, 가설의 상대적인 가능성을 따져 가설을 채택하거나 기각하는데 사용된다. 엄밀히 말해 모든 통ㄱ적 추론은 명시적이든 암묵적이든 귀무가설(null hypothesis)과 함께 시작된다. 보통 귀무가설을 기각한 후에는 관찰된 데이터에 더 맞는 대립가설(alternative hypothesis)이 채택된다.논리적으로 대립가설은 귀무가설이 기각됐을때 참이 되는 가설이어야한다. 이상하게 들릴지 모르지만 연구자들은 대부분 기각되기를 바라며 귀무가설을 세운다.
법정에서 무죄 추정을 기각하는 기준점은 피고가 ‘합리적 의심 없이 유죄(guilty beyond a reasonable dobt)’라는 정성적 평가다. 법정에서는 이 기준점이 판사나 배심원의 판단에 따르겠지만, 통계에서는 정량적으로 정의한다. 유의수준으로 불리는 이 확률은 귀무가설이 사실일 때 어떤 데이터 패턴을 관찰할 수 있는 확률의 상한을 나타낸다. 만일 귀무가설이 사실이라면 관찰되 값과 같거나 더 극단적인 패턴을 얻을 확률이 퍼센트 이하일때 우리는 유의수준에서 기각할 수 있다. 예를들어 표본 평균이 모집단 평균에서 3표준편차 이내에 있을 확률이 99.7퍼센트일때, 무작위 추출한 표본의 평균이 나머지 0.3퍼센트에 있으면 유의수준 0.05에서 표본과 모집단의평균이 같다는 귀무가설을 기각할 수 있을 것이다. 어떤 합리적 신뢰 수준에서 귀무가설을 기각할 수 있을때 그결과를 ‘통계적으로 유의하다’고 본다는 것이다. 통계학적 유의성이 연관관계의 크기에 대해서는 말해주는 것이 없다는 점도 짚고 넘어가야겠다. 두 변수 사이에 ‘통계적으로 유의한 연관이 없다’는 발견은 두변수 사이의 모든 연관관계가 우연에 의해 합리적으로 설명 될 수 있음을 뜻한다.
표본 평균과 모집단 평균의 비교는 어떻게 가능한가? 여기서 잠시 멈추어 왜 이런 것이 중요한지 되새겨보자.소규모의 자폐아 그릅과 그보다 더 소교모의 대조군을 가진 피험자를 대상으로 한 연구에서 광범위한 추론이 가능한가? 답은 가능하다는 것이다.연구자들은 전체 집단에서 자폐아와 그렇지 않은 아동의 뇌 크기가 실제로 차이가 없는데도 두 표본집단에서 뇌 크기의 차이가 관찰될 확률이 0.02에 불과하는결론을 내렸다. 사회적으로나 통계학적으로 주요한 연구 결과의 기초를 간단히 소개하려 한다. 각 표본의 그룹이 각각의 모집단인 자폐가 있는 모든 아이들, 자폐가 없는 모든 아이들에 대한 중심극한정리를 적용하기에 충분한 크기를 지니고 있으면 어떤 표본이든 그 표본이 추출된 모집단과 매우 비슷할 것이다. 비슷한 맥락에서 같은 모집단에서 추ㅜㄹ된 두 표본은 서로 매우 비슷할것이라 추정할 수 있고, 뒤집어 생각해보면 매우 다른 평균을 가진 두 표본은 서로 다른 모집단에서 ㅜ출될 가능성이 높다고 설명할 수 있다.
표준오차 구하는 법. 우리는 표본에서 구한 값을 통해 실제 모집단 평균이 95퍼센트 확률로 표본의 평균 ±3표준편차 내에 존재한다는 뜻이다. 위에 자폐증 연구에서 두 집단에 대한 신뢰 구간이 겹치지 않는다면 근본적인 차이가 있을 것 같다는 첫 번째 단서가 된다. 아직은 단서에 불과하다. 표본이 독특한지 아닌지 모른다. 우리는 두 표본간 차이에 대한 유의 확률을 구할 수 있다.. 만일 같은 모집단으로부터 대규모 표본을 두 번 추출한다면, 그 둘의 평균은 매우 비슷할것으로 기대 된다. 이에 대한 두표본 평균의 차이에 대한 표준 오차를 구할 수 있고, 이 표준와는 한 표본 평균과 다른 표본평균의차이에 대해 평균적으로 예상할 수 있는 분산을 측정하는 도구이다. 표준오차가 중요한 이유는 두 샘플이 같은 모집단으로부터 왔을 확률을 계산하는데 쓸 수 있기 때문이다.
귀무가설의 긍저 오류와 부정오류. 놀라워만 보이는 통계적 추론에도 며 가지 심각한 함정이 있다. 통계적 추론은 강력한 절차지만, 확실한 것이아닌 확률에 기반을 두고 있다.그래서 어떤 것이든 가설검정을 할때는 근본적 딜레마에 빠지게 된다.만일 귀무가설은 초능력이 존재하지 않는다는 것이고, 대립가설은 초능력을 지녔다고 가정하자. 이를 연구하기 위해 커튼 뒤에 있는 사진을 맞추는 작업을 반복적으로 실행하면 53퍼세느 확률로 골라냈다고 하자. 표본 크기가 컸기 때문에 귀무가설을 기각하고대립가설을 채택하게 된다. 이러한 겨우는 확률적으로 유의한 결과를 한번 얻는 것은 우연일 가능성이 높다는 면에서 심하게 비판받았다. 이런 터무니 없는 일들에 대한 하나의 대응방안으로 통계적 유의성의 기준점을 엄격하게정의하는 것을 생각해볼수 있다. 그러나 그에 따른 문제도 생긴다. 적당한 유의수준을 정하는 일에는 불가피한 상충관계가 존재한다.유의수준이 너무 낮으면 귀무가설을 기각하는 일이 많아지고 귀무가설이 맞는데도 귀무가설을 기각하는 ‘제1종오류’가 발생 할 수도 있다. 그리고 유의 수준을 너무 높이면 귀무가설이 틀린데도 귀무가설을 채택하는 ‘제2종오류’ 또는 부정오류(위음성;false negative라 부른다. 어떤 오류가 더 나쁜가?답은 상황에 따라 다라진다. 가장 중요한 점은 상충관계를 인정하는 것이다.
스팸필터. 귀무가설은 어떤 이메일 메시지도 스팸이 아니라는 것이다. 중요한 메일을 놓치면 안되기 때문에 제2종오류에 관대하다. 따라서 유의수준을 높게 설정한다. 암검사. 귀무가설은 어떤 암도 걸리지 않았다는 것이다. 검사에서 의심스러운 결과가 나오면 귀무가설이 기각되는데 제2종오류(암진단을 놓침)보다 제1종오류(암진단이 거짓이라는 것)가 훨씬 나은 것으로 여긴다. 이는 위의 스팸필터와 반대 입자에 있다. 테러리스트 수감. 귀무가설은 각 개인은 테러리스트가 아니라는 것인데, 이에 따른 제1종오류와 제2종오류 모두 용인될수 없기때문에 어려움을 겪는다.
통계적 추론은 마법도 아니고 항상 옳은 것도 아니지만, 세상을 이해하는데 둘도 없는 좋은 도구이다. 가장 가능성 노은 설명을 찾아내는 것만으로도 우리는 다양한 생활 현상에 대해 멋진 통찰을 할 수 있다. 대부분의 사람이 항상 통계적 추론을한다. 예를들어 “맥주병에 둘러싸여 바닥에 쓰러져 있는 학생은 독살된거 같아” 보다는 “저 학생은 술을 너무 많이 마신거 같아”라고 하고한다. 통계적 추론은 단지 이 과정을 형식화한 것일뿐이다.
여론을 보다 정확하게 파악하는 방법들
여론조사 또는 설문조사는 모집단에서 추출된 표본이 밝힌 의견에 근거하여 모집단 의견을 추론하는 ㅂ아법이다. 여론조사의 위력도 중심극한정리에 근거하고 있다. 여론조사와 다른 표본 추출의 근본적 차이 중 하나는 여론조사의 경우 관심을 두는 표본 통계량이 평균이 아닌 백분율이나 비율 이라는 점이다. 백분율이나 비율에 대한 표준오차 계산식은 전에 소개된 수식과 조금 다르지만 기본 개념은 같다. 적절히 추출된 무작위 표본의 표준오차는 $sqrt{\frac{p(1-p)}{n}}$이다. 표준오차는 p 와 1-p의 차이가 클수록 작아지는 경향을 보인다. 예를들어 의견이 50대50으로 갈리는 조사보다 95퍼센트가 같은 의견을 드러낸 여론조사의 표준오차가 작을 것이다. 만약 500명을 대상으로한 여론조사에서 공화당이 53퍼센트 민주당이 45퍼센트라 가정하고 1표준편차의 값을 오차범위로 지정하면 68퍼센트 신뢰도로 득표율을 보일수 있다고 한자. 그러나 32퍼센트는 오차범위 밖으로 있다는 확률이 있으므로 아직은 부족하다. 여기서 2표준편차의 값으로 4퍼센트로 가정하면 95퍼센트의 신뢰도를 가질 수는 있지만 최악의 경우 49%로 동점일 수도 있다. 이러한 문제를 해결하기 위해 2000명을 대상으로 했다고 가정해보자. 그러면 표준 오차자체가 0.001 즉,1퍼센트로 내려가면서 신뢰 수준에 만족하며 공화당이 후보가 승리했다고 발표할 수 있다. 여기서 샘플이 커질수록 표준오차가 작아진다는 사실을 이해해야한다. 이로인해 대규모 국민조사는 놀라울정도로 정확한 결과를 낸다. 그러나 두 호보의 표본 크기인 n은 같지만 p와 (1-p)는 다를 것이다. 따라서 질문에 따라 다른 표준오차를 사용하는 것이 불편하고 혼란스럽기 때문에 이런 성격의 여론조사에서는 각 질문의 표본비율을 동등하게 가정하여 주어진 표본에서 가능한 가장 큰 표준오차를 만들어 계싼하는데 사용한다.
“뿌린대로 거둔다(garbage in, Garbage out)”이라는 격언은여론 표본을 추출할 때 더 크게 적용된다. 여론조사를 하거나 다른 사람이 한 여론조사를 검토할떄 방법론적으로 반드시 해야 할 질문들을 다음에 나열했다.
의견을 알아내고 싶은 모집단에 대한 정확한 표본을 추출하였나? 모집단에 속한 어떤 부류를 구조적으로 배제하는 의견 모집방법은 편향되기 쉽다. 여론 조사의 타당성을 보여주는 한 가지 척도는 응답률이다. 연락대상으로 선정된 응답자 중 몇퍼센트가 최종적으로 여론조사난 설문조사를 마쳤는가? 응답률이 낮다면 표본추출 편향을 의심해볼만하다.
관심 주제에 대한 정확한 정보를 이끌어 낼 수 있게 질문이 제시되었는가? 타당한 결과를 내놓는 정직한 중계자가 되려는 여론조사원이라면 수집된 정보의 정확성에 영향을 미칠만한 언어를 사용하지 않도록 조심해야한다. 응답자가 사실을 말하고 있는가? 여론조사는 인터넷 만남과 같다. 제시된 정보의 진실성을 판단하는데 해석의 여지가있다. 여러 이유때문에 설문조사를 아무리 공들여 설계하더라도 응답의 진정성에 의존하게 된다.
처음 여론 조사를 봤을 때 가정 먼저 드는 의문은 저렇게 작은 집단의 의견이 큰 집단의 의견을 대변할 수 있느냐는것이다. 하지만 그건 간단한 문제다. 제대로 추출된 표본은 모집단과 비슷하다는 것이 기초적인 통계원리 중 하나다. 그러나 진짜 도전과제는 알맞은 표본을 찾아 연락하는 것, 그리고 대표 집단의 의견을 그 집단에 속한 사람들의 생각을 정확히 반영할 수 있는 방식으로 끌어내는 것이다.
p가 50퍼센트에 가까워질 수록 표준오차는 커질까? 극단적인 예로 p가 50퍼센트에 가깝다면 표본 오차가 상대적으로 작아도 여론조사 결과에 결정적인 역할을 할 수있다. 반면 p가 100이나 0에 가깝다면 표본 오차가 상대적으로 커도 여론조사 결과에는 큰 영향을 미치지 않는다.
데이터를 분석하는 기적의 만병통치약
결정권이 낮은 업무와 심혈관 계통 질환 사이의 의미 있는 연관관계를 통해 특정 업무가 건강에 나쁘다는 결론을 내릴 수는 없다. 이러한 부분은 우리가 관심을 가진 요인 외에 다른 요인들이 데이터에 변형을 초래하여 우리가 밝히고자 하는 상관관계를 교란 시킬 수 있기 때문이다. 이런 문제를 해결 할 수 있도록 도와주는 통계 도구가 바로 회귀분섟이다. 좀 더 자세히 말하면 다른 변인을 통제한 상태에서 우리가 알고자 하는 어떤 변수와 결과 사이의 연관관계를 수치로 나타낼 수 있게 해준다. 바꿔 말해 회귀분석을 사용하면 다른 변수에 의한 영향을 고정시킨 채 특정 업무 등 개별 변수가 결과에 미치는 영향을 분리해낼수 있다.
변수들의 상관관계 회귀분석에서 정말 어려운 절차가 기계적인 계산 과정이 아니라 분석할때 필수적으로 고려해야할 변수가 무엇인지 정하는것과, 어떻게 하면 이런 변수를 가장 잘 정할 수 있는지를 알아내는 것이다. 회귀분석은 마치 전동 공구 같다. 사용하기는 쉽지만 제대로 사용하기는 어렵고 잘못사용하면 위험해질 수도있다.
회귀분석은 여론조사와 닮은 점이 많다. 좋은 점은 대표 표본이 크고 방식이 올바를 때 표본 데이터에서 관찰된 상관관계가 전체 집단어세 실제로 보이는 상관관계와 크게 다를 가능성이 거의 없다는 것이다. 반면 나쁜 점은 이에 대한 정확한 증명을 한게 아니라는 사실이다. 여기서 잠깐 멈춰서 함정이 있지는 않은지 잘 살펴보자. 예를 들어 스쿼시를 하면 심혈관 기능이 향상되는 것은 맞다. 하지만 스쿼시를 하는 사람들 중 대다수는 헬스클럽에 등록할 정도로 부유하고 이런 사람들은 의료 접근성이 더 높을 것이고 그래서 심혈관 기능이 더 좋은 것일 수도있다. 또한 인과관계가 반대일 수도있다. 건강함 심장을 가졌기 ‘때문에’ 운동을 하는 것일 수도 있지 않을까? 이처럼 회귀분석 과정에서 발생 할 수있는 오류가 너무 많아 다음장에서 따로 다루었다.
이번 장에서는 회귀분석을 어떻게 하는지에만 초점을 맞출 것이다. 상관관계를 교란 시킬 수 있는 다른 요인들만잘 분리한다면, 회귀분석의 놀라운 능력을 이용해 업무 결정권과 우리가 원하는 통계적 상관관계만을 분리해낼 수 있다. 정확히 어떤 원리로 그렇게 할 수 있는걸까? 회귀분석의 핵심은 두 변 수 사이의 관계에 ‘가장 근접한’ 선형 고나계를 찾아내는 것이다. 보통 최소제곱법(Ordinary Least Squares;OLS)이라 불리는 방법을 사용한다.이는 잔차 제곱의 합이 가장 작은 선을 가장 근접한 선으로 선택한다. 물론 데이터 집합에 속한 모든 고나찰값을 회귀선으로 완벽하게 설명할 수는 없다. 하지만 우리가 생각해낼 수 이쓴ㄴ 설명 중 가장 의미있는 설명이 바로 선형 회귀선이다.
이론적인 이야기는 여기서 그만! 회귀분석을 통해 회귀 계수를 얻을 수 있고, 부호, 크기, 유의성이라는 세가지 속성에 고나심을 가져야한다. 연관성의 방향을 말해주는 부호, 독립변수와 종속 변수 간 연관성의 정도를 알려주는 크기, 특이판 표본 데이터에 기반을 둔 보편적이지 않은 상관관계일까 하는 유의성. 여기서 유의하지만 크기가 너무 작으면 의미하는 시사점이 쓸모없다. 그리고 크기는 커도 유의하지 않다면 크기는 무용지물이 된다. 여론조사나 다른 추론 방법에서 했던 것처럼 회귀계수에 대한 표준오차를 계산할 수 있다. 표준오차는 같은 모집단으로 부터 반복 추출한 표본을 대상으로 회귀분석을 했을 때 회귀 계수가 얼마나 분산될지 알려주는 단위이다. 여기서 실제 모집단의 매개변수가 95퍼센트의 확률로 신뢰구간에 속할 것으로 예상된다고 말하거나 실제 상관관계에 대한 95퍼센트 신뢰구간 내에 0이 존재하지 않다는 점을 이용하는 것이다. 이를 통해 연관관계가 없다는 귀무가설을 95센트 신뢰도로 기각할 수 있다.정밀하지는 않지만 경험칙에 따르면 회귀계수가 표준오차보다 두 배 이상 클때 회귀계수가 통계적으로 유의할 확률이 높아진다. 지금 다루고 있는 회귀분석을 통해 배울 중요한 통계량이 바로 R$^{2}$이다. 이는 회귀방정식으로 설명할 수 이쓴 ㄴ분산의 총량을 측정하는 단위이다.
회귀분석은 사회과학 연구라는 대상에 약효가 있는 기적의 만병통치약이라고 할할 수 있다. 예를 들어 체중을 측정하는 변수로 신장과 나이를 넣고, 이에 성별 변수를 추가하고 비교를 해보자. 다른 변수가 추가된 후에도 이변수들의 계수는 많이 변하지 않았다. 분석에 새로 포함된 변수에 대한 계수는 통계적으로 유의하다. 그러나 R$^{2}$은 0.25에서 0.29로 커졌다 이를 통해 다른 잠재적인 설명 요인들의 영향을 독립적으로 분리해낼 수 있다. 하지만 아직 표본에 속한 값들의 분산 중 많은 부분이 아직 설명되지 않은 채 남아있다.
실제로 성차별이 존재한다면 그에따른 임금 격차는 얼마나 될까? 회귀분석을 활용한다면 이 질문에 답할 수 있다. 그러나 이 경우 좀 더 우회적이다. 차별을 직접 측정할 수는 없으므로 교육 수주느 실무 경험 등 전통적으로 임금을 설명해주는 요소들을 고려하는 것이다. 이런 정황을 검토하면 차별의 존재 여부를 알아낼 수 있다. 이제는 회귀분석을 왜 만병 통치약이라 불렀는지 이해할 수 있게 되었기를 바란다. 특히 혼란을 줄 수 있는 다른 요인을 통제하고 각 설명변수가 주는 영향을 분리해내는 것이 연구에 중요한 역할을 한다는 사실을 잘 알았으면 좋겠다. 이런일이 가능한 이유는 아직 설명하지 않았다. 어떻게 이런 요인을 통제하는 것일까? 이를 이해하기 위해 다음 과 같은 상황을 생각해보자. 여러 사람이 모인 방에서 성별로 방을 나누고 다시 신장으로 나누고 이를 반복하다 보면 사람들이 모인 방이 아주 많아질 것이다. 같은 방에 있는 사람들이라도 몸무게에는 조금씩 차이가 있을 것이다. 방안의 모무게 분산은 표본 전체의 몸무게 분산보다 훨씬 작겠지만 성별이나 신장 등이 같아도 몸무게는 서로 다를 수 있다. 즉, 각 방에서 교육 수준과 체중의 관계에 가장 근접한 선형 관계는 무엇일까? 라는 질문에 답하는 것이다. 우리는 각 방에 대해 각각의 계수를 얻으려는 게 아니고 표본 전체의 관계를 가장 잘 설명하는 단 하나의 상수를 계산하는 것이 목적이다. 우리는 모든 방에 저굥되어 전체 잔차 제곱의 합을 최소로 만들어줄 하나의 상수이다. 제곱합을 가장 작게 만드는 계수가 바로 선형관계를 가장 잘 설명해주는 회귀계수가 될것이다. 한편으로는 데이터 집합의 규모가 클수록 유용하다는 사실도 알 수 있을 것이다.
대규모 데이터 집합에서 의미있는 경향을 찾고자 할때 가장 중요한 도구가 바로 회귀분석이라는 점이다. 직장 내 차별을 알아내기 위해 대조 실험을 할 수 있는 경우는 많지 않다. 사회과학에서 다루는 많은 주제에 대해 회귀분석을 이욜ㅇ해 밝혀졌다. 회귀분석은 과학적 분석 방법의 범위를 크게 넓혔고, 그결과 우리는 더 건강하고 안전해졌으며 더 많은 것을 알게 되었다,.
t-분포 적은 데이터 표본으로 통계적 추론을 하게 되면 상황이 좀 더 까다로워 진다. 반복적으로 추출한 표본들은 실제 모집단의 계수 주변으로 퍼진다고 가정해야한다. 즉, 꼬리가 더 두꺼워진다. 사실 표본의 크기에 따라 달라지는 확률 밀도 함수의 한계열 혹은 ‘집단’이다. 구체적으로 말하면 표본이 클수록 결과를 평가하는데 적합한 분포를 결정할 때 ‘자우도’가 커진다. t-분포는 책 전반에서 사용했던 통곚ㄱ 추론 과정에 약간 변형을 가한 것일뿐이다. 그러나 유일하게 다른점은 관측된 결과를 평가하는 데 기반을 두는 확률이다. 특정한 확률분포엣 ㅓ꼬리가 두꺼울수록 관측된 데이터에서 기대했던 불확실성이 커지고, 따라서 귀무가설을 기각하기 어려워진다.
명백한 데이터 앞에서도 논리를 잊지말라
회귀분석을 사용해 연구할때 명심해야 할점이 아무도 죽이면 안된다는것이다. 아주 똑똑한 사람들조차 무심코 이법칙을 어길때가있기때문이다. 통계학에서 회귀분석은 무기로 치면 수소폭탄이다. 집에서든 사무실 책상위에서든 대규모 데이터 집합과 컴퓨터만 있다면 누구나 연구자가 될 수 있다. 이때 저지를 수 있는 실수로는 무엇이 있을까? 모든 곳에서 다 실수 할 수 있다. 회귀분석은 복잡한 질문에 대한 명쾌한 답을 준다. 답은 옳을 수도 있고 틀릴 수도 있다. 이번장에서는 가장 흔히 일어나는 회귀분석 ‘실수’에 대해 다룰 것이다.
비선형 관계를 분석하는데선형 회귀분석을 사용한경우.회귀계수가 나타내는 것은 가장 근접한 직선의 기울기라는 사실을 기억하자. 직선이 아닌 선이라면 부합하는 선형관계는 존재하지 않는다. 경향이 없는건 아니지만 직선하나로 쉽게 나타낼만한 경향은아니다.
상관관계와 인과관계는 다르다.회귀분석은 두 변수간의 상관관계만을 말해준다. 전에도 말했듯이 통계만 가지고는 인과관계를 증명할 수 없다. 실제로 회귀분석을 잘못하면 서로 아무 관계도 없는 두변수간에 통계적으로 유의한 밀접한 연관관계가 나타날수있다. 예를들어 20년간 자폐증 환자가 증가한 이유를 설명해줄 원일을 찾고있다 가정할때 설명변수로 중국의 1인당 연간 국민소득을 넣으면 통계적으로 유의한 양의 상관관계가 존재할것이다. 이처럼 허위 인과관계(spurious causation)이라 불리는 더 광범위한 개ㅂ념의 한가지 예일뿐이다. 역인과관계. A와 B사이의 통계적 상관관계가 존재한다고 해서 A가 B의 원인이 되는것은아니다. 반대로 B가 A의 원인이 될 수도있다.회귀분석을 할때는 언제나 설명변수가 종속변수에 영향을 미칠뿐 종속변수는 설명변수에 영향을 미치지 않는다는것을 확신할 만한 근거가있어야한다.
변수누락편향. 여기서는 중요한 부분은 누락변수(omitted variable)이다. 회귀방정식에 중요한 설명변수를 누락했을 때 특히 방정식애ㅔ 포함된 다른 변수가 누락된 변수의 효과를 ‘흭득’한다면 분석 결과가 부정확해지고 오해의 소지가 생긴다. 서로 관련이 깊은 설명변수(다중공선성;Multicollinearilty). 회귀방정식에서 서로 관련성이 높은 두개이상의 설명변수가 함께 들어 있다면 회귀분석을 해도 두 변수 각각과 설명하고자 하는 현상간의 실제 상관관계를 알아내지 못할 수도있다. 예를 들어 코카인과 헤로인 복용이 SAT 시험에 어떤 영향을 미칠지 생각해볼때, 실제로 헤로인과 코카인이 미치는 영향을 반영하지 못할 수 있다. 헤로인을 복용하는 사람은 코카인도 복용할 가능성이 높다는 것이다.코카인과 헤로인을 모두 복용하는 사람들이 700명중 692명 있다고 생각해보면 단 한가지 약물이 독립적으로 미치는 영향에 대한 모든 추론은 매우 작은 표본 집합에 의존할 수 밖에 없다. 데이터 범위를 벗어난 추정.회귀분석은 모든 통계적 추론과 마찬가지로 우리 주변 세상에 대한 이해를 돕기 위해 고안되었다. 우리는 더 보편적인 집단에서도 사실로 적용될만한 경향을 찾아내려 한다. 하지만 통계적 추론의 결과는 분석 대상이 된 표본과 비슷한 집단에서만 유효하다. 성인 체중에 관한 회귀방정식은 성인이라는 대상에서만 가능하지 갓 태어난 아기의 몸무게를 예측하는데 사용하면 안된다. 이처럼 한정된 집단에서만 적용이 된다는 사실이다. 데이터마이닝(지나치게 많은 변수). 중요한 변수를 누락하는 것이 문제가 된다면 가능한 한 많은 설명변수를 포함시키면 되지 않을까? 이러한 경우 이론적 근거없이 관계업슨ㄴ 설명변수를 넣었을때 제대로 된 결과를 얻을 수 없다.쓸모없는 변수를 많이 집어넣었다면 한 개 정도는 우연히 얻어 걸릴수도있다.문제는 쓸모없는 변수가 쉽게 걸러지지는 않는다는 것이다. 이렇게 얻어걸린 변수에 대해 그럴뜻한 이유에 대한 이론을 지어내는것은 머리가 빠른 연구자라면 언제든 할 수있다. 이런 문제는 정식 연구에까지 퍼져있다. 2011년 <월스트리트저널>은 의학연구의 ‘감추고 싶은 비밀(dirty little secrets)’라는 주제로 기사를 썼다. 기사에 따르면 대부분의 연구 결과는 복원 불가능 하다는 것이다. 희귀병 연구 같은 임상시험의 경우 표본이 너무 작아서 무작위한 결과 변동으로 인해 큰 영향을 받기도 한다. 이런 모든 이유로 인해 전문 연구 결과중 놀라운 수가 잘못된 것으로 밝혀지곤 한다.
명백한 데이터 앞에서도 놀리를 잊지말라. 회귀분석은 여전히 대단히 멋진 통계분석도구다. 대규모 데이터 집합에서 중요한 패턴을 찾을 수있다. 많은 경우 이러한 패턴은 여러 중요한 발견을 이끄는 열쇠 역할을 한다. 이렇게 찾은 패턴을 검증할 객관적 기준 또한 통계학을 통해 알 수 있다. 제대로 된 회귀분석은 중요한 과학적 문제해결방법이다. 이번 장에서 주는 두가지 핵심 메시지는 올바른 회귀방정식을 세우는 과정이 통계적 계싼과정보다 더 중요하다는 것이고 대두사 통계적 추론에서와 마찬가지로 회귀분석은 특정 상황에 기반한 분석이다 라는 것이다. 기적의 만병통치약도 복용법을 지키지 않으면 듣지 않는 법이다.
하버드에 가면 정말로 인생이 바뀔까?
하버드에 가는 것은 인생에 어떤 영향을 미칠까? 이 질문에 답하려면 가지 않은 후와 가고난 후의 일 모두를 알아야한다. 명석한 연구자는 하버드에 가는 것처럼 어떤 처리를 했을 때의 결과를 그 처리를 하지 않알을 때 일어났을 결과와 비교할 수 있는 방법을 찾아낸다.
처리효과만을 분리해내기 위해 자주 쓰이는 방법들은 다음과 같다
무작위 통제실험. 실험군과 대조군을 나눈는 가장 간단한 벙븝은 직접 만드는 것이다 하지만 세상에는 사람을 대상으로 할 수 없는 실험이 많고 사람들 간에는 서로 큰 차이가 존재한다는 문제점이있따. 이러한 문제점의 경우 둘 다 실험군과 대조군을 만드는 가장 좋은 방법은 무작위로 나누는 것이다. 자연실험. 누구에게나 대규모 무작위 시험에 쓸 수백만 달러가 있지는 않다. 더 경제적 대인인 자연 실험은 의도치 않은 상황으로 인해 무작위 통제 실험과 비슷한 환경이 만들어졌을 때 발생한다. 가끔 의도치 않게 실험군과 통제군이 나뉘는 경우가 있다. 연구자들은 이런 기회를 잡고 싶어한다. 예를 들어 미국 내 모든 주에는 의무교육 기간을 정한 법이 있다. 하지만 이 법은 시간의 흐름에 따라 바뀌어 왔다. 이때 학력에 대한 이런 외생 변화야말로 완벽한 기회이다. 비동질 통제. 처리 효과를 검증하는 최선의 선택지가 작위적으로 실험군과 대조군을 나누는 경우일 때도 있다. 싱험군과 대조군이 전반적으로 비슷하리라는 기대와 희망을 품어보는것이다. 이때 좋은 소식은 실험군과 대조군이 있다는 것이고, 나쁜 소식은 작위적으로 나눈 집단에는 편향이 발생할 여지가 있다는 것이다. 이 두집단 사이에 미처 관찰되지 않은 차이가 생길 수 있는데 이런 방법을 비동질 통제라 한다. 이런 단점에도 불구하고 매우 유용한 도구다. 명문대에 들어가면 인생에 큰 도움이 될까? 여기서 경제학자 스테이시 데일과 앨런 크루거는 실험군으로 명문대에 진학한 학생과 비동질 대조군으로 명문대에 합격할 정도로 우수하지만 비명문 대학에 진학한 학생을 통해 평가했따. 이런 경우 선별효과(가장 우수한 학생이 명문대에 진학)와 처리효과(대학교 4년 재학)를 분리하는 세련된 접근법으로 질문에 대한 간접적인 답을 내놓았다. 이중차이.일과관계를 관찰하는 가장 좋은 방법 중하는 일단 해보고 나서 무슨일이 일어나는지 보는것이다. 세상에서 이런 방법을 사용할 경우 깊은 함정에 빠지기 쉽다. 어떤 일이 벌어진 후에 다른일이 일어났다고 해서 두 사건 사이에 인과관계가 있는 것이 아니라는 점은 모든 ‘전후 관계’분석으로 극복해야할 문제다. 이중 차이법을 통해 대조군을 통해 보여줌으로써 원래는 효과가 없는 것으로 생각 되었던 처리의 효과를 드러내준다. 이과정속에서 실험군과 대조군은 처리 이외의 문제는 비슷하다는 가정이 존재해야한다. 불연속 분석.간신히 자격기준을 충족해 처리나 개이ㅏㅂ을 받은 집단과 자격 기준에 조금 미달되어 처리나 개입을 받지 못한 집단의 결과를 비교하는 것도 실험군과 대조군을 만드는 하나의 방법이다.
사람들은 원인에 관심이 많다. 하지만 원인과 결과가 명백해 보일때조차 인간관계를 깨는 것은 매우 어렵다.. 처리의 진정한 영향을 알기위해서는 처리나 개입이 없었다면 발생했을 ‘반사실적 상황(counterfactual)’에 대해 알아야한다. 이러한 상황을 관찰하는 것은 어렵거나 불가능한 경우가 많다. 모든 프로그램 평가는 처리나 개입을 평가할 기준이 될 반사실적 상황을 제공하는 데 목적이 있다. 무작위 통제실험의 경우 대조기ㅜㄴ이 반사실적 상황이 된다. 하지만 통제 실험이 불가능하거나 비윤리적인 경우에는 비슷한 반사실적 상황을 만들어줄 다른 방법을 찾아야한다,. 지식의 진보는 이런 재치 있는 방법을 찾아내는 일에 달려있다.
통계로 답할 수 있는 다섯가지 질문
NFL의 미래는 어떨까? 자폐증 발생 빈도가 급격히 증가한 원인은 무엇일까? 어떻게 하면 좋은 학교와 교수를 가려내어 보상할수있을까? 세계 빈곤 문제와 싸우는 가장 좋은 방법은 무엇일까? 당신에 대해 알게되는 사람은 누구인가?
위에 나온 질문들을 통해 실생활의 질문에 대해 통계를 활용한 방법들을 제시하고 문제점 등을 생각해보고 이해할 수 있는 시각을 제공한다.
불, 칼, 자동차, 다음은? 이 물건들은 모두 중요한 목적을 가지고 있고 생활에 도움을 주지만 잘못사용하면 심각한 문제를 초래한다. 이제 저 단어 목록에 통계도 추가하라. 데이터를 현명하게 사용하자.
도서 내에는 짧은 글로 담지 못할만큼 다양한 예시들이 존재한다. 이를 통해 조금은 더 직관적으로 통계에 관해 이해할 수 있을 것이다. 나는 책을 요약하는 일을 하는게 아니라. 기억에 남는 부분을 적으려고 했던게 부풀어 이렇게 상세하게 까지 적게 된것 같다. 시간의 소비가 너무 많이 이뤄진다.
통계를 통해 주식 투자할 때 왜 분산투자를 해야하는지 알려줌 바로 큰수의 법칙으로 기댓값인 기대수익이 투자금보다 매력인 것들을 찾아서 많은 투자를 진행하면 크게 봤앨 때 돈을 벌것이다.
몬티홀문제에서 내가 선택한 것을 기준으로 하면 3분의1과 3분의2지만 결론적으로 들어가면 모두 같은 확률이 아닐까? 그럼 그 조건을 알고 수행하면 그러니까 3번을 선택선택할거고 2번을 선택하고 3번으로 바꾸는것과 3번을 선택해서 안바꾸는 것의 기본적인 확률은 똑같지 않을까?
확률의 가정은 독립적인 사건이다. 그러나 현실은 그렇지 않다. 주사위가 정확한 정육면체가 아니라 마모가 되거나 굴곡이있어 다른 영향을 받을 가능성이 있다 따라서 확률은 독립적이지않다?