mentalese 위치로그  |  태그  |  방명록
통계 에 해당하는 글8 개
2007/10/04   기상청 때리기 #2 (1)
2007/09/16   확률 이야기: 빈도주의자와 베이즈주의자 (3)
2007/02/03   기상청 때리기 (12)
2006/11/26   단순성과 적합성
2006/10/28   과학, 수학 그리고 모형 (8)
2006/02/20   암환자 중 99%는 (22)
2005/05/04   한의학은 과학인가? (4)
2005/04/07   블로그 통계학: 내일 조회수는 얼마? (12)


기상청 때리기 #2
분류없음 | 2007/10/04 01:01
[사설]‘동전 던지기’만도 못한 기상청의 수퍼컴 날씨 예보 (조선일보, 9월 30일자 사설)

며칠 전 조선일보 사설이 거슬려서(언제는 그런게 한둘이냐만은) 좀 늦었지만 꼭 지적해야겠다.
토요일이었던 29일, 기상청은 그날 새벽 5시 예보에서 서울·경기·강원엔 비가 오지 않는다고 하고 전남·경남·부산·울산엔 비가 내릴 것이라고 했다. 그러나 예보와 사실은 정반대로 나타났다. 전문용어로 하면 강수예보 정확도가 46.1%밖에 안 된 것이다. 기상 전문지식과 기상 전문기기가 전혀 없는 사람이 동전을 던져 비가 오느냐 오지 않느냐를 맞힐 가능성은 50%다. 결국 500억원짜리라는 수퍼컴퓨터를 동원한 예보가 동전 던지기보다 못했던 셈이다.

이 대목은 두 가지 잘못이 있다. 첫째, 동전을 던져서 서울, 경기, 강원, 전남, 경남, 부산, 울산에 비가 오는지 안 오는지 각각 맞출 가능성은 50%가 아니고 7개의 독립 사건이므로 0.78%(0.5^7)다.

둘째, 일기예보는 확률적인 진술이기 때문에 어떤 날은 맞고 어떤 날은 틀리는 게 당연하다. 장기간에 걸쳐 얼마나 맞추고 틀렸는지를 따져야지 어느 하루 많이 틀렸다고 문제 삼는 건 자기가 바보라는 말 밖에 안된다.

사설의 이어지는 부분에서는 기상청의 헛경보 사례들을 열거하고 있는 데 기상청 때리기에서도 말했지만 일기예보는 단순히 많이 맞추는 것보다 재해를 놓치지 않는 게 더 중요하기 때문에 어느 정도 헛경보는 불가피하다. "물놀이 갔다가 일가족 급류에 휩쓸려 몰살"보다야 "비온다고 해서 집에 있었더니 햇볓 쨍쨍"이 훨씬 낫지 않은가?

태그 : 어리석음, 통계, 확률
트랙백0 | 댓글1



확률 이야기: 빈도주의자와 베이즈주의자
분류없음 | 2007/09/16 16:02
1. 무작위 검사에서 당신은 질병이 있다는 판정을 받았다.
 2. 이 검사법은 오진율이 5%이다.
 3. 전체 인구 중 이 병에 걸릴 확률은 0.1%이다.

당신이 병에 걸렸을 확률이 얼마인가? (NoSmok에서)

상식 밖에도 병에 걸렸을 확률은 2%도 안된다. 쉽게 설명해보면 이렇다. 이 병에 걸린 사람은 2만명 중에 0.1%, 20명이다. 오진율이 5%기 때문에 20명 중에 19명은 병에 걸렸다는 판정을 받게 된다. 반대로 2만명 중 99.9%인 19980명 중에도 오진율은 역시 5%기 때문에 999명이 병에 걸렸다는 판정을 받는다. 그러면 실제로 병에 걸렸다는 판정을 받은 사람은 999+19=1018명이고 이 중에 실제로 병에 걸린 사람은 19명 뿐이므로 병에 걸렸다는 판정을 받은 사람 중에 진짜 병에 걸린 사람은 19/1018=약1.87%에 불과하다. 일반적인 경우라면 여러 가지 증상이 나타난 후에야 검사를 받기 때문에 이렇게 되지 않겠지만 이 문제에서는 '무작위 검사'를 했다.

세상은 불확실성으로 가득 차있다. 이런 세상에서 살아남기 위해서는 확률을 다루는 능력이 필수적이다. 실제로도 인간을 포함한 거의 모든 동물들은 확률적인 상황에 능숙하게 대처한다. 하지만 사람들은 확률로 제시되는 정보를 판단하는 데 어려움을 겪는다. 확률을 숫자로 제시하기 시작한 것은 길게 잡아도 17세기부터고 널리 퍼진 것은 19세기부터다. 몸으로 겪은 확률을 다루는 방법은 오랜 진화의 과정을 통해 태어날 때부터 알고 있지만 숫자로 제시된 확률을 다루는 방법은 진화의 혜택을 받을 겨를이 없었다.

예전에 오일러의 공식을 4번에 걸쳐 설명한 적이 있는 데 이번에는 통계학의 "베이즈 정리"를 중심으로 확률과 통계에 대한 이야기를 몇 번으로 나누어 이야기해보려고 한다. 맨 처음 할 얘기는 역시 확률.

확률이라는 말은 의외로 일상에서도 널리 쓰고 초등학교 때부터 수학책에도 나오니까 상당히 익숙하지만 정확한 의미를 아는 사람은 별로 없다. 확률에는 적어도 세 가지 뜻이 있다. 첫째는 '객관적 확률'로서 전체 중에 특정한 부분의 빈도나 비율을 뜻한다. 초중고 교과과정에 소개되는 확률도 객관적 확률이다. 둘째는 '주관적 확률'로서 어떤 사건에 대한 확신이나 자신감을 뜻한다. 일상에서 보통 '확률'이라고 하면 이 뜻으로 많이 쓴다. 셋째는 객관적 확률과 똑같은 수학적 성질을 지닌 함수들을 말한다. 세번째 뜻은 일단 무시해도 좋다.

통계학은 크게 빈도주의자(frequentist)와 베이즈주의자(Bayesian), 두 진영으로 나뉜다. 어느 쪽이든 확률을 계산하는 방법은 똑같지만 확률을 해석하는 방법이 다르다. "동전 하나를 던졌을 때 앞면이 나올 확률이 50%이다"라는 진술을 빈도주의자는 "동전 하나 던지기를 수 천, 수 만 번 하면 그중에 50%는 앞면이 나오고, 50%는 뒷면이 나온다"라고 해석한다. 반면 베이즈주의자는 "동전 하나 던지기의 결과가 앞면이 나올 것이라는 확신은 50%이다"라고 해석한다. 빈도주의자는 확률을 객관적 확률로 해석하고, 베이즈주의자는 주관적 확률로 해석하는 것이다.

동전 던지기 같은 경우에는 해석의 차이가 두드러져 보이지 않지만 "신이 존재할 확률" 같은 경우에 이르면 전혀 달라진다. 베이즈주의자에게 확률은 주관적 확률이기 때문에 이 경우에도 심지어 '계산'을 할 수 있지만 빈도주의자에게는 확률 개념을 적용한다는 것도 무리일 뿐만 아니라 계산한다는 건 어불성설이다. 아주 억지로 빈도주의적인 확률 개념을 적용한다면 "수 많은 우주 중에서 신이 존재하는 우주의 비율"이라고 해석할 수 있지만 쓸모없기는 마찬가지다.

아이러니하게도 보통 사람들은 '확률'이라는 말을 베이즈주의자처럼 쓰지만, 빈도주의자처럼 설명하지 않으면 정확하게 이해하질 못한다. 이 글 맨 앞에서 들었던 예에서 "2만명 중에 20명 어쩌구"하고 설명한 것이 빈도주의적 해석이다. 이 예를 수학적으로 풀려면 '베이즈 정리'라는 것을 활용해야 하는 데 빈도주의자와 베이즈주의자의 입장 차이는 이 정리에 대한 해석에서 결정적으로 갈라진다.

베이즈 정리를 설명하려면 먼저 조건부 확률이라는 개념을 알아야 한다. 1년 중에는 맑은 날도 있는가하면 구름 낀 날도 있다. 맑은 날 중에는 비가 오는 날도 있고(여우비) 안 오는 날도 있을 것이며 구름 낀 날에도 마찬가지다. (1년 중에 비오는 날)은 (구름낀 날 중에 비오는 날)+(맑은 날 중에 비오는 날)이다. 이렇게 (구름낀 날 중에 비오는 날)이나 (맑은 날 중에 비오는 날)의 확률을 조건부 확률이라고 하고, (1년 중에 비오는 날)의 확률을 주변 확률이라고 한다.

맑은 날을 S, 구름낀 날을 C, 비오는 날을 R이라고 하면 맑은 날 중에 비오는 날의 확률은 P(R|S)라고 쓰고 1년 중에 비오는 날의 확률은 P(R)이라고 쓴다. 우리는 한국어 어순에 맞게 P(R|S)를 P(S→R)이라고 쓰자. 그러니까 P(맑은 날→비오는 날)이다. 앞의 예를 기호로 다시 정리하면 오진율이 5%라는 말은 P(병→양성)=95%, 병에 걸릴 확률이 0.1%라는 말은 P(병)=0.1%라고 고쳐 쓸 수 있다. 질문은 P(양성→병)을 묻는 것이다. P(병→양성)과 P(양성→병)은 조건과 결과가 서로 반대기 때문에 역확률이라고 한다. 베이즈 정리는 이 역확률을 구하는 공식으로 다음과 같다.

P(양성→병) = P(병)*P(병→양성)/P(양성)

앞에서 제시한 설명에 맞춰보면 P(병)이 20명이고 P(병→양성)은 그대로 95%라서 분자는 19명이다. P(양성)은 1018명이고.

이렇게 객관적인 확률의 경우에는 빈도주의자나 베이즈주의자나 해석만 다를 뿐이지 별로 큰 차이가 없다. 문제는 다른 경우다. 똑같은 근거를 가지고 여러 가지 이론이 경합을 하는 경우가 있다. 그러면 근거로부터 어느 이론이 맞는 이론일지 확률을 계산할 수 있을까? 베이즈 정리로 풀어보면 아래와 같다.

P(근거→이론) = P(이론)*P(이론→근거)/P(증거)

P(이론→근거)은 가능도 또는 우도라고 하는 데 몇 가지 조건을 충족하면 계산도 할 수 있고, 계산은 할 수 없더라도 수치로 주장하는 것도 가능하다. 토론에서 "당신의 이론은 이런 이런 현상을 설명하지 못한다"라는 식의 말이 자주 나오는 데 이 말은 "P(당신의 이론→이런 현상)이라는 가능도가 낮다"라고 바꿔말할 수 있다.

앞의 예에서 분모인 P(양성)은 P(병)*P(병→양성)인 19명과 P(병 아님)*P(병 아님→양성)인 999명을 더한 1018명이었다. 이런 식으로 P(증거)도 모든 종류의 가능한 이론에 대해서 P(이론)*P(이론→근거)을 모두 더하면 구할 수 있다.

문제는 P(이론)이다. P(이론)을 사전확률, P(근거→이론)을 사후확률이라고 부르는 데 P(이론)은 근거를 알기 전에, P(근거→이론)은 근거를 알게된 이후에 이론이 맞을 확률이기 때문이다. 베이즈주의자의 경우 뭐든지 확률을 계산할 수 있으니까 아무 문제가 없다. 그런데 빈도주의자들에게 P(이론)이란 P(신의 존재)만큼이나 확률 개념을 적용하는 게 터무니 없는 경우다.

예를 들어 요즘 말밥에 오르는 모 영화의 경우 "영화는 훌륭한 데 충무로와 평론가들이 감독이 코미디언이라고 까는 거다"라는 이론과 "영화가 형편없어서 까는 거다"라는 이론이 있다. 이런 이론이 맞을 확률이라는 건 빈도주의적으로 말해서 수 많은 평행우주들이 있고 그 각각의 우주에서 그 영화가 까이는 이유가 다 다른 데 음모를 품고 까는 우주가 그 중에 몇 %고 영화가 후져서 까는 우주가 몇 %라는 식이다. 역시나 말도 안된다.

하지만 베이즈주의자에게는 이 공식의 의미가 다르다. 어떤 사람이 처음에는 충무로의 음모 때문이라는 이론에 강한 믿음을 가지고 있었는 데 여러 가지 글을 읽어보니까 그 이론에 대한 믿음이 떨어졌을 수 있다. 베이즈주의자에게 베이즈 정리는 단순히 역확률을 계산하는 공식이 아니고 믿음의 합리적인 변화 과정을 보여주는 공식이다. 다시 말해 P(이론)에서 출발하여 근거를 바탕으로 새로운 믿음 P(근거→이론)에 도달하는 과정인 것이다. 만약 새로운 근거가 나타난다면 똑같은 공식으로 믿음을 재조정하면 된다.

빈도주의자들은 그런 과정이 말도 안된다고 생각하기 때문에 오로지 가능도 즉 P(이론→근거)만을 이론에 대한 평가 잣대로 삼는다. 그래서 근거를 더 잘 설명하는 이론을 선택한다. 재밌는 점은 근거가 많을 수록 베이즈주의자와 빈도주의자가 지지하는 이론은 점점 수렴하여 근거가 무한히 많으면 둘 다 똑같은 이론을 지지하게 된다.

예를 들어 동전을 세 번 던져서 모두 앞면만 나왔다고 하자. 빈도주의자는 동전의 앞면이 나올 확률이 50%일 경우 이런 사건이 나올 가능도는 12.5%인 반면 무조건 앞면만 나오는 동전일 경우 이런 사건이 나올 가능도가 100%이므로 이 동전은 앞면만 나오는 동전이라는 이론을 지지한다. 베이즈주의자는 원래 어떤 믿음을 가지고 있느냐에 따라 다르지만 앞면이 나올 확률이 50%라고 믿었는 데 동전 세 개가 모두 앞면인 걸보니 60%라고 믿는 식이다. 하지만 동전을 세 개가 아니라 아주 많이 던지면 결국에는 빈도주의든 베이즈주의든 똑같은 이론을 지지하게 될 것이다.

토론을 할 때 가능도를 기준으로 삼는 걸보면 인간은 빈도주의자인 것 같기도 하고 동전 던지기의 경우를 보면 베이즈주의자에 가까운 것 같기도 하다. 실제로 인간의 확률에 대한 본성이 빈도주의자인지 베이즈주의자인지는 심리학에서도 상당한 논쟁거리다.

태그 : 베이즈주의자, 빈도주의자, 통계, 확률
트랙백0 | 댓글3



기상청 때리기
분류없음 | 2007/02/03 23:35
운전자들에게 자신의 운전실력이 중간 이상인지 이하인지 물으면 대부분의 사람이 이상이라고 대답한다. 중간 이상인 사람은 글자 그대로 50% 밖에 있을 수 없으니 나머지는 자기 실력을 과대평가하고 있는 것이다. 이렇게 자신의 능력을 과대평가하는 사람들의 경향을 심리학에서는 "과신(overconfidence)"이라고 한다.

자신의 능력을 정확히 파악할 필요가 있는 전문가들조차도 과신의 덫에서 자유롭지 못하다. 어떤 상황에 대해 전문가가 100% 확신을 가지고 내린 진단이 심하게는 30% 정도 밖에 안 맞는 경우도 있다. 물론 그 만큼이라도 맞추니까 전문가라고 하는 것이다.

재밌게도 기상예보관은 과신이 가장 적은 전문가 집단으로 알려져있다. 예전에는 다른 전문가 집단에 비해사용할 수 있는 자료와 도구가 더 풍부하기 때문이라고 생각했는 데 요즘 돌아가는 꼴을 보면 워낙 한 번 틀리면 욕을 많이 먹다보니 자신감이 떨어져서 그런게 아닐까 싶다.

자료는 없지만 과신이 가장 심한 전문가(?) 집단은 기자들이 아닐까. 구글 뉴스로 기상청 관련 기사들을 검색해보니 기상청이 실제로 얼마나 오보를 내고 있고 한국과 비슷한 수준의 다른 나라 기상청과 비교해서 얼마나 못하고 있으며 그 원인이 무엇인지 제대로 분석한 기사는 하나도 찾지 못했다. 단지 오보가 몇 번이었다든지 아니면 미국만 못하다고 하는 데 언론사야말로 오보는 몇 번이고 미국과 비교하면 어떤가? 심지어 기상청이 오보를 내는 이유를 여론조사한 기사도 있다. 여론조사할 게 따로 있지. 이런 걸 기사라고 쓰고 밥먹고 산다면 부끄러운 줄 알아야 한다. 단순히 오보를 냈다고 질책할 게 아니라 원인이 뭐고 해결책이 무엇인지 취재를 해야 할 게 아닌가.

일기예보를 포함해서 모든 종류의 예측에는 헛경보(false alarm)과 놓침(miss)이라는 두 가지 오류가 있다. 폭설이 내린다고 했는 데 안 오면 헛경보고, 안 내린다고 했는 데 오면 놓침이다. 이 둘은 한 쪽을 줄이면 다른 쪽이 늘어나기 때문에 그 비율을 어떻게 할지는 헛경보와 놓침에 따르는 비용을 바탕으로 결정한다. 일기예보의 경우 놓침이 헛경보보다 비용이 크다. 황사가 온다고 해서 집안에 있었더니 날씨만 화창하다고 해도 별 탈은 없지만, 화창하다는 예보를 믿고 황사에 수 백 만의 시민들이 노출되면 문제가 심각하다. 따라서 일기예보의 경우 예보를 놓치느니 헛경보를 내는 편이 합리적이다. 신문기사를 보면 이걸 예보관들이 욕먹기 싫어서 헛경보를 내는 심리가 있다는 식으로 몰던데 실제로 그렇다고 해도 놓침이 없다면 어느 정도 헛경보는 감수하는 게 당연하다. 그리고 도대체 그 '욕'을 한 게 처음부터 누구냔 말이지.

일기예보의 정확성을 높이려면 더 많은 자료와 인력이 필요한 데 이게 모두 예산이다. 일기예보의 정확성은 똑같은 10% 포인트라도 50%에서 60%로 올리기보다 80%에서 90%로 올리기가 훨씬 힘들다. 잘못된 대설 경보 한 번을 줄이려면 1년에 예산이 몇 십에서 몇 백 억까지 더 필요할지도 모른다. 기상청에 투입되야할 예산의 규모는 일기예보의 정확성을 높이기 위해 필요한 비용과 일기예보의 부정확성으로 발생하는 사회적 비용을 비교해서 적정한 수준에서 결정되야 한다. 만약 투입된 예산이 그렇게 결정되었고 일기예보의 정확성이 그만큼 달성되었다면 남는 부정확성은 감수할 수 밖에 없다. 만약 참지 못하겠다면 더 많은 세금을 쏟아부어야 할테고.

덧. 기사를 검색하다가 발견한 대조적인 진단 두 개
기상오보를 막으려면(서울대 이동규 교수, 중앙일보)
기상예보는 애물세대 386 이 한다(지만원, 뉴스타운) 원츄 --b

태그 : 과신, 어리석음, 통계, 확률
트랙백0 | 댓글12



단순성과 적합성
자연/통계학 | 2006/11/26 03:09
과학, 수학 그리고 모형

아래 그림을 보면 알 수 있지만 단순한 모형(왼쪽)보다 복잡한 모형(오른쪽)이 더 다양한 자료를 설명할 수 있다. 그래서 모형에서 단순성과 적합성은 교환된다. 바꿔말하면 모형이 복잡해질 수록 더 적합해진다.

누구를 진료하든지 "병에 걸렸거나 걸리지 않았습니다. 죽거나 사실 겁니다."라고 말하는 의사가 있다면 이 의사의 진단은 항상 정확할 것이다. 하지만 진단이 이런 식으로 정확해봤자 아무 쓸모가 없다. 마찬가지로 모형을 선택할 때 모형의 단순성을 포기한 대가로 늘어난 적합성은 필요없다. 따라서 모형을 선택할 때는 단순성과 적합성을 모두 고려해야 한다.

좀 더 수학적으로 설명해보면 이렇다(귀찮은 사람은 뛰어넘어도 좋다). 자료를 D, 모형을 M이라고 하면 자료가 주어졌을 때 모형의 조건부 확률은 P(M|D)이고, 베이즈 정리에 따라 아래와 같이 전개된다.


같은 자료를 가지고 서로 다른 모형들을 비교할려는 것이기 때문에 자료의 확률 P(D)는 고려할 필요가 없다. 따라서 다음의 관계식을 얻는다.


이제 양변에 -log를 씌우면 확률은 엔트로피가 된다.


따라서 "모형에 대한 자료의 엔트로피 + 모형의 엔트로피"가 최소인 모형, 다시 말해 적합성과 단순성의 합이 최대인 모형이 자료에 대해 가장 확률이 높다.

이상이 통계학에서 적합도 지수(fit index)의 바탕에 깔린 논리다. 나는 이 논리가 과학 활동의 핵심이라고 생각한다. 그러니까 관찰 대상이 자연이냐 사회냐 하는 것은 별로 중요하지 않다.

여기에 반전이 하나 있다. 위의 논리는 완벽하지만 치명적인 결함을 하나 숨기고 있다. 그 결함이 뭔지는 다음에..(다음 달에?)

태그 : 모형, 수학, 엔트로피, 통계
트랙백1 | 댓글0



과학, 수학 그리고 모형
자연/철학 | 2006/10/28 02:07
과학이라고 하면 보통 실험과 수학을 떠올리지만 이 두 가지가 핵심적인 기능을 하는 분야는 물리학 일부 외엔 없다. 이를테면 천문학에서 실험이나, 생물학에서 수학은 그렇게 핵심적인 위치를 차지하고 있진 않다. 그럼에도 사람들이 실험과 수학을 과학의 핵심 요소로 여기는 이유는 분명 물리학의 영향이 지대했다. 그리고 물리학이 과학의 정형이 된 것은 자연철학에서 이어지는 일종의 귀족적 요소와 뉴턴에서 아인슈타인까지 이어진 일련의 '혁명'들에 기인한다.

물리학이 거둔 성공의 배경에는 실험보다도 수학의 공헌이 더욱 컸다. 이것은 과학과 수학이 뗄레야 뗄 수 없는 요소이며, 수학 중에서도 물리학에서 사용되는 그러한 수학 기법이 어떤 학문의 과학성을 보증해주는 것처럼 착각하게 만들었다. 그러나 이것이 착각일 뿐이라는 사실은 20세기 중반을 지나서야 서서히 밝혀지게 되지만 아직도 그런 착각은 여전히 광범위하게 퍼져있다.

덧씌워진 신비로운 꺼풀을 걷어내고 보면 수학은 인공적인 언어에 지나지 않는다. 보통 사람이 쓰는 언어, 자연어는 음성에서 음운, 형태소, 단어, 문법 등의 여러 층으로 이뤄져있고 가장 깊은 곳에 의미가 자리잡고 있다. 그런데 수학에는 형태소와 문법의 두 층 밖에 없고, 문법이 가장 깊은 층이다. 수학에서 의미는 곧 문법이며, 문법적인 문장은 곧 의미있는 문장이 된다. 예를 들어 자연어에서는 "코끼리가 풍선을 죽이고, 강을 거슬러 살았다"처럼 문법에는 맞지만 무의미한 문장이 있지만 수학에는 문법이 맞고 무의미한 문장이 없다.(엄격히 따지면 꼭 그런 것만은 아니지만 당장은 무시하자.)

따라서 우리가 관찰하는 대상의 각 부분을 수학의 형태소에 대응시키고, 대상의 구조를 수학의 문법에 대응시켰을 때 우리가 대상에 대해 관찰하고자 하는 바를 남김없이 수학으로 대응시킬 수 있다면 대상 자체에 일일이 신경쓸 필요없이 수학적으로 올바른 문장을 작성하는 것만으로도 대상 자체를 직접 다루는 것과 동일한 결과를 얻게되며, 반대로 올바르게 작성된 수학의 문장에는 항상 그에 대응하는 현상이 현실에도 있다는 것을 보증할 수 있게 된다. 이런 관계를 동형적(isomorphic)이라고 한다. 물리학은 미분방정식을 비롯한 몇 가지 수학을 통해 자신의 관찰 대상을 완전히 기술할 수 있는 방법을 찾아냈다. 이런 학문은 물리학이 유일하다.

자신의 관찰 대상을 완전히 기술할 수 있는 수학을 찾지 못한 화학은 학문적 발전에서나 산업의 응용에서나 결코 물리학에 뒤지지 않지만 과학의 정형으로 대우받지 못했다. 하지만 화학은 화학식을 비롯해서 기존의 수학과 다른 고유한 언어를 만들어냈다. 화학의 언어는 물리학이 언어로 삼은 수학에 비해 우아함은 좀 떨어지지만 화학의 관찰 대상과 동형적이라는 점에서 역시 부족함은 없다. 실수를 형태소로 삼느냐 H,O,N 같은 기호를 형태소로 삼느냐 같은 지엽적이고 표면적인 차이는 사람들의 눈을 솎이기에 충분했다.

추상대수학이 충분히 발전하기 전까지는 이런 지엽적인 차이는 상당히 근본적인 것으로 여겨졌다. 어떤 사람들은 물리학의 수학이 유일한 수학이며, 사회과학 등에는 이런 수학 기법을 온전히 사용할 수 없으므로 사회과학이 과학이 될 수 없다고 믿었다. 반대로 어떤 사람들은 물리학에서 사용하는 수학 기법을 사용하는 것만으로도 자기 분과의 과학성이 저절로 보증되리라 믿었다. 그러나 이 모두는 그저 착각일 뿐이었다. 수학 자체는 그저 언어일 뿐이다. 언어는 아무 것도 보증하지 않는다. 오로지 관찰대상과 동형적인 언어만이 좋은 도구가 될 수 있을 뿐이다. 아무리 물리학에서 좋은 성과를 거두는 수학 기법이라도 다른 분과의 관찰 대상과 동형적이지 않다면 그 분과에선 아무 짝에도 쓸모가 없고, 조잡해보이는 표기법이라도 특정 분과의 관찰 대상과 동형적이라면 충분히 과학 연구의 도구가 될 수 있다.

과학 활동의 요체는 관찰 대상이 무엇이냐에 달려있는 것이 아니라 관찰 대상과 동형적인 언어를 찾아 그 언어로 관찰 대상의 양태와 변화를 설명하고 예측하는 적합하고도 단순한 모형을 만드는 것이다. 창조론은 이 조건을 만족시키지 않기 때문에 과학이 될 수 없다. 얼마 전 번역되 나온 "심판대의 다윈"이라는 책은 공작 수컷이 화려한 깃털을 가지게 된 이유를 신의 뜻이라고 주장한다. 공작 암컷이 수수한 깃털을 가지게 된 이유도 신의 뜻이므로 이 언어는 관찰 대상과 동형적이지 않다. 화려한 깃털도 신의 뜻, 수수한 깃털도 신의 뜻이면 관찰 대상에서 신의 뜻에 대응하는 것은 도대체 뭔가? 깃털? 게다가 전지전능한 신은 세계가 가질 수 있는 모든 상태와 더불어 세계가 가질 수 없는 상태들까지 자기 안에 가지고 있기 때문에 그 복잡도는 가능한 모든 세계의 복잡도와 불가능한 세계의 복잡도를 합한 것과 같다. 따라서 신의 뜻을 언어로 하는 모형은 존재할 수 있는 어떤 종류의 모형보다도 복잡하여 "적합하고도 단순한 모형"의 기준을 만족시키지 못한다. 진리 여부와 상관없이 창조론은 과학이 아니다.

갈릴레이가 피사의 사탑에서 돌을 떨어트린 이야기를 하며 중세 사람들의 무지를 비웃는 우리에게도 중력이라는 개념은 그렇게 와닿는 개념이 아니다. 뉴턴이 '프린키피아'를 발표했을 때, 당시의 기계론자들은 직접적인 접촉 없이 힘이 전달될 수 있다는 뉴턴의 중력 개념이 비과학적이라고 비판했다. 실제로는 기계론자들의 말이 옳았다. 뉴턴은 연금술 따위의 신비주의에 푹 빠져있었으며 세계가 인과율에 따라 움직인다는 기계론적 발상을 싫어한 독실한 기독교도였다. 중력처럼 먼 거리에서 영향을 미치는 신비한 힘이야 말로 연금술이나 기독교에 어울릴법한 발상이었다. 뉴턴이 만들어낸 혁명의 배후에는 비과학적이고 종교적인 동기가 숨어있었다. 역설적이지만 중력이 무엇인지 설명하라는 기계론자들의 요구에 대한 뉴턴의 응답은 그의 비뚤어진 동기에도 불구하고 '과학이란 무엇인가'에 대해 충분한 대답이 된다.

"우리로서는 중력이 존재하며 그것이 우리가 설명한 법칙에 따라 움직인다는 것, 그리고 천체와 바다의 모든 움직임을 설명하는 데 충분하다는 것. 그것으로 충분하다."

그것으로 충분하다.

태그 : 과학, 모형, 통계
트랙백4 | 댓글8



암환자 중 99%는
마음/심리학 | 2006/02/20 14:59
"XXX 합격자 중 50%가 OOO학원 출신!" 학원 광고에 흔히 쓰이는 형식이다. 그럼, 여기서 질문. 이 광고에서 제공하는 정보는 쓸모가 있을까?

정답은 "아무 쓸모가 없다"이다. 예를 들어 XXX라는 시험에 100명을 뽑는다고 하자. OOO학원 출신이 50명 합격했다. 그런데, 이 시헉에 응시한 사람이 1000명이고, 이 중에 OOO학원 출신이 500명이라고 하자. 그러면 OOO학원을 다닌 500명 중 50명이 합격했고, 다니지 않은 500명 중에도 50명이 합격한 것이다. 따라서 이 학원에 다니거나 말거나 합격에는 아무 영향이 없다.

이번에는 응시자 1천명 중에 6백명이 OOO학원을 다녔고, 4백명이 그렇지 않다고 해보자. 그러면 OOO학원을 다닌 사람들은 600명 중에 50명 즉 12명 당 1명 꼴로 합격한 반면, 다니지 않은 사람들은 400명 중에 50명 즉 8명 당 1명 꼴로 합격했다. 이 경우에는 학원에 다니지 않는 편이 합격할 가능성이 훨씬 높은 셈이다.

사람들은 이 학원광고에서처럼 바탕이 되는 확률(여기서는 응시자 중 그 학원 학생의 비율)을 종종 무시하곤 한다. 심리학에서는 이런 현상을 '기저 확률 무시(base rate neglect)'라고 부른다. 속임수라면 속임수고, 무식한 거라면 무식한 것이겠는데 학원 광고만이 아니라 신문 기사, 법원 판결에서도 기저 확률 무시가 지나치게 많다. 기저 확률을 잘 무시하는 사람들은 지능도 낮다는 데, 기자나 법관들이 머리가 나쁜 것일까 아니면 오히려 너무 좋은 것일까?

"암환자 중 99%도 평소 밥을 즐겨 먹었다고 합니다. 밥, 이래도 드시겠습니까?"라는 수준이랄까.

※ 불필요한 플레임이 발생하여 댓글과 트랙백을 잠급니다.(2006-3-22 16:11)
새로 글을 썼습니다. 이 글의 내용이 이해가지 않으시는 분들은 참고하시기 바랍니다.(2006-3-26 01:52)

태그 : 심리학, 통계
트랙백0 | 댓글22