|
|
|
단순성과 적합성
자연/통계학 |
2006/11/26 03:09
|
|
|
과학, 수학 그리고 모형
아래 그림을 보면 알 수 있지만 단순한 모형(왼쪽)보다 복잡한 모형(오른쪽)이 더 다양한 자료를 설명할 수 있다. 그래서 모형에서 단순성과 적합성은 교환된다. 바꿔말하면 모형이 복잡해질 수록 더 적합해진다.
누구를 진료하든지 "병에 걸렸거나 걸리지 않았습니다. 죽거나 사실 겁니다."라고 말하는 의사가 있다면 이 의사의 진단은 항상 정확할 것이다. 하지만 진단이 이런 식으로 정확해봤자 아무 쓸모가 없다. 마찬가지로 모형을 선택할 때 모형의 단순성을 포기한 대가로 늘어난 적합성은 필요없다. 따라서 모형을 선택할 때는 단순성과 적합성을 모두 고려해야 한다.
좀 더 수학적으로 설명해보면 이렇다(귀찮은 사람은 뛰어넘어도 좋다). 자료를 D, 모형을 M이라고 하면 자료가 주어졌을 때 모형의 조건부 확률은 P(M|D)이고, 베이즈 정리에 따라 아래와 같이 전개된다.
같은 자료를 가지고 서로 다른 모형들을 비교할려는 것이기 때문에 자료의 확률 P(D)는 고려할 필요가 없다. 따라서 다음의 관계식을 얻는다.
이제 양변에 -log를 씌우면 확률은 엔트로피가 된다.
따라서 "모형에 대한 자료의 엔트로피 + 모형의 엔트로피"가 최소인 모형, 다시 말해 적합성과 단순성의 합이 최대인 모형이 자료에 대해 가장 확률이 높다.
이상이 통계학에서 적합도 지수(fit index)의 바탕에 깔린 논리다. 나는 이 논리가 과학 활동의 핵심이라고 생각한다. 그러니까 관찰 대상이 자연이냐 사회냐 하는 것은 별로 중요하지 않다.
여기에 반전이 하나 있다. 위의 논리는 완벽하지만 치명적인 결함을 하나 숨기고 있다. 그 결함이 뭔지는 다음에..(다음 달에?)
|
|
|
| 이 글의 관련글(트랙백) 주소 :: http://mentalese.net/blog/trackback/498 |
Tracked from 세리자와 박사의 괴수퇴치연구실 2006/11/27 19:29 x
제목 : 단순성과 적합성
귤님의 글에 예제를 하나 더 붙여본다.
빨간점이 데이타이고 녹색선이 모델이라고 하면, A -> B -> C로 갈 수록 적합성은 늘어나지만 단순성은 줄어든다.
나도 베이지안 추론은 과학에서 .. |
|
|
|
|
«
2008/10
»
| 일 |
월 |
화 |
수 |
목 |
금 |
토 |
| |
|
|
1 |
2 |
3 |
4 |
| 5 |
6 |
7 |
8 |
9 |
10 |
11 |
| 12 |
13 |
14 |
15 |
16 |
17 |
18 |
| 19 |
20 |
21 |
22 |
23 |
24 |
25 |
| 26 |
27 |
28 |
29 |
30 |
31 |
|
|
|
Total : 539422
Today : 258
Yesterday : 246 |
|
|