mentalese 위치로그  |  태그  |  방명록
엔트로피 에 해당하는 글1 개
2006/11/26   단순성과 적합성


단순성과 적합성
자연/통계학 | 2006/11/26 03:09
과학, 수학 그리고 모형

아래 그림을 보면 알 수 있지만 단순한 모형(왼쪽)보다 복잡한 모형(오른쪽)이 더 다양한 자료를 설명할 수 있다. 그래서 모형에서 단순성과 적합성은 교환된다. 바꿔말하면 모형이 복잡해질 수록 더 적합해진다.

누구를 진료하든지 "병에 걸렸거나 걸리지 않았습니다. 죽거나 사실 겁니다."라고 말하는 의사가 있다면 이 의사의 진단은 항상 정확할 것이다. 하지만 진단이 이런 식으로 정확해봤자 아무 쓸모가 없다. 마찬가지로 모형을 선택할 때 모형의 단순성을 포기한 대가로 늘어난 적합성은 필요없다. 따라서 모형을 선택할 때는 단순성과 적합성을 모두 고려해야 한다.

좀 더 수학적으로 설명해보면 이렇다(귀찮은 사람은 뛰어넘어도 좋다). 자료를 D, 모형을 M이라고 하면 자료가 주어졌을 때 모형의 조건부 확률은 P(M|D)이고, 베이즈 정리에 따라 아래와 같이 전개된다.


같은 자료를 가지고 서로 다른 모형들을 비교할려는 것이기 때문에 자료의 확률 P(D)는 고려할 필요가 없다. 따라서 다음의 관계식을 얻는다.


이제 양변에 -log를 씌우면 확률은 엔트로피가 된다.


따라서 "모형에 대한 자료의 엔트로피 + 모형의 엔트로피"가 최소인 모형, 다시 말해 적합성과 단순성의 합이 최대인 모형이 자료에 대해 가장 확률이 높다.

이상이 통계학에서 적합도 지수(fit index)의 바탕에 깔린 논리다. 나는 이 논리가 과학 활동의 핵심이라고 생각한다. 그러니까 관찰 대상이 자연이냐 사회냐 하는 것은 별로 중요하지 않다.

여기에 반전이 하나 있다. 위의 논리는 완벽하지만 치명적인 결함을 하나 숨기고 있다. 그 결함이 뭔지는 다음에..(다음 달에?)

태그 : , , ,
트랙백1 | 댓글0



[PREV] [1] [NEXT]
관리자  |   글쓰기
BLOG main image
보여도 보이지 않는 것들
- 댓글을 달기 전에
전체 (316)
마음 (59)
자연 (69)
도구 (26)
시간 (12)
세계 (72)
자아 (40)
의료 창의성 TeX 차이 역사 여성 확률 잡담 게르만어 심리철학 언어학 아프가니스탄 진화 레토릭 파시즘 막장 심리검사 언어 역설 인터넷 민주주의 어쩌라고 만화 튜링머신 역효과 담배 유전자 과신
블로그 옮겼습니다
민주화 (4)
말뚝 (3)
고등어 세 마리 (3)
과학과 도덕 (1)
펜은 칼보다 강하다. 정말 맞..
02/09 - 만년필
다들 설마 저걸 진짜로 진지하..
2007 - kritiker
다른 의미에서 제목이 아주 적..
2007 - 한윤형
아하하하하하하.
2007 - 까막
아...
2007 - Arouet
Tir-fot-Tat과 윤리(3)
나를 숨기는 것은 얼마나 가능..
세상이 돌아도 대세는 원더걸스
묻지마
약간 짜증이 나는 허튼소리
'명랑노트' 시즌 2. 두 번째..
빙글뱅글
마음 하나, 이야기 하나
Africa
마음 하나, 이야기 하나
Total : 551662
Today : 168
Yesterday : 318
태터툴즈 배너
rss
 
 
 
위치로그 : 태그
’s Blog is powered by Tattertools.com / Designed by plyfly.net