이런 것을 추정할 때는 의학통계에서 많이 쓰는 '생존분석'이라는 이름이 약간 섬ㅤㅉㅣㅅ한 방법을 써야한다. 어떤 병에 걸린 사람들의 죽고 사는 걸 조사한다고 하자. 비슷한 시기에 병에 걸린 사람들을 10년이고 20년이고 추적 조사하면 좋겠지만 여기에는 두 가지 난점이 있다. 먼저, 돈 때문이건 시간 때문이건 그런 연구는 할 수가 없다. 게다가 환자들은 중간에 치료를 그만두거나 병원을 옮기거나 연구자와 연락을 끊어버린다. 생존분석은 이런 상황에서 사망률의 패턴을 알아내는 방법이다.
오늘 사용할 것은 '생명표 분석'이라는 가장 기초적인 생존분석법이다. 이 방법은 최소한 50 케이스 이상의 표본이 필요하다. 여러 가지 방법이 있을 텐데 "태터센터에 2004년 7월 1일 싱크된 순서대로 50개의 블로그"를 골랐다. 태터센터를 고른 이유는 사이트 이름으로 검색할 수 있고 처음 싱크한 날짜와 마지막으로 싱크한 날짜가 보관되어 있으므로 조사하기에 편리하다. 올블로그나 블로그코리아에서는 이런 조사를 하기 어렵다. 어쨌든 편의상의 이유로 태터툴즈 블로그의 생존에 대해서만 알아봤다.
조사한 블로그들의 관찰된 생존기간은 최소 2개월에서 최대 14개월까지였고 2005년 4월 8일을 기준은 한 달 내에 즉, 3월 8일 이후로 새 글이 없으면 글을 쓰지 않으면 블로그를 버린 것으로 간주했다.
데이터를 입력하는 방법은 지난 연재에 했던 것과 똑같다.
> blog <- edit(data.frame())
변수는 두 가지 time과 event가 있다. time은 관찰된 기간, event는 관찰된 기간 내에 블로그를 버렸는지를 말한다. 2004년 4월에 개설되서 8월에 문을 닫은 블로그의 경우 time은 5이고(4월, 5월, 6월, 7월), event는 1이다. 2004년 5월에 개설되서 2005년 3월까지도 문을 닫지 않은 블로그의 경우 time은 11, event는 0이다.
그런데 여기까지 써놓고 보니 R에는 생명표를 만들어주는 명령이 없다. --; 그래서 직접 만들었다.(점점 연재가 배보다 배꼽이 커지고 있다.) 아래 파일을 다운로드한 다음 R 메뉴에서 File -> Source R Code를 눌러 불러들이면 된다.
이제 아래 명령만 치면 오늘 할 일은 끝이다.
> lt <- lifetab(blog)