Computer Science/회귀분석과 통계학습
5. Survival analysis
Js0l
2024. 11. 25. 16:01
5.1. Survival Data
1. Survival data : 특정 사건이 발생하기까지의 시간은 관심 대상으로 하는 데이터. 응답변수는 종종 failure time, survival time, 또는 event time으로 불린다.
2. Survival Time Response -> 정규분포 아니다.
- 보통 연속형 데이터이다.
- 일부 대상에서는 완전히 관측되지 않을 수 있으며, 이 경우 censoring(검열)된 응답으로 간주한다.항상 0이상의 값을 가진다.
- 표준회귀분석의 한계
- 검열이 없을 경우, 표준 회귀 분석을 사용할 수 있다. 하지만 생존 데이터의 특성상 적절하지 않을 수 있다. 왜냐하면
- a. 이벤트 시간이 항상 양수이고 비대칭이다.
- b. 특정 시점을 넘어 생존할 확률이 이벤트의 기대시간보다 더 중요한 경우가 많다.
- c. 생존 분석에서는 "hazard function(위험 함수)"를 통해 선형 회귀보다 실패 메커니즘에 대한 더 많은 통찰을 얻을 수 있다.
- Survival time random variables
- non-negative: 생존시간 확률 변수는 항상 ≥0이다. 즉 실패시간확률변수를 T라고 하면 T ≥0이다.
- 생존시간확률변수를 정의하려면 필요한 것
- Time origin (시간의 기준점): ex) 질병 진단, 치료 시작
- Time scale (시간 척도): ex) 일, 년
- Event Definition(이벤트 정의): ex) 치료 완료, 사망
3. ★ Censoring(검열)
: 때로는 실제 실패 시간 T를 관측하지 못하고 X<T만 관측할 수 있다. 이런 경우, Censoring mechanism(검열 메커니즘)이 존재하며, 이에 해당하는 Censoring Random Variable(검열 확률 변수) C가 있다.
- 검열된 데이터: 일반적으로 X=min(T,C)를 관측하며, X를 검열된 생존/실패 시간 확률 변수라고 부른다.
- 검열의 이유
- 연구 종료 전에 이벤트가 발생하지 않음
- 연구 중 대상자가 추적되지 않음
- 대상자가 연구에서 자발적으로 철회
- 위의 모든 경우는 Right-Censoting(우측 검열)의 예시이다.
- ★ 검열 메커니즘의 조건: 생존 분석 방법에서는 검열 메커니즘이 생존 메커니즘과, 독립적(비정보성, non-informative)이어야한다. 즉 검열이 생존시간과 관련된 정보를 제공하지 않아야 한다.
5.2. Survival/Hazard function
1. Survival Function (생존 함수)
- T: 생존 시간(response variable, T<=0)
- Survival Function S(t)는 특정시간 t를 초과하여 생존할 확률을 나타낸다.
- Survival Function의 특성
- 시간 t가 0에서 무한대까지 변할 때, 생존 함수의 특성은
- non-increasing : 시간이 지날수록 생존 확률 감소
- t=0일 때, S(0)=1: 시간 0을 초과하여 생존할 확률은 1이다.
- t=∞일 때, S(∞) = 0: 시간이 무한대로 갈 때 생존할 확률은 0이다.
- 이론적으로 survival function은 smooth,연속 하다.
- 실제 데이터로 관찰하면 시간 척도가 이산적으로 측정된다. ex) days, weeks
- 시간 t가 0에서 무한대까지 변할 때, 생존 함수의 특성은
2. Hazard Function (위험 함수)
- h(t): 특정 시간 t에서 이벤트가 발생할 instantaneous rate이다. (주어진 사전 이벤트는 없다)
- h(t) = t시점 사망 / t 시점까지 생존 = f(t) / S(t) (여기서 f(t)는 생존시간의 밀도함수이다.)
- Culmulative Hazard(누적위험) : 시간 t까지의 누적위험을 나타낸다.
- S(t), H(t), h(t) 중 하나를 알면 나머지 두함수 도출 가능.
3. S(t)와 H(t)의 추정 (Survival function과 Hazard function)
- Same survival function 가정 : 모든 대상자가 동일한 survival function을 따른다고 가정하면(no covariates), 쉽게 S(t)를 추정할 수 있다.
- nonparametic (비모수) 방법
- censored 이벤트가 있는 경우 : Kaplan-Meier estimator 사용해 S(t) 추정
- 이벤트 없는 경우: S(t)=1−F(t) (여기서 F(t)은 경험적 누적 분포 함수)
- ★Keplan-Meier estimator
- censored 데이터를 포함하여 생존화률을 계산하는 비모수적 방법.
- 특정 시간 t까지의 생존확률은 생존곱(product-limit)으로 표현된다.
- survival curve에 대한 비교
- 두 생존 곡선을 비교하기 위한 가설
- H0: 두 그룹의 생존 곡선이 동일하다.
- H1: 두 그룹의 생존 곡선이 다르다.
- 검정 방법
- Log-rank test
- Gehan's method (=Wilcoxson test)
- Likelihood ratio test
- 두 생존 곡선을 비교하기 위한 가설
5.3. Regression with Survival data
1. Survival Regression (생존 회귀)
- Proportional Hazards(PH)
- 생존 분석에서 가장 널리 사용되는 회귀 모델
- 예측 변수는 개인의 위험함수 (hazard)에 영향을 미친다.
- h(t∣X)=h0(t)⋅exp(Xβ) -> 여기서 h(t)는 주어진 위험함수를 말한다.
- h(t)에 대해 어떠한 parametric 형태의 hazard function도 사용할 수 있다.
- Xβ는 절편(intercept)을 가질 수도 있다.
5.4. Cox Proportional Hazard Regression
1. Proportional Hazard Model (비례 위험 모델의 가정)
- 예측변수 X1, ..., Xp는 로그 위험 함수 log h(t|X)에 선형적으로 작용한다.
- log h(t|X)는 β의 계수에 따라 선형적으로 변한다.
- 예측 젼수의 효과는 모든 시간 t에서 동일하게 유지된다.
2. Cox Proportional Hazard(PH) regression model
- h(t∣X)=h0(t)⋅exp(Xβ)
- a. Semiparametric Model (반모수적 모델)
- b. 비모수적 특성 - h0(t)에 대해 특정한 형식을 가정하지 않음
- c. 모수적 특성 - 예측 변수 X와 β의 관계를 선형적으로 가정.
- 일반적으로 shape of the hazard 보다는 parameter estimates에 대해 더 관심을 둔다.
3. Cox PH model에서 exp(β)의 해석
- : 위험 비율(Hazard Ratio, HR)을 나타낸다.
- β: 예측 변수 Xj가 1 증가할 때, 다른 모든 예측 변수가 고정된 상태에서 이벤트 발생 위험이 어떻게 변화하는지를 나타낸다.
- exp(βj)>1: 이벤트 발생 위험이 증가.
- exp(βj)<1: 이벤트 발생 위험이 감소.
1) 해석 1 (이진 변수):
- 특정 처치 변수 :
- RX=1: 처치받은 그룹.
- RX=0: 처치받지 않은 그룹.
- HR = 0.448
2) 해석 2 (연속 변수):
- 나이 변수(Age):
- HR = 1.159:나이가 1살 증가할 때, 이벤트 발생위험이 15.9