5. Survival analysis

Js0l 2024. 11. 25. 16:01

5.1. Survival Data

1. Survival data : 특정 사건이 발생하기까지의 시간은 관심 대상으로 하는 데이터. 응답변수는 종종 failure time, survival time, 또는 event time으로 불린다.

2. Survival Time Response -> 정규분포 아니다.

보통 연속형 데이터이다.
일부 대상에서는 완전히 관측되지 않을 수 있으며, 이 경우 censoring(검열)된 응답으로 간주한다.항상 0이상의 값을 가진다.
표준회귀분석의 한계
- 검열이 없을 경우, 표준 회귀 분석을 사용할 수 있다. 하지만 생존 데이터의 특성상 적절하지 않을 수 있다. 왜냐하면
- a. 이벤트 시간이 항상 양수이고 비대칭이다.
- b. 특정 시점을 넘어 생존할 확률이 이벤트의 기대시간보다 더 중요한 경우가 많다.
- c. 생존 분석에서는 "hazard function(위험 함수)"를 통해 선형 회귀보다 실패 메커니즘에 대한 더 많은 통찰을 얻을 수 있다.
Survival time random variables
- non-negative: 생존시간 확률 변수는 항상 ≥0이다. 즉 실패시간확률변수를 T라고 하면 T ≥0이다.
- 생존시간확률변수를 정의하려면 필요한 것
  - Time origin (시간의 기준점): ex) 질병 진단, 치료 시작
  - Time scale (시간 척도): ex) 일, 년
  - Event Definition(이벤트 정의): ex) 치료 완료, 사망

3. ★ Censoring(검열)

: 때로는 실제 실패 시간 T를 관측하지 못하고 X<T만 관측할 수 있다. 이런 경우, Censoring mechanism(검열 메커니즘)이 존재하며, 이에 해당하는 Censoring Random Variable(검열 확률 변수) C가 있다.

검열의 이유
- 연구 종료 전에 이벤트가 발생하지 않음
- 연구 중 대상자가 추적되지 않음
- 대상자가 연구에서 자발적으로 철회
- 위의 모든 경우는 Right-Censoting(우측 검열)의 예시이다.
★ 검열 메커니즘의 조건: 생존 분석 방법에서는 검열 메커니즘이 생존 메커니즘과, 독립적(비정보성, non-informative)이어야한다. 즉 검열이 생존시간과 관련된 정보를 제공하지 않아야 한다.

5.2. Survival/Hazard function

1. Survival Function (생존 함수)

2. Hazard Function (위험 함수)

3. S(t)와 H(t)의 추정 (Survival function과 Hazard function)

Same survival function 가정 : 모든 대상자가 동일한 survival function을 따른다고 가정하면(no covariates), 쉽게 S(t)를 추정할 수 있다.
nonparametic (비모수) 방법
- censored 이벤트가 있는 경우 : Kaplan-Meier estimator 사용해 S(t) 추정
- 이벤트 없는 경우: S(t)=1−F(t) (여기서 F(t)은 경험적 누적 분포 함수)
★Keplan-Meier estimator
- censored 데이터를 포함하여 생존화률을 계산하는 비모수적 방법.
- 특정 시간 t까지의 생존확률은 생존곱(product-limit)으로 표현된다.

5.3. Regression with Survival data

1. Survival Regression (생존 회귀)

5.4. Cox Proportional Hazard Regression

1. Proportional Hazard Model (비례 위험 모델의 가정)

2. Cox Proportional Hazard(PH) regression model

3. Cox PH model에서 exp(β)의 해석

1) 해석 1 (이진 변수):

2) 해석 2 (연속 변수):