Js0l 2024. 11. 25. 16:01

5.1. Survival Data

1. Survival data :  특정 사건이 발생하기까지의 시간은 관심 대상으로 하는 데이터. 응답변수는 종종 failure time, survival time, 또는 event time으로 불린다.

 

2. Survival Time Response -> 정규분포 아니다.

  • 보통 연속형 데이터이다.
  • 일부 대상에서는 완전히 관측되지 않을 수 있으며, 이 경우 censoring(검열)된 응답으로 간주한다.항상 0이상의 값을 가진다.  
  • 표준회귀분석의 한계
    • 검열이 없을 경우, 표준 회귀 분석을 사용할 수 있다. 하지만 생존 데이터의 특성상 적절하지 않을 수 있다. 왜냐하면
    • a. 이벤트 시간이 항상 양수이고 비대칭이다.
    • b. 특정 시점을 넘어 생존할 확률이 이벤트의 기대시간보다 더 중요한 경우가 많다.
    • c. 생존 분석에서는 "hazard function(위험 함수)"를 통해 선형 회귀보다 실패 메커니즘에 대한 더 많은 통찰을 얻을 수 있다. 
  • Survival time random variables
    • non-negative: 생존시간 확률 변수는 항상 ≥0이다. 즉 실패시간확률변수를 T라고 하면 T ≥0이다.
    • 생존시간확률변수를 정의하려면 필요한 것
      • Time origin (시간의 기준점): ex) 질병 진단, 치료 시작
      • Time scale (시간 척도): ex) 일, 년
      • Event Definition(이벤트 정의): ex) 치료 완료, 사망

3. Censoring(검열)

: 때로는 실제 실패 시간 T를 관측하지 못하고 X<T만 관측할 수 있다. 이런 경우, Censoring mechanism(검열 메커니즘)이 존재하며, 이에 해당하는 Censoring Random Variable(검열 확률 변수) C가 있다. 

  • 검열된 데이터: 일반적으로 X=min(T,C)를 관측하며, X를 검열된 생존/실패 시간 확률 변수라고 부른다. 

  • 검열의 이유 
    • 연구 종료 전에 이벤트가 발생하지 않음
    • 연구 중 대상자가 추적되지 않음
    • 대상자가 연구에서 자발적으로 철회
    • 위의 모든 경우는 Right-Censoting(우측 검열)의 예시이다.
  • 검열 메커니즘의 조건: 생존 분석 방법에서는 검열 메커니즘이 생존 메커니즘과, 독립적(비정보성, non-informative)이어야한다. 즉 검열이 생존시간과 관련된 정보를 제공하지 않아야 한다. 

5.2. Survival/Hazard function

1. Survival Function (생존 함수)

  • T: 생존 시간(response variable, T<=0)
  • Survival Function S(t)는 특정시간 t를 초과하여 생존할 확률을 나타낸다. 

T>t는 누적되는 것이다.

  • Survival Function의 특성
    • 시간 t가 0에서 무한대까지 변할 때, 생존 함수의 특성은 
      • non-increasing : 시간이 지날수록 생존 확률 감소
      • t=0일 때, S(0)=1: 시간 0을 초과하여 생존할 확률은 1이다.
      • t=∞일 때, S(∞) = 0: 시간이 무한대로 갈 때 생존할 확률은 0이다.
    • 이론적으로 survival function은 smooth,연속 하다.
    • 실제 데이터로 관찰하면 시간 척도가 이산적으로 측정된다. ex) days, weeks

2. Hazard Function (위험 함수)

  • h(t): 특정 시간 t에서 이벤트가 발생할 instantaneous rate이다.  (주어진 사전 이벤트는 없다)
  • h(t) = t시점 사망 / t 시점까지 생존 = f(t) / S(t) (여기서 f(t)는 생존시간의 밀도함수이다.)
  • Culmulative Hazard(누적위험) : 시간 t까지의 누적위험을 나타낸다.
  • S(t), H(t), h(t) 중 하나를 알면 나머지 두함수 도출 가능. 

3. S(t)와 H(t)의 추정 (Survival function과 Hazard function)

  • Same survival function 가정 : 모든 대상자가 동일한 survival function을 따른다고 가정하면(no covariates), 쉽게 S(t)를 추정할 수 있다. 
  • nonparametic (비모수) 방법
    • censored 이벤트가 있는  경우 : Kaplan-Meier estimator 사용해 S(t) 추정
    • 이벤트 없는 경우: S(t)=1F(t) (여기서 F(t)은 경험적 누적 분포 함수)
  • Keplan-Meier estimator
    • censored 데이터를 포함하여 생존화률을 계산하는 비모수적 방법.
    • 특정 시간 t까지의 생존확률은 생존곱(product-limit)으로 표현된다.

 

  • survival curve에 대한 비교
    • 두 생존 곡선을 비교하기 위한 가설 
      • H0: 두 그룹의 생존 곡선이 동일하다.
      • H1: 두 그룹의 생존 곡선이 다르다.
    • 검정 방법
      • Log-rank test
      • Gehan's method (=Wilcoxson test)
      • Likelihood ratio test

5.3. Regression with Survival data

1. Survival Regression (생존 회귀)

  • Proportional Hazards(PH)
    • 생존 분석에서 가장 널리 사용되는 회귀 모델
    • 예측 변수는 개인의 위험함수 (hazard)에 영향을 미친다.
    • h(tX)=h0(t)exp() -> 여기서 h(t)는 주어진 위험함수를 말한다. 
    • h(t)에 대해 어떠한 parametric 형태의 hazard function도 사용할 수 있다.
    • Xβ는 절편(intercept)을 가질 수도 있다.

 

5.4. Cox Proportional Hazard Regression

1. Proportional Hazard Model (비례 위험 모델의 가정)

  • 예측변수 X1, ..., Xp는 로그 위험 함수 log h(t|X)에 선형적으로 작용한다.
  • log h(t|X)는 β의 계수에 따라 선형적으로 변한다.
  • 예측 젼수의 효과는 모든 시간 t에서 동일하게 유지된다.

2. Cox Proportional Hazard(PH) regression model

  • h(t∣X)=h0​(t)⋅exp(Xβ)
  • a. Semiparametric Model (반모수적 모델)
  • b. 비모수적 특성 -  h0(t)에 대해 특정한 형식을 가정하지 않음
  • c. 모수적 특성 -  예측 변수 X와 β의 관계를 선형적으로 가정.
  • 일반적으로 shape of the hazard 보다는 parameter estimates에 대해 더 관심을 둔다.

3. Cox PH model에서 exp(β)의 해석

  • : 위험 비율(Hazard Ratio, HR)을 나타낸다.
  • β: 예측 변수 Xj가 1 증가할 때, 다른 모든 예측 변수가 고정된 상태에서 이벤트 발생 위험이 어떻게 변화하는지를 나타낸다.
  • exp⁡(βj)>1: 이벤트 발생 위험이 증가.
  • exp⁡(βj)<1: 이벤트 발생 위험이 감소.

1) 해석 1 (이진 변수):

  • 특정 처치 변수 :
    • RX=1: 처치받은 그룹.
    • RX=0: 처치받지 않은 그룹.
  • HR = 0.448

2) 해석 2 (연속 변수):

  • 나이 변수(Age):
    • HR = 1.159:나이가 1살 증가할 때, 이벤트 발생위험이 15.9