티스토리 뷰

3.1. Regression data (회귀분석 데이터)

1. 회귀 분석의 역사적 배경

: 회귀분석(Regression Analysis)의 개념은 유전학 연구에서 유래했다. 

 

2. 회귀분석의 정의

  • 회귀 분석은 변수 간 관계(relationship)의 특정 형태를 평가하는 통계적 절차이다. 
  • 한 변수(X or Xs)와 다른 변수(Y) 사이의 관계를 추정하거나 예측하는데 사용된다. 
  • x와 y의 연관성을 정확히 설명한다. 

3. 회귀분석의 주요 개념

  • 종속변수 (Y) : 결과 변수 또는 반응 변수 . 분포(distribution)
  • 독립변수 (Xs): 설명 변수. Y에 영향을 미치는 변수. 변수(variable)
  • Xs와 Y의 상관관계(correlations)/연관성(associations): 연구 설계에 따라 Xs가 Y에 미치는 효과를 평가할 수 있다. 
  • 1개의 y와 여러개의 x
  • 회귀분석은 기본적으로 정규분포를 따르는 것을 가정한다. 
  • ★회귀분석은 y의 평균인 M을 추정하는 것이다. 

3.2. Simple Linear Regression (단순 선형 회귀 분석)

1. 단순 선형 회귀 분석의 기본 개념

  • x가 1개
  • 목표: x와 y사이의 선형적 관계를 찾는 것

 

  • β₀ (절편): 회귀선이 Y축과 만나는 값.
  • β₁ (기울기): X가 한 단위 증가할 때 Y가 변하는 정도.
  • ε (오차항): 예측과 실제 값 사이의 차이를 나타내는 랜덤한 요소.

2. 단순 선형 회귀 모델

  • 모델의 기본 형태

E [ Yi​ ∣ Xi​ ] 는 x값에서 y의 기대값(평균)- 선형관계

 

  • 선형관계 : 기댓값 E[Yi∣Xi]은 다음과 같이 선형 관계로 표현된다.

y절편 + 기울기 베타1

  • 오차항 : 오차의 평균=0, 오차의 분산은 일정한 값 즉 등분산성, 오차항 서로 독립적 즉 상관관계=0

오차항은 정규분포 N(0, σ^2) 따른다.

 

  • 회귀선(Red line: Regression line): 데이터의 경향성을 나타내는 직선이다. 

3. LSE (매개변수 추정: parameter estimation)

: 단순 선형회귀분석에서 우리가 찾고차하는 주요 매개변수는 절편 β0과 기울기 β1이다. 이 매개변수들은 관측된 데이터와 회귀식 사이의 잔차를 최소화하는 방식으로 추정된다.  

  • 잔차: 매개변수를 추정하기 위해 잔차의 제곱합을 최소화하는 것이 목표이다. 

최소제곱법 LSE

  • 위의 최소제곱법 Least Square Estimation 방법으로 B0과 B1의 값을 구할 수 있다.

암기

  • 회귀모델 해석: 절편: 1353.158, B1^: -37.619 - negative association 즉 음의 상관성을 보인다.

4. 추론 (Inference)

  • 불확실성(uncertainty): 추정의 정밀도를 평가하는 주요방법은 분산(variance)을 추정하는 것
  • 신뢰구간(confidence interval): 일반적으로 95% 신뢰구간 이용
    • 분산 아는 경우
       
    • 분산 모르는 경우
    • 예시
      신뢰구간에 0포함 안되어있으면 x-y연관성 있다는 뜻.

5. 가설검정 (Hypothesis Testing for LSE)

  • H0: B1=0, H1: B1≠0
  • t-value는 계수의 추정치가 0과 얼마나 차이가 나는지를 보여주는 값이다.

오른쪽 B1≠0이기 때문에 선형 관계성이 있다.

6. 회귀모델평가 (model assessment)

  1. Total Error 
    • 관측된값과 평균값 간의 차이
    • 총 오류 =  잔차오류 + 설명된 오류 (Total error = residual error + explained error)
    • (𝑌𝑖 − ̄𝑌) = (𝑌𝑖 − 𝑌̂) + (𝑌̂ − ̄𝑌)
    • 오류가 작을수록 더 나은 모델을 만든다!
  2. Residual Error
    • Ei = YiY^ (실제 - 예측) 
    • 잔차가 클수록 모델의 예측이 실제 데이터와 많이 차이난다는 의미
  3. Explained Error
    • 𝑌̂ − ̄𝑌(예측 - 이미아는값)
    • 설명오류 클수록 모델이 데이터를 잘 설명하고 있음을 의미
  4. 결정계수 R^2 (Explanation Power: coefficient of determination)
    설명된편차의 제곱합 / 총편차의 제곱합 = SSR / SST(O) = 1 - SSE/SST(O)

    • 회귀모델의 "설명력"(예측)을 나타내는 중요한 지표
    • R^2 클수록 모델이 좋다! 
    • R^2은 0과 1 사이의 값을 가지고, 1에 가까울수록 모델이 데이터를 잘 설명하는 것으로 해석.
    • 총편차(SST(O)) : SST = SSR + SSE
    • 설명된편차(SSR) : SSE보다 SSR이 훨씬 크면 좋은 모델이다. ~ B1≠0
    • 잔차의 제곱합(SSE)
    • R^2의 한계
      • 크다고 항상 좋은 모델을 의미하는 것은 아니다. 단순히 변수를 많이 추가해서 값이 증가한 것일 수 있다. 
      • 기울기와 적합성을 측정하지 않는다.
  5.  ANOVA (분산분석표)

F 값 클수록 회귀계수 유의미, 좋은모델이라고 표현. F값은 계산할 줄 알아야한다.

 

7. 모델 진단 (diagnostics)

  1. 잔차(residual) 분석 : E=0, V는 일정(등분산성), 정규분포, 상관관계 없이 독립적
    • Q-Q plot : 잔차가 정규분포(nomality)를 따르는지 확인하기 위한 도구 (기준: 5%)
    • Scatterplots(산점도): 비선형성, 등분산 가정을 위반하는지,  이상치 확인 가능. 
      • 등분산: 직사각형 모양. 모양에 패턴이 없어야 연관성이 있는것
        → 만약 잔차 모양이 U자나 곡선형으로 나타난다면 연관성이 없는 것이다. 적절한 모델 아니다.
      • 등분산 위반

등분산

 

 

등분산 위반

 

등분산 위반

8. 모델 예측(prediction)

  • extrapolation: 데이터 범위에서 벗어난 부분에 대한 예측 시도
  • interpolation: 데이터 범위 내에서의 예측

9. ★ MLE(최대 우도 추정, Maximum Likelihood Estimation) 

:  가장 가능성 있게 생성된 매개변수(parameter) 값을 찾는 방법, 

"분포"를 가정했을 때 나올 수 있는 확률

주어진 데이터에 대해 Likelihood Function을 최대화하는 매개변수 값을 찾는 것이 목표이다.

  1. Likelihood(우도): 주어진 데이터가 있을 때, 매개변수 값이 달라질 경우 이 데이터가 관찰될 가능성을 설명.

암기
암기

   2. 단순 선형 회귀 MLE

  • 회귀 계수 β0, β1 그리고 오차의 분산 σ^2를 추정하는 과정과 관련
  • B0, B1에 대한  MLE는 LSE값과 동일 (분포가 같다는 가정)
  •  σ^2은 MLE에서 편향(biased)된 추정값을 제공하지만 일관성(consistent)을 가지므로 데이터가 충분히 많을 경우 편향은 점점 줄어들게 된다.

LSE는 N-1

10. 회귀분석시 고려사항

  • 관찰된 데이터 범위 내에서 해석 가능
  • 독립변수 x의 분포
  • 이상치의 방해
  • 회귀분석결과 상관관계(correlate)가 있다고 해도 이로 인해 인과관게(causality)가 있다고 결론 내릴 수 없다. 오직 연관성만 판단한다. 

3.3. Multiple Linear Regression (다중 선형 회귀 분석)

: 다중회귀분석은 여러 독립변수(Xs)와 종속변수(Y) 간의 '선형' 관계를 찾기 위한 분석 방법이다. 

 

1. 다중 회귀분석 모델의 형태

  • 다중회귀분석의 필요성: 단순회귀분석에서는 하나의 종속변수 간의 관계만을 분석하지만, 실제 상황에서는 여러 변수가 종속변수에 영향을 미칠 수 있다. 따라서 추가적인 독립변수를 초함하면 모델이 더 정밀해지거나 특정 변수의 왜곡된 해석을 피할 수 있다. 다중 회귀분석을 수행하는 이유는 다음과 같다.
    • 과학적 질문
    • 교란 인자를 통제 (★ Adjustment for confounding) 
    • 정밀도 향상 (Gain precision)
  • Confounder (교란 인자) : 두 변수 간의 관계를 설명할 때 무시하거나 분석에 포함하지 않으면 관계에 대한 잘못된 해석이 발생할 수 있는 변수

  • Precision(정밀도): 다중 회귀분석에서 추가적인 공변량(covariate)을 포함하면 회귀 계수의 표준오차가 발생할 수 있따.
    • 그룹 내 변동성이 감소하면 표준오차가 줄어든다.
    • 독립변수들 간 상관관계가 존재하면 표준오차가 증가한다.
  • 다중 모델의 행렬 표기 (Matrix Notation): Y=Xβ+ϵ
  • Parmeter Estimation (파라미터 추정)
    • 다중 회귀분석에서 회귀계수 B는 최소제곱법(Least Squares Estimation)을 사용해 추정한다. 이 방법은 잔차의 제곱합을 최소화하는 값을 찾는 방법이다. 
    • LSE

  • 회귀 모델 예시 

confounder보정이 필요하다는 해석이 보여야 한다.

  • Dummy(indicator) Variables
    • 회귀모델에서는 연속형변수가 아닌 범주형 변수도 예측 변수로 사용할 수 있다. 범주형 변수들을 0과 1로 변환하여 모델에 포함한다. 
  • Interaction(effect modification)
    • 두 독립변수가 함께 종속변수 Y에 미치는 영향을 말한다. 
    • B0+B1x+B2+B3X = (B0+B2) + (B1+B3)X
    • B3을 조사한다.!
    • x-y "연관성"이 있다 라고 표현한다.

꼭 해석할줄 알아야한다.

  • Hypothesis Testing (가설 검정)
    • Overall Test: 모든 독립변수가 유의미한 영향을 미치는지 확인
    • Individial  Coefficients Test: 각 독립변수가 종속변수에 유의미한 영향을 미치는지 확인.

overall Test: 해석꼭 필요: 0.05보다 작은게 있었으니 F도 0.05보다 작을 것이고 유의미할 것이다.
선형에선 B1=0

 

3.4. Variable Selection (dimension reduction)

 

1. 다중 선형 회귀 분석 변수 선택

= "ART"

  • Full Model  vs  Reduced Model
    1. Full Model(FM) : 모든 변수들을 포함한 모델 - 변수개수 - p개
    2. Reduced Model(RM): 일부 변수를 제거하여 더 단순화된 모델
  • 두 모델 다 잔차제곱합 SSE 이용: SSE 작을수록 good!

  • H0: FM = Rm → 만약 p>0.05 이면 FM!
  • 흡연 예제 : Ho:B1=B2

FM: 두변수 모두 선택, RM: smoke2제거 -> RM선택, F검정: F0=0.11로 임계값 0.86보다 작다. H0기각 못하기 때문에 유의X, RM 선택

2. 변수 선택의 2가지 방법

  1. 사전 정보: 배경 정보
  2. 통계적 방법
    • 기존 방법-forward/backward/stepwise selection
    • 통계-adjusted R^2, AIC, BIC
    • advanced method - LASSO, Elastic net
    • cross validation: 에러합 최소.. 마지막 보류

3. k-fold cross validation(K겹 교차검증)

: 데이터를 여러부분으로 나누어 여러 번의 훈련과 테스트를 반복해 평균적인 모델 성능 추적

 

3.5 Anomaly detection (이상탐지)

 

1. Outliers(이상치) : 기존 box plot(1.5배)에서의 이상치와는 차원이 다른 큰 개념의 이상점. 

2. Standardized residual (표준화 잔차): 잔차 / 잔차의 표준오차 → "회귀선에서 얼마나 떨어져 있는지를 표준오차로 측정.

3. Influential observation (영향력있는 관찰치): 해당값이 제거되면 회귀 방적식이 크게 바뀌는 값. high leverage(influence)

4. 이상 탐지 지표 

  • standard residual (표준화 잔차)
  • Hat-vlaue: leverage(influence) 측정. 높을수록 좋아 >2(P+1)/n: high leverage
  • Cook's distance: 관측치가 제거되었을 때 모델이 얼마나 변화하는지를 나타내는 지표

5. Influece plot (Bubble plot): x축은 hat-values,  y축은 standardized residuals, bubble 크기: Cook's distance

'회귀분석과 통계학습' 카테고리의 다른 글

6. Introduction to Statistical Learning  (0) 2024.12.04
5. Survival analysis  (0) 2024.11.25
1. Basic Statistics  (0) 2024.10.11
공지사항
최근에 올라온 글
«   2025/02   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28
글 보관함