티스토리 뷰
3.1. Regression data (회귀분석 데이터)
1. 회귀 분석의 역사적 배경
: 회귀분석(Regression Analysis)의 개념은 유전학 연구에서 유래했다.
2. 회귀분석의 정의
- 회귀 분석은 변수 간 관계(relationship)의 특정 형태를 평가하는 통계적 절차이다.
- 한 변수(X or Xs)와 다른 변수(Y) 사이의 관계를 추정하거나 예측하는데 사용된다.
- 즉 x와 y의 연관성을 정확히 설명한다.
3. 회귀분석의 주요 개념
- 종속변수 (Y) : 결과 변수 또는 반응 변수 . 분포(distribution)
- 독립변수 (Xs): 설명 변수. Y에 영향을 미치는 변수. 변수(variable)
- Xs와 Y의 상관관계(correlations)/연관성(associations): 연구 설계에 따라 Xs가 Y에 미치는 효과를 평가할 수 있다.
- 1개의 y와 여러개의 x
- 회귀분석은 기본적으로 정규분포를 따르는 것을 가정한다.
- ★회귀분석은 y의 평균인 M을 추정하는 것이다.
3.2. Simple Linear Regression (단순 선형 회귀 분석)
1. 단순 선형 회귀 분석의 기본 개념
- x가 1개
- 목표: x와 y사이의 선형적 관계를 찾는 것
- β₀ (절편): 회귀선이 Y축과 만나는 값.
- β₁ (기울기): X가 한 단위 증가할 때 Y가 변하는 정도.
- ε (오차항): 예측과 실제 값 사이의 차이를 나타내는 랜덤한 요소.
2. 단순 선형 회귀 모델
- 모델의 기본 형태
- 선형관계 : 기댓값 E[Yi∣Xi]은 다음과 같이 선형 관계로 표현된다.
- 오차항 : 오차의 평균=0, 오차의 분산은 일정한 값 즉 등분산성, 오차항 서로 독립적 즉 상관관계=0
- 회귀선(Red line: Regression line): 데이터의 경향성을 나타내는 직선이다.
3. LSE (매개변수 추정: parameter estimation)
: 단순 선형회귀분석에서 우리가 찾고차하는 주요 매개변수는 절편 β0과 기울기 β1이다. 이 매개변수들은 관측된 데이터와 회귀식 사이의 잔차를 최소화하는 방식으로 추정된다.
- 잔차: 매개변수를 추정하기 위해 잔차의 제곱합을 최소화하는 것이 목표이다.
- 위의 최소제곱법 Least Square Estimation 방법으로 B0과 B1의 값을 구할 수 있다.
- 회귀모델 해석: 절편: 1353.158, B1^: -37.619 - negative association 즉 음의 상관성을 보인다.
4. 추론 (Inference)
- 불확실성(uncertainty): 추정의 정밀도를 평가하는 주요방법은 분산(variance)을 추정하는 것
- 신뢰구간(confidence interval): 일반적으로 95% 신뢰구간 이용
- 분산 아는 경우
- 분산 모르는 경우
- 예시
신뢰구간에 0포함 안되어있으면 x-y연관성 있다는 뜻.
- 분산 아는 경우
5. 가설검정 (Hypothesis Testing for LSE)
- H0: B1=0, H1: B1≠0
- t-value는 계수의 추정치가 0과 얼마나 차이가 나는지를 보여주는 값이다.
6. 회귀모델평가 (model assessment)
- Total Error
- 관측된값과 평균값 간의 차이
- 총 오류 = 잔차오류 + 설명된 오류 (Total error = residual error + explained error)
- (𝑌𝑖 − ̄𝑌) = (𝑌𝑖 − 𝑌̂) + (𝑌̂ − ̄𝑌)
- 오류가 작을수록 더 나은 모델을 만든다!
- Residual Error
- Ei = Yi−Y^ (실제 - 예측)
- 잔차가 클수록 모델의 예측이 실제 데이터와 많이 차이난다는 의미
- Explained Error
- 𝑌̂ − ̄𝑌(예측 - 이미아는값)
- 설명오류 클수록 모델이 데이터를 잘 설명하고 있음을 의미
- 결정계수 R^2 (Explanation Power: coefficient of determination)
설명된편차의 제곱합 / 총편차의 제곱합 = SSR / SST(O) = 1 - SSE/SST(O)
- 회귀모델의 "설명력"(예측)을 나타내는 중요한 지표
- R^2 클수록 모델이 좋다!
- R^2은 0과 1 사이의 값을 가지고, 1에 가까울수록 모델이 데이터를 잘 설명하는 것으로 해석.
- 총편차(SST(O)) : SST = SSR + SSE
- 설명된편차(SSR) : SSE보다 SSR이 훨씬 크면 좋은 모델이다. ~ B1≠0
- 잔차의 제곱합(SSE)
- R^2의 한계
- 크다고 항상 좋은 모델을 의미하는 것은 아니다. 단순히 변수를 많이 추가해서 값이 증가한 것일 수 있다.
- 기울기와 적합성을 측정하지 않는다.
- ANOVA (분산분석표)
7. 모델 진단 (diagnostics)
- 잔차(residual) 분석 : E=0, V는 일정(등분산성), 정규분포, 상관관계 없이 독립적
- Q-Q plot : 잔차가 정규분포(nomality)를 따르는지 확인하기 위한 도구 (기준: 5%)
- Scatterplots(산점도): 비선형성, 등분산 가정을 위반하는지, 이상치 확인 가능.
- 등분산: 직사각형 모양. 모양에 패턴이 없어야 연관성이 있는것
→ 만약 잔차 모양이 U자나 곡선형으로 나타난다면 연관성이 없는 것이다. 적절한 모델 아니다. - 등분산 위반
- 등분산: 직사각형 모양. 모양에 패턴이 없어야 연관성이 있는것
8. 모델 예측(prediction)
- extrapolation: 데이터 범위에서 벗어난 부분에 대한 예측 시도
- interpolation: 데이터 범위 내에서의 예측
9. ★ MLE(최대 우도 추정, Maximum Likelihood Estimation)
: 가장 가능성 있게 생성된 매개변수(parameter) 값을 찾는 방법,
"분포"를 가정했을 때 나올 수 있는 확률
주어진 데이터에 대해 Likelihood Function을 최대화하는 매개변수 값을 찾는 것이 목표이다.
- Likelihood(우도): 주어진 데이터가 있을 때, 매개변수 값이 달라질 경우 이 데이터가 관찰될 가능성을 설명.
2. 단순 선형 회귀 MLE
- 회귀 계수 β0, β1 그리고 오차의 분산 σ^2를 추정하는 과정과 관련
- B0, B1에 대한 MLE는 LSE값과 동일 (분포가 같다는 가정)
- σ^2은 MLE에서 편향(biased)된 추정값을 제공하지만 일관성(consistent)을 가지므로 데이터가 충분히 많을 경우 편향은 점점 줄어들게 된다.
10. 회귀분석시 고려사항
- 관찰된 데이터 범위 내에서 해석 가능
- 독립변수 x의 분포
- 이상치의 방해
- 회귀분석결과 상관관계(correlate)가 있다고 해도 이로 인해 인과관게(causality)가 있다고 결론 내릴 수 없다. 오직 연관성만 판단한다.
3.3. Multiple Linear Regression (다중 선형 회귀 분석)
: 다중회귀분석은 여러 독립변수(Xs)와 종속변수(Y) 간의 '선형' 관계를 찾기 위한 분석 방법이다.
1. 다중 회귀분석 모델의 형태
- 다중회귀분석의 필요성: 단순회귀분석에서는 하나의 종속변수 간의 관계만을 분석하지만, 실제 상황에서는 여러 변수가 종속변수에 영향을 미칠 수 있다. 따라서 추가적인 독립변수를 초함하면 모델이 더 정밀해지거나 특정 변수의 왜곡된 해석을 피할 수 있다. 다중 회귀분석을 수행하는 이유는 다음과 같다.
- 과학적 질문
- 교란 인자를 통제 (★ Adjustment for confounding)
- 정밀도 향상 (Gain precision)
- Confounder (교란 인자) : 두 변수 간의 관계를 설명할 때 무시하거나 분석에 포함하지 않으면 관계에 대한 잘못된 해석이 발생할 수 있는 변수
- Precision(정밀도): 다중 회귀분석에서 추가적인 공변량(covariate)을 포함하면 회귀 계수의 표준오차가 발생할 수 있따.
- 그룹 내 변동성이 감소하면 표준오차가 줄어든다.
- 독립변수들 간 상관관계가 존재하면 표준오차가 증가한다.
- 다중 모델의 행렬 표기 (Matrix Notation): Y=Xβ+ϵ
- Parmeter Estimation (파라미터 추정)
- 다중 회귀분석에서 회귀계수 B는 최소제곱법(Least Squares Estimation)을 사용해 추정한다. 이 방법은 잔차의 제곱합을 최소화하는 값을 찾는 방법이다.
- LSE
- 회귀 모델 예시
- Dummy(indicator) Variables
- 회귀모델에서는 연속형변수가 아닌 범주형 변수도 예측 변수로 사용할 수 있다. 범주형 변수들을 0과 1로 변환하여 모델에 포함한다.
- Interaction(effect modification)
- 두 독립변수가 함께 종속변수 Y에 미치는 영향을 말한다.
- B0+B1x+B2+B3X = (B0+B2) + (B1+B3)X
- B3을 조사한다.!
- x-y "연관성"이 있다 라고 표현한다.
- Hypothesis Testing (가설 검정)
- Overall Test: 모든 독립변수가 유의미한 영향을 미치는지 확인
- Individial Coefficients Test: 각 독립변수가 종속변수에 유의미한 영향을 미치는지 확인.
3.4. Variable Selection (dimension reduction)
1. 다중 선형 회귀 분석 변수 선택
= "ART"
- Full Model vs Reduced Model
- Full Model(FM) : 모든 변수들을 포함한 모델 - 변수개수 - p개
- Reduced Model(RM): 일부 변수를 제거하여 더 단순화된 모델
- 두 모델 다 잔차제곱합 SSE 이용: SSE 작을수록 good!
- H0: FM = Rm → 만약 p>0.05 이면 FM!
- 흡연 예제 : Ho:B1=B2
2. 변수 선택의 2가지 방법
- 사전 정보: 배경 정보
- 통계적 방법
- 기존 방법-forward/backward/stepwise selection
- 통계-adjusted R^2, AIC, BIC
- advanced method - LASSO, Elastic net
- cross validation: 에러합 최소.. 마지막 보류
3. k-fold cross validation(K겹 교차검증)
: 데이터를 여러부분으로 나누어 여러 번의 훈련과 테스트를 반복해 평균적인 모델 성능 추적
3.5 Anomaly detection (이상탐지)
1. Outliers(이상치) : 기존 box plot(1.5배)에서의 이상치와는 차원이 다른 큰 개념의 이상점.
2. Standardized residual (표준화 잔차): 잔차 / 잔차의 표준오차 → "회귀선에서 얼마나 떨어져 있는지를 표준오차로 측정.
3. Influential observation (영향력있는 관찰치): 해당값이 제거되면 회귀 방적식이 크게 바뀌는 값. high leverage(influence)
4. 이상 탐지 지표
- standard residual (표준화 잔차)
- Hat-vlaue: leverage(influence) 측정. 높을수록 좋아 >2(P+1)/n: high leverage
- Cook's distance: 관측치가 제거되었을 때 모델이 얼마나 변화하는지를 나타내는 지표
5. Influece plot (Bubble plot): x축은 hat-values, y축은 standardized residuals, bubble 크기: Cook's distance
'회귀분석과 통계학습' 카테고리의 다른 글
6. Introduction to Statistical Learning (0) | 2024.12.04 |
---|---|
5. Survival analysis (0) | 2024.11.25 |
1. Basic Statistics (0) | 2024.10.11 |