3. Linear Regression analysis

3. Linear Regression analysis

2024. 10. 20. 19:47ㆍComputer Science/회귀분석과 통계학습

3.1. Regression data (회귀분석 데이터)

1. 회귀 분석의 역사적 배경

: 회귀분석(Regression Analysis)의 개념은 유전학 연구에서 유래했다.

2. 회귀분석의 정의

회귀 분석은 변수 간 관계(relationship)의 특정 형태를 평가하는 통계적 절차이다.
한 변수(X or Xs)와 다른 변수(Y) 사이의 관계를 추정하거나 예측하는데 사용된다.
즉 x와 y의 연관성을 정확히 설명한다.

3. 회귀분석의 주요 개념

종속변수 (Y) : 결과 변수 또는 반응 변수 . 분포(distribution)
독립변수 (Xs): 설명 변수. Y에 영향을 미치는 변수. 변수(variable)
Xs와 Y의 상관관계(correlations)/연관성(associations): 연구 설계에 따라 Xs가 Y에 미치는 효과를 평가할 수 있다.
1개의 y와 여러개의 x
회귀분석은 기본적으로 정규분포를 따르는 것을 가정한다.
★회귀분석은 y의 평균인 M을 추정하는 것이다.

3.2. Simple Linear Regression (단순 선형 회귀 분석)

1. 단순 선형 회귀 분석의 기본 개념

x가 1개
목표: x와 y사이의 선형적 관계를 찾는 것

β₀ (절편): 회귀선이 Y축과 만나는 값.
β₁ (기울기): X가 한 단위 증가할 때 Y가 변하는 정도.
ε (오차항): 예측과 실제 값 사이의 차이를 나타내는 랜덤한 요소.

2. 단순 선형 회귀 모델

모델의 기본 형태

선형관계 : 기댓값 E[Yi∣Xi]은 다음과 같이 선형 관계로 표현된다.

오차항 : 오차의 평균=0, 오차의 분산은 일정한 값 즉 등분산성, 오차항 서로 독립적 즉 상관관계=0

회귀선(Red line: Regression line): 데이터의 경향성을 나타내는 직선이다.

3. LSE (매개변수 추정: parameter estimation)

: 단순 선형회귀분석에서 우리가 찾고차하는 주요 매개변수는 절편 β0과 기울기 β1이다. 이 매개변수들은 관측된 데이터와 회귀식 사이의 잔차를 최소화하는 방식으로 추정된다.

잔차: 매개변수를 추정하기 위해 잔차의 제곱합을 최소화하는 것이 목표이다.

위의 최소제곱법 Least Square Estimation 방법으로 B0과 B1의 값을 구할 수 있다.

회귀모델 해석: 절편: 1353.158, B1^: -37.619 - negative association 즉 음의 상관성을 보인다.

4. 추론 (Inference)

불확실성(uncertainty): 추정의 정밀도를 평가하는 주요방법은 분산(variance)을 추정하는 것
신뢰구간(confidence interval): 일반적으로 95% 신뢰구간 이용
- 분산 아는 경우
- 분산 모르는 경우
- 예시
  신뢰구간에 0포함 안되어있으면 x-y연관성 있다는 뜻.

5. 가설검정 (Hypothesis Testing for LSE)

H0: B1=0, H1: B1≠0
t-value는 계수의 추정치가 0과 얼마나 차이가 나는지를 보여주는 값이다.

6. 회귀모델평가 (model assessment)

Total Error
- 관측된값과 평균값 간의 차이
- 총 오류 = 잔차오류 + 설명된 오류 (Total error = residual error + explained error)
- (𝑌𝑖 − ̄𝑌) = (𝑌𝑖 − 𝑌̂) + (𝑌̂ − ̄𝑌)
- 오류가 작을수록 더 나은 모델을 만든다!
Residual Error
- Ei = Yi−Y^ (실제 - 예측)
- 잔차가 클수록 모델의 예측이 실제 데이터와 많이 차이난다는 의미
Explained Error
- 𝑌̂ − ̄𝑌(예측 - 이미아는값)
- 설명오류 클수록 모델이 데이터를 잘 설명하고 있음을 의미
결정계수 R^2 (Explanation Power: coefficient of determination)
설명된편차의 제곱합 / 총편차의 제곱합 = SSR / SST(O) = 1 - SSE/SST(O)
- 회귀모델의 "설명력"(예측)을 나타내는 중요한 지표
- R^2 클수록 모델이 좋다!
- R^2은 0과 1 사이의 값을 가지고, 1에 가까울수록 모델이 데이터를 잘 설명하는 것으로 해석.
- 총편차(SST(O)) : SST = SSR + SSE
- 설명된편차(SSR) : SSE보다 SSR이 훨씬 크면 좋은 모델이다. ~ B1≠0
- 잔차의 제곱합(SSE)
- R^2의 한계
  - 크다고 항상 좋은 모델을 의미하는 것은 아니다. 단순히 변수를 많이 추가해서 값이 증가한 것일 수 있다.
  - 기울기와 적합성을 측정하지 않는다.
ANOVA (분산분석표)

F 값 클수록 회귀계수 유의미, 좋은모델이라고 표현. F값은 계산할 줄 알아야한다.

7. 모델 진단 (diagnostics)

잔차(residual) 분석 : E=0, V는 일정(등분산성), 정규분포, 상관관계 없이 독립적
- Q-Q plot : 잔차가 정규분포(nomality)를 따르는지 확인하기 위한 도구 (기준: 5%)
- Scatterplots(산점도): 비선형성, 등분산 가정을 위반하는지, 이상치 확인 가능.
  - 등분산: 직사각형 모양. 모양에 패턴이 없어야 연관성이 있는것
    → 만약 잔차 모양이 U자나 곡선형으로 나타난다면 연관성이 없는 것이다. 적절한 모델 아니다.
  - 등분산 위반

8. 모델 예측(prediction)

extrapolation: 데이터 범위에서 벗어난 부분에 대한 예측 시도
interpolation: 데이터 범위 내에서의 예측

9. ★ MLE(최대 우도 추정, Maximum Likelihood Estimation)

: 가장 가능성 있게 생성된 매개변수(parameter) 값을 찾는 방법,

"분포"를 가정했을 때 나올 수 있는 확률

주어진 데이터에 대해 Likelihood Function을 최대화하는 매개변수 값을 찾는 것이 목표이다.

Likelihood(우도): 주어진 데이터가 있을 때, 매개변수 값이 달라질 경우 이 데이터가 관찰될 가능성을 설명.

2. 단순 선형 회귀 MLE

회귀 계수 β0, β1 그리고 오차의 분산 σ^2를 추정하는 과정과 관련
B0, B1에 대한 MLE는 LSE값과 동일 (분포가 같다는 가정)
σ^2은 MLE에서 편향(biased)된 추정값을 제공하지만 일관성(consistent)을 가지므로 데이터가 충분히 많을 경우 편향은 점점 줄어들게 된다.

10. 회귀분석시 고려사항

관찰된 데이터 범위 내에서 해석 가능
독립변수 x의 분포
이상치의 방해
회귀분석결과 상관관계(correlate)가 있다고 해도 이로 인해 인과관게(causality)가 있다고 결론 내릴 수 없다. 오직 연관성만 판단한다.

3.3. Multiple Linear Regression (다중 선형 회귀 분석)

: 다중회귀분석은 여러 독립변수(Xs)와 종속변수(Y) 간의 '선형' 관계를 찾기 위한 분석 방법이다.

1. 다중 회귀분석 모델의 형태

다중회귀분석의 필요성: 단순회귀분석에서는 하나의 종속변수 간의 관계만을 분석하지만, 실제 상황에서는 여러 변수가 종속변수에 영향을 미칠 수 있다. 따라서 추가적인 독립변수를 초함하면 모델이 더 정밀해지거나 특정 변수의 왜곡된 해석을 피할 수 있다. 다중 회귀분석을 수행하는 이유는 다음과 같다.
- 과학적 질문
- 교란 인자를 통제 (★ Adjustment for confounding)
- 정밀도 향상 (Gain precision)
Confounder (교란 인자) : 두 변수 간의 관계를 설명할 때 무시하거나 분석에 포함하지 않으면 관계에 대한 잘못된 해석이 발생할 수 있는 변수

Precision(정밀도): 다중 회귀분석에서 추가적인 공변량(covariate)을 포함하면 회귀 계수의 표준오차가 발생할 수 있따.
- 그룹 내 변동성이 감소하면 표준오차가 줄어든다.
- 독립변수들 간 상관관계가 존재하면 표준오차가 증가한다.
다중 모델의 행렬 표기 (Matrix Notation): Y=Xβ+ϵ
Parmeter Estimation (파라미터 추정)
- 다중 회귀분석에서 회귀계수 B는 최소제곱법(Least Squares Estimation)을 사용해 추정한다. 이 방법은 잔차의 제곱합을 최소화하는 값을 찾는 방법이다.
- LSE

회귀 모델 예시

Dummy(indicator) Variables
- 회귀모델에서는 연속형변수가 아닌 범주형 변수도 예측 변수로 사용할 수 있다. 범주형 변수들을 0과 1로 변환하여 모델에 포함한다.
Interaction(effect modification)
- 두 독립변수가 함께 종속변수 Y에 미치는 영향을 말한다.
- B0+B1x+B2+B3X = (B0+B2) + (B1+B3)X
- B3을 조사한다.!
- x-y "연관성"이 있다 라고 표현한다.

Hypothesis Testing (가설 검정)
- Overall Test: 모든 독립변수가 유의미한 영향을 미치는지 확인
- Individial Coefficients Test: 각 독립변수가 종속변수에 유의미한 영향을 미치는지 확인.

overall Test: 해석꼭 필요: 0.05보다 작은게 있었으니 F도 0.05보다 작을 것이고 유의미할 것이다.

3.4. Variable Selection (dimension reduction)

1. 다중 선형 회귀 분석 변수 선택

= "ART"

Full Model vs Reduced Model
1. Full Model(FM) : 모든 변수들을 포함한 모델 - 변수개수 - p개
2. Reduced Model(RM): 일부 변수를 제거하여 더 단순화된 모델
두 모델 다 잔차제곱합 SSE 이용: SSE 작을수록 good!

H0: FM = Rm → 만약 p>0.05 이면 FM!
흡연 예제 : Ho:B1=B2

FM: 두변수 모두 선택, RM: smoke2제거 -> RM선택, F검정: F0=0.11로 임계값 0.86보다 작다. H0기각 못하기 때문에 유의X, RM 선택

2. 변수 선택의 2가지 방법

사전 정보: 배경 정보
통계적 방법
- 기존 방법-forward/backward/stepwise selection
- 통계-adjusted R^2, AIC, BIC
- advanced method - LASSO, Elastic net
- cross validation: 에러합 최소.. 마지막 보류

3. k-fold cross validation(K겹 교차검증)

: 데이터를 여러부분으로 나누어 여러 번의 훈련과 테스트를 반복해 평균적인 모델 성능 추적

3.5 Anomaly detection (이상탐지)

1. Outliers(이상치) : 기존 box plot(1.5배)에서의 이상치와는 차원이 다른 큰 개념의 이상점.

2. Standardized residual (표준화 잔차): 잔차 / 잔차의 표준오차 → "회귀선에서 얼마나 떨어져 있는지를 표준오차로 측정.

3. Influential observation (영향력있는 관찰치): 해당값이 제거되면 회귀 방적식이 크게 바뀌는 값. high leverage(influence)

4. 이상 탐지 지표

standard residual (표준화 잔차)
Hat-vlaue: leverage(influence) 측정. 높을수록 좋아 >2(P+1)/n: high leverage
Cook's distance: 관측치가 제거되었을 때 모델이 얼마나 변화하는지를 나타내는 지표

5. Influece plot (Bubble plot): x축은 hat-values, y축은 standardized residuals, bubble 크기: Cook's distance

'Computer Science > 회귀분석과 통계학습' 카테고리의 다른 글

6. Introduction to Statistical Learning (0)	2024.12.04
4. Categorical data analysis & Logistic regression (0)	2024.12.02
5. Survival analysis (0)	2024.11.25
1. Basic Statistics (0)	2024.10.11

J

J

태그

최근글

댓글

공지사항

아카이브

'Computer Science > 회귀분석과 통계학습' 카테고리의 다른 글

관련글

티스토리툴바