Computer Science/회귀분석과 통계학습(5)
-
6. Introduction to Statistical Learning
6.1. Statistical Learning [ Learning에서는 Nonlinearity, X들 사이의 interaction (비선형끼리도) ]1. 정의 데이터를 이해하기 위한 vast/huge 도구들의 집합데이터를 조사하는 모든 과정은 통계적 학습의 과정으로 볼 수 있다. 항상 "예측"만이 목적인 것은 아니다.2. 지도 학습 vs 비지도 학습Supervised LearningXs=Ypredict y with Xs하나 이상의 입력에 기반하여 출력을 예측하거나 추정하기 위한 통계 모델을 구축한다.즉, 입력과 출력 간의 상호 관계를 다룬다.ex) 회귀 모델 (regression models)Unsupervised LearningCorrelations among Xs (cluster y)입력만 존재하고,..
2024.12.04 -
4. Categorical data analysis & Logistic regression
4.1. Categorical variable 1. 범주형 변수: 데이터를 분류하거나 카테고리로 구분하는 데 사용되는 변수로, 숫자로 표현되더라도 해당 숫자는 크기나 순서와는 관련이 없을 수 있다. Binary Variables(이진 변수): yes/no, success/failNominal Variables (순서 없음): sunflower, cherry blossom, pansyOrdinal Variables (순서 있음) : severe, moderate, mildDiscrete Interval : [1-20), [20-30), [30-100)2. 범주형 변수의 분포Binomial Distribution (이항 분포) : 이진 변수에 사용y = 성공횟수의 총합, y1,y2,…,yn는 독립적이고..
2024.12.02 -
5. Survival analysis
5.1. Survival Data1. Survival data : 특정 사건이 발생하기까지의 시간은 관심 대상으로 하는 데이터. 응답변수는 종종 failure time, survival time, 또는 event time으로 불린다. 2. Survival Time Response -> 정규분포 아니다.보통 연속형 데이터이다.일부 대상에서는 완전히 관측되지 않을 수 있으며, 이 경우 censoring(검열)된 응답으로 간주한다.항상 0이상의 값을 가진다. 표준회귀분석의 한계검열이 없을 경우, 표준 회귀 분석을 사용할 수 있다. 하지만 생존 데이터의 특성상 적절하지 않을 수 있다. 왜냐하면a. 이벤트 시간이 항상 양수이고 비대칭이다.b. 특정 시점을 넘어 생존할 확률이 이벤트의 기대시간보다 더 중요한 경..
2024.11.25 -
3. Linear Regression analysis
3.1. Regression data (회귀분석 데이터)1. 회귀 분석의 역사적 배경: 회귀분석(Regression Analysis)의 개념은 유전학 연구에서 유래했다. 2. 회귀분석의 정의회귀 분석은 변수 간 관계(relationship)의 특정 형태를 평가하는 통계적 절차이다. 한 변수(X or Xs)와 다른 변수(Y) 사이의 관계를 추정하거나 예측하는데 사용된다. 즉 x와 y의 연관성을 정확히 설명한다. 3. 회귀분석의 주요 개념종속변수 (Y) : 결과 변수 또는 반응 변수 . 분포(distribution)독립변수 (Xs): 설명 변수. Y에 영향을 미치는 변수. 변수(variable)Xs와 Y의 상관관계(correlations)/연관성(associations): 연구 설계에 따라 Xs가 Y에 미..
2024.10.20 -
1. Basic Statistics
1.1. Basic ConceptsVariable (변수) : quantitative(양적), qualitative(질적)Random Variable(확률변수) : continuous(연속), discrete(이산)Population(모집단) Sample(표본집단)1. (Modern) Statistics : "일부 데이터"만을 관찰했을 때 전체 데이터에 대해 "추론"하는 것 → the drawing of inferences about a body of data when only a part of the data is observed. → Inference: Observe only a portion, Draw inforamtion on the whole. - BioStatistics: ident..
2024.10.11