
6.1. Statistical Learning [ Learning에서는 Nonlinearity, X들 사이의 interaction (비선형끼리도) ]1. 정의 데이터를 이해하기 위한 vast/huge 도구들의 집합데이터를 조사하는 모든 과정은 통계적 학습의 과정으로 볼 수 있다. 항상 "예측"만이 목적인 것은 아니다.2. 지도 학습 vs 비지도 학습Supervised LearningXs=Ypredict y with Xs하나 이상의 입력에 기반하여 출력을 예측하거나 추정하기 위한 통계 모델을 구축한다.즉, 입력과 출력 간의 상호 관계를 다룬다.ex) 회귀 모델 (regression models)Unsupervised LearningCorrelations among Xs (cluster y)입력만 존재하고,..

5.1. Survival Data1. Survival data : 특정 사건이 발생하기까지의 시간은 관심 대상으로 하는 데이터. 응답변수는 종종 failure time, survival time, 또는 event time으로 불린다. 2. Survival Time Response -> 정규분포 아니다.보통 연속형 데이터이다.일부 대상에서는 완전히 관측되지 않을 수 있으며, 이 경우 censoring(검열)된 응답으로 간주한다.항상 0이상의 값을 가진다. 표준회귀분석의 한계검열이 없을 경우, 표준 회귀 분석을 사용할 수 있다. 하지만 생존 데이터의 특성상 적절하지 않을 수 있다. 왜냐하면a. 이벤트 시간이 항상 양수이고 비대칭이다.b. 특정 시점을 넘어 생존할 확률이 이벤트의 기대시간보다 더 중요한 경..

3.1. Regression data (회귀분석 데이터)1. 회귀 분석의 역사적 배경: 회귀분석(Regression Analysis)의 개념은 유전학 연구에서 유래했다. 2. 회귀분석의 정의회귀 분석은 변수 간 관계(relationship)의 특정 형태를 평가하는 통계적 절차이다. 한 변수(X or Xs)와 다른 변수(Y) 사이의 관계를 추정하거나 예측하는데 사용된다. 즉 x와 y의 연관성을 정확히 설명한다. 3. 회귀분석의 주요 개념종속변수 (Y) : 결과 변수 또는 반응 변수 . 분포(distribution)독립변수 (Xs): 설명 변수. Y에 영향을 미치는 변수. 변수(variable)Xs와 Y의 상관관계(correlations)/연관성(associations): 연구 설계에 따라 Xs가 Y에 미..

1.1. Basic ConceptsVariable (변수) : quantitative(양적), qualitative(질적)Random Variable(확률변수) : continuous(연속), discrete(이산)Population(모집단) Sample(표본집단)1. (Modern) Statistics : "일부 데이터"만을 관찰했을 때 전체 데이터에 대해 "추론"하는 것 → the drawing of inferences about a body of data when only a part of the data is observed. → Inference: Observe only a portion, Draw inforamtion on the whole. - BioStatistics: ident..