1. Basic Statistics
1.1. Basic Concepts
- Variable (변수) : quantitative(양적), qualitative(질적)
- Random Variable(확률변수) : continuous(연속), discrete(이산)
- Population(모집단)
- Sample(표본집단)
1. (Modern) Statistics : "일부 데이터"만을 관찰했을 때 전체 데이터에 대해 "추론"하는 것
→ the drawing of inferences about a body of data when only a part of the data is observed.
→ Inference: Observe only a portion, Draw inforamtion on the whole.
- BioStatistics: identify the characteristics(factors) and explain the roles of the characteristics on health outcomes
→ find statistical evidence.
2. Variables(변수)
- Quantitative variables (양적변수) : "수(numbers)"로 측정되는 변수, countable variables. -
- Qualitative variables (질적변수): 측정되기에 적절치 않은 (not capable) 변수, uncountable · categorical variables.
3. Random Variables(확률변수)
: 통계적 분포, 정규 분포를 따르는 변수. cannot be predicted, arise as a result of "chance" (우연)
- Continuous random variable : gaps 없다.
- Discrete random variable : charcterized by the gaps in the values.
4. Population (모집단)
: whole data, target of the study, 내 주제에 관심있는 사람의 데이터 (interest)
: value from a random variable that we want to identify, 확률적으로 추론한다.
5. Sample (표본집단)
: part of a population, 모집단의 부분
★ 확률적 추론: 우리가 수집한 표본집단을 이용해 모집단의 특징을 추론하는 것.
→ 표본집단을 선정하는 것이 매우 중요하다.
- 대표성, Unbiased Sample (골고루 샘플링)
- Sampling Error: Sample 클수록 에러 방지하기 좋다.
- Non-sampling Error: target 모집단과 표본집단이 달라서 생기는 문제. sampling area 자체가 다른 문제.
1.2. Descriptive Statistics (기술 통계학)
: 존재하는 것을 쓰는 것, 즉 내 의견이 들어가지 않는 "객관적"이라는 것.
1. Statistic(통계량): 해당 모집단에서 추출한 sample(표본)을 이용해 만든 것. 표본들의 함수
2. Parameter(모수): 통계적 추론에서 분석자의 최종목표, population(모집단)의 특성
★ Statistic(통계량) → 확률적 추론 → parameter(모수) |
3. Centeral Tendency (중심 성향): mean(평균), median(중앙값), mode(최빈값) → location parameter
4. Dispersion(산포)
- range (범위) : max-min
- variance(분산: 실제값-평균값) : 모분산은 n으로 표본분산은 n-1로 나눈다 → dispersion parameter
- standard deviation(표준편차)
- coefficient of variation(변동계수: 표준편차/평균): 두 집단 사이의 관계성을 나타내는 숫자
- Interquartile range(IQR: 사분위수 범위) : Q3-Q1(상위 25% - 하위 25%). Q2=median 중앙값. outlier 이상치 존재.
1.3. Probability(확률)
1. Classical Probability : 동일한 확률 m/N
ex) 주사위 4 나올 확률 = 1/6
2. Relative Frequency Probability : 어떤 과정을 많이 반복한 확률 Repeatability
ex) 동전 100번 던졌을 때 앞면 55번 . 앞면나올확률 = 55/100
3. ★확률 계산
- 부분확률 [ marginal probability ]
- 조건부확률 [ conditional probability ] = 𝑃(𝐵|𝐴) =𝑛(𝐴⋂𝐵) 𝑛(𝐴) =𝑃(𝐴⋂𝐵) 𝑃(𝐴) , if 𝑃(𝐴)≠0
- 결합 확률 [ joint probability ] = 𝑃(𝐴∩𝐸1) =n(𝐴∩𝐸1) n(S) = 9/100 =0.09
- 덧셈법칙 [ addition law ] : 𝑃(𝐴∪𝐵) = 𝑃(𝐴) + 𝑃(𝐵) −𝑃(𝐴∩𝐵)
- 곱셈법칙 [ multiplication rule (law) ] = 𝑃(𝐸1∩𝐴) =𝑃(𝐸1)𝑃(𝐴|𝐸1) =0.15∗0.6=0.09
- 독립사건 [ independent events ] = 𝑃(𝐴|𝐵) =𝑃(𝐴), 𝑃(𝐵|𝐴) =𝑃(𝐵), 𝑃(𝐴∩𝐵) =𝑃(𝐴)𝑃(𝐵) , 𝑃(𝐴) ≠0, 𝑃(𝐵) ≠0
→ 교집합이 없다고해서 독립인 것은 아니다.
4. 확률의 기본 속성
- 상호 배타적 (mutually exclusive) : 교집합이 공집합. 즉 두 사건이 동시에 발생할 수 없다.
- Axioms of probaiblity:
- 모든사건에 대한 확률은 0 이상이다.
- 모든 사건들의 합의 확률은 각 확률의 합과 같다.
- 전체사건이 발생할 (표본)확률은 1이다.
- ★ ★ ★ 베이즈 정리 : Screening Test에서 사용 → 알고 있는 정보를 이용해 사후 정보를 알아낸다!
- 민감도 (sensitivity) : 질병 O , 양성 / (질병 O 양성 + 음성) - 실제 양성이고 테스트도 양성
- 특이도 (specificity) : 질병 X, 음성 / (질병 X 양성 + 음성) - 실제 음성이고 테스트도 음성
- 양성예측값 (predictive value positive) : 양성, 질병 O / (양성 질병 O + X) - 테스트 양성인데 실제도 양성
→ PD(Prevalence of Disease, 병이 얼마나 퍼져있는가) 고려해야한다. 주어질조건
- 음성예측값 (predictive value negative) : 음성, 질병 X / (음성 질병 O + X) - 테스트 음성인데 실제도 음성
- 위양성 (false positive) : 질병 X, 양성 / (질병 X 양성 + 음성)
- 위음성 (false negative) : 질병 O , 음성 / (질병 O 양성 + 음성)
민감도 | 436/450 = 0.97 |
특이도 | 495/500 = 0.99 |
양성예측값 → 주의! | 436/441이 절대 아니다! PD 반드시 고려!! → 민감도 * PD / (민감도*PD + (1-특이도)*PD) 현재 이 실험은 비슷한 수의 yes와 no수를 가지고 있다. |
음성예측값 | 특이도 * (1-PD) / (특이도 * (1-PD) + (1-민감도) * PD) |
1.4. Probability distributions (확률분포)
1. 이산확률변수: 기댓값(평균 E(X)) , 분산(var(X)) = 제평-평제
2. 연속확률변수: 확률 밀도 함수의 ★조건
- f(x) ≥ 0 : 모든 x에 대해 확률 값 모두 양수
- ∫ 𝑓(𝑥) 𝑑𝑥 =1 : 확률값 모두 더하면 1
- ∫ 𝑓(𝑥) 𝑑𝑥 = P( a ≤ X ≤ b ) : 구간 내에서 확률 계산
3. ★ 평균과 분산의 성질
- 평균: E[aX+b]=aE[X]+b
- 분산: Var(aX+b)= a^2 Var(X)
4. 이항 분포 (Binomial Distribution)
: B(n,p) - n은 시도횟수, p는 성공확률
- 베르누이 시행에서 유도된 분포
- 베르누이 시행: 하나의 시행에서 성공 or 실패 둘 중 하나의 결과만 나오는 과정. (성공확률 p 일정, 각 시행 독립적)
- 이항 분포의 평균 : E(x) = np (성공할 확률)
- 이항 분포의 분산: Var(x) = np(1-p)
5. 정규 분포 (Normal Distribution)
= 가우시안 분포
- 평균 𝜇 , 분산 𝜎^2
6. 표준 정규 분포 (Standard Normal Distribution)
: 정규 분포에서 평균이 0이고 분산이 1인 경우
- Z = (x- 𝜇) / 𝜎 ∽ 𝑁(0,1) [ z=(자료값-평균)/(표준편차/루트 크기) ]
- ex) P(0.84≤Z≤2.45)
= P(Z≤2.45)−P(Z≤0.84)
= R 코드: pnorm(2.45, 0, 1) - pnorm(0.84, 0, 1)
1.5. ★표본 분포 (Sampling Distributions)
using sample statistics (표본 통계량) → infer(추론) → population, parameter (모집단, 모수) |
- 표본분포란 같은 모집단에서 같은 크기의 표본을 무작위로 여러 번 추출하여 계산한 통계량의 분포를 의미한다.
1. 표본 분포의 구성
- 유한 모집단 크기 N에서 표본 크기 n을 선택한다.
- 각 표본에서 통계량을 계산한다.
- 이 과정을 여러 번 반복하면 표본 통계량의 분포를 얻게 된다.
- 표본 분포 크면 표본 크기 크다.
2. 표본 평균의 분포
: 모집단의 평균을 추정하는 것으로... 표본평균이 정규분포가 된다.
즉, 표본평균을 이용해서 모평균을 추정하는 것이다!
- "표본(sample)"분산을 구할때는 N이 아니라 (N-1)로 나눈다!
- 표본 평균 xˉ의 분포는 "정규분포(Normal Distribution)"를 따른다.
- 표본 평균 xˉ의 평균 𝜇는 모집단의 평균 𝜇 과 같다
- 표본 평균 xˉ의 분산 𝜎^2은 모집단의 분산 𝜎^2을 표본의 크기인 n으로 나눈 것과 같다.
- 모집단이 정규분포를 따르는 경우, 표본 평균은 μ , 표본 분산은 σ^2/n Xˉn∼N(μ,σ^2/n)
3. ★중심극한정리 (Central Limit Theorem = CLT)
: 중심극한정리는 표본의 크기가 커질수록 표본평균의 분포가 정규분포에 가까워진다는 것을 설명한다.
- 충분히 큰 표본 크기를 가지고 표본 평균을 구하면, 그 표본평균의 분포는 평균이 μ, 분산이 σ^2/n인 정규 분포에 수렴한다.
- 표본 크기가 커질수록 표본 평균은 , 즉 표준 정규 분포로 가까워진다.
- 표본 비율의 분포 (Sample Proportion) : 표본 크기 충분히 크고, np>5일 경우 표본 비율의 분포는 정규분포에 근사.
4. 관련 예제
- 문제: 혈청 철(Serum Iron)의 평균이 130, 표준편차가 25인 경우, 표본 크기 50개의 표본 평균이 120에서 140 사이에 있을 확률을 구하시오.
- X∼N(130,25^2) = N(130,3.53552)
이처럼, 중심극한정리와 정규 분포의 성질을 이용하여 확률을 계산할 수 있다.
5. 추가용어정리
Standard Deviation(표준편차) vs Standard Error(표준오차)
SD: 루트 분산
SE: 표준편차/루트 표본크기n → 표본평균의 표준편차
1.6. 추정(Estimation)
1. 통계적 추론이란? (statistical inference)
: 표본에서 얻은 정보를 바탕으로 모집단에 대한 결론을 내리는 과정 → 불확실성
- 통계적 추론은 주로 ①추정(estimation) 과 ②가설검정(hypothesis) 으로 구성.
2. 추정(estimation)
① 점 추정(point estimation) : 모집단의 모수(population parameter)를 추정하기 위해 하나의 숫자 값을 사용하는 방법.
ex) 평균, 중간값, 분산
② 구간 추정(interval estimation) : 해당 범위 안에 모수가 있을 확률을 신뢰 수준(confidence level)으로 추정하는 방법
3. 불편 추정량
: 좋은 추정량은 불편성(unbiasedness)을 가진다.
- 추정량이 불편 추정량이라면, 그 추정량의 기댓값은 실제 모수와 같다.
- 표본평균은 모집단 평균의 불편추정량이다.
- 표본분산도 모집단 분산의 불편추정량이다. (n이 아니라 n-1로 나누어 구할경우만... 불편추정량!)
- 불편추정량을 얻는법: Randomization(무작위 선택)
4. 신뢰구간(confidence interval) = CI
: 모집단의 평균 (population mean)을 특정 신뢰 수준에서 포함할 확률이 있는 범위. → uncertainty of our estimation
- 표본을 정규분포에서 가져온다고 가정한다면 신뢰구간은 추정값 ± 신뢰계수 × 표준오차로 표현된다.
- 표본의 크기가 커질수록 신뢰구간은 줄어든다! good!
- 여기서 신뢰계수는 𝑧 또는 𝑡 값으로, 신뢰 수준에 따라 달라진다. 예를 들어, 95% 신뢰구간을 사용하면 𝑧 값은 약 1.96이다.
- α : 유의수준 significance level (ex.5) , 1- α: 신뢰수준 confidence level (ex.95)
- ★ ex. 연구자가 특정 효소의 양을 측정하고, n=10, 표본 평균= 22, 모집단 분산이 45라고 가정하면, 95%의 신뢰구간 CI는 무엇인가?? [ 신뢰구간 = 평균 +- 1.96 * 표준오차 ]
- ★ ex. 모집단은 정규분포를 따르고 모집단 분산은 144, 표본크기는 15, 표본평균은 84.3이다. 이때 CI 99%에 대한 신뢰구간을 구하여라.
5. 비정규분포에서 표본추출
: 모집단이 정규분포가 아니더라도, 표본크기 n이 충분히 크다면 (일반적으로 n>30) 중심극한정리(CLT)에 의해 표본 평균의 분포는 정규분포에 가까워 진다.
6. t-분포
: 표본의 크기 작고 모집단의 표준편차 모를 때 사용.
- 평균이 0이고 정규분포보다 분산의 tail 두껍다.
- 𝑡 = (𝑥̄ − 𝜇) / (𝑠/√𝑛) 해당 공식 이용.
- 자유도(df)가 커질수록 t분포는 정규분포에 가까워 진다.
- 신뢰구간: 모집단의 표준편차 모를경우 표본 표준편차를 이용. 이때 자유도는 n-1
6. t-분포와 z-분포의 선택
- z-분포는 모집단 표준편차(𝜎)가 알려져 있을 때 사용되고, t-분포는 모집단 표준편차를 모를 때 사용한다.
7. 두 모집단 평균의 차이에 대한 신뢰구간
- 모집단 분산이 알려진 경우, 두 모집단 평균의 차이를 구하는 신뢰구간은 다음과 같다.
- t분포 이용
- z분포 이용
8. 모집단 비율의 신뢰구간
- 모집단 비율 𝑝의 신뢰구간은 𝑝 ± 𝑧 × 표준 오차로 구할 수 있다.
예를 들어, 1,000명의 표본 중 20%가 인터넷으로 약 정보를 찾는다고 가정할 때, 모집단 비율의 95% 신뢰구간은 (0.175, 0.225)이다.
9. 두 모집단 비율의 차이에 대한 신뢰구간
- 두 모집단의 비율 차이에 대한 신뢰구간도 비슷하게 𝑝1 − 𝑝2 ± 𝑧 × 표준 오차로 구할 수 있다.
예를 들어, 남성 315명과 여성 73명 중 각각 45명과 21명이 자살을 생각했다고 보고했을 때, 99% 신뢰구간은 (-0.001, 0.2906)이다.
1.7. 가설검정 (Hypothesis Testing)
1. 가설 (Hypothesis)?
: 모집단에 대한 명제로, 모집단의 특정 파라미터에 대한 설명
- 연구가설(Research Hypothesis) : 연구를 시작하게 된 동기나 추측. you want to test(evaluate.claim.show.reveal)
- 통계적가설(Statistical Hypothesis) : 통계적 방법으로 평가할 수 있도록 서술된 가설. expressed by number values.
- 가설검정의 목적: 가설검정의 결과를 바탕으로 모집단의 파라미터에 대해 결정을 내릴 수 있다. 예를들어 치료가 효과적이다! (일반적으로 95%이상이면 맞다고 가정한다.)
2. 가설검정의 기본 절차
- 데이터 수집: 데이터를 통해 모집단의 특성을 이해한다.
- 가정 설정: 정규성, 분산의 동일성, 독립성 등의 가정이 필요하다.
- 가설 설정: 귀무가설(H0) - 두 집단 간에 차이가 없다는 가설, 연구자가 반박하고 싶은 가설 대립가설(Ha) - 연구자가 증명하고자 하는 가설.
H0: 𝜇 = 50, Ha: 𝜇 ≠ 50 - 의사결정: 귀무가설 기각 - 대립가설을 지지할 통계적 증거가 충분하다는 것을 의미. 귀무가설을 기각하지 않는다 - 귀무가설이 맞다는 것이 아니라, 귀무가설을 기각할 증거가 부족하다는 뜻.
3. ★ ★ ★ 오류와 검정력 (Error and Power)
- ★Type 1 Error : 정당한 귀무가설을 잘못 기각할 확률 - Pr(귀무가설이 참인데 기각할 확률) = 𝛼 (유의수준)
- Type 2 Error : 잘못된 귀무가설을 기각하지 못할 확률 - Pr(대립가설이 참인데 귀무가설을 기각하지 않을 확률) = 𝛽
- Power: 실제 차이가 있을 때 이를 검출할 수 있는 능력 = 1 - 𝛽
error를 줄이려면 sample(표본)을 늘리면 된다!
typer error < 0.05 (5%) 유의미한 결과이다.
power가 0.5보다 낮으면 모델링 할 필요가 없다. 의미가 없는 행동이다.
4. 검정 통계량 (Test Statistic)
: 표본 데이터로부터 계산된 통계량으로, 귀무가설을 기각할지 여부를 결정하는 기준이 된다.
- 검정통계량이 기각영역에 속하면 귀무가설을 기각하고, 그렇지 않으면 기각하지 않는다.
- 잘못된 기각: Type 1 Error
z ↑ ~ t ↑ ~ p-value↓ ~ CI(신뢰구간)↓
5. P-value
- ★p-value는 귀무가설이 참일 때, 관측된 결과보다 극단적인 값이 나올 확률을 의미한다.
- 일반적으로 p-value가 0.05 이하일 때 통계적으로 유의미하다고 판단한다.
- 만약 p-value가 0.05보다 작으면, 관측된 결과가 우연히 발생할 가능성이 매우 낮다는 의미이다. 이때 귀무가설을 기각하고 대립가설을 지지할 수 있다.
- 만약 p-value가 크면 귀무가설을 기각할 증거가 부족하다는 것을 나타내지만 이게 꼭 귀무가설이 참이라는 의미는 아니다.