통계적 가설 검정
by Mingdo
통계적 가설 검정을 통한 두 집단의 변화 비교
통계적 가설 검정이란 ?
통계적 가설 검정(statistical hypothesis test)은 통계적 추측의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미한다.
통계적 가설 검정 절차
- 귀무가설과 대립가설 설정
- 귀무가설 : 두 집단의 변화가 없다는 가설 (ex. A 집단과 B 집단의 평균키가 같다)
- 대립가설 : 귀무가설이 기각되면 채택되는 가설로 두 집단의 변화가 있다는 가설 (ex. A 집단과 B 집단의 평균키가 다르다)
- 유의수준의 결정
- p-value : 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률
- 유의수준을 5% 로 설정하면 p-value 는 0.05
- 검정통계량 산출
- 표본의 특성에 맞는 통계 분석법을 통해 검정통계량 산출 (ex. t-value, u-value, p-value)
- 통계적인 의사결정
- 산출한 검정통계량 값을 통해 귀무가설을 채택할지 기각할지 결정
- p-value 가 유의수준보다 같거나 높으면 귀무가설 채택 (대립가설 기각)
- p-value 가 유의수준보다 낮으면 귀무가설 기각 (대립가설 채택) - 결국 표본을 통한 추정이기 때문에 채택/기각 판단이 100% 맞다고 보장할 수 없음
독립 표본 T 검정(Students`s T Test)
독립 표본 T 검정이란 ?
두 집단 간의 평균을 비교하는 모수적 통계방법으로 표본이 정규성, 등분산성, 독립성 등을 만족할 경우 적용 가능한 통계 분석법이다.
T 분포란 ?
- 정규 분포의 평균을 측정할 때 사용하는 분포
- 모집단이 정규분포라는 정도만 알고, 모분산을 모를 때 표본분산으로 대체하여 모 평균을 구할 때 사용
- 적은 표본으로도 모집단 평균을 추정하려고 정규분포 대신 사용
- 표준정규분포에 비해 꼬리가 두꺼움
- 자유도가 증가할수록 표준정규분포에 가까워짐(중심극한정리)
t-value 산출
아래 공식을 통해 t-value 산출
p-value 산출
t 분포표를 통해 p-value 산출, 자유도와 t-value 에 해당하는 확률 값을 찾음
df = 자유도, a = 확률, cell 값 = t-value
python 을 통한 독립 표본 T 검정
from scipy import stats
import pandas as pd
data_a = pd.read_csv(a_path).iloc[0]
data_b = pd.read_csv(b_path).iloc[0]
t_result = stats.ttest_ind_from_stats(data_b['mean'], data_b['std'], data_b['size'], data_a['mean'], data_a['std'], data_a['size'], equal_var=False)
print(t_result)
t_result 를 출력하면 t-value 와 p-value 를 확인할 수 있다.
p-value 와 초기 설정한 유의수준의 비교를 통해 귀무가설의 채택/기각 여부를 결정할 수 있다.
또한 대립가설이 채택되었을 때 t-value 부호값을 통해 두개 그룹의 평균이 다른 경우 어떤 그룹의 값이 더 큰지 확인할 수 있다.
Subscribe via RSS