통계적 가설과 오류는 무엇인가?
통계적 가설
- H0 (귀무가설)
영어로 Null Hypothesis의 약자로, Null이 아무것도 없다는 뜻이기에 우리말로 귀무가설이라 한다.
다시 말해, 아무 영향도 없고 아무 일도 없음을 가정하는 가설이다
- H1 (대립가설)
영어로 Alternative Hypothesis의 약자로, 귀무가설을 대체하는 즉 대립하는 가설이라는 뜻이기에 우리말로 대립가설이라 한다.
다시 말해 귀무가설은 사건이 우연히 일어났다고 가정하는 가설이며, 대립가설은 사건이 뭔가 이유가 있어 일어났다고 가정하는 가설이다.
즉, 귀무가설이 맞다면 그 사건은 우연히 일어났다고 추정하고 대립가설이 맞다면 사건에 뭔가 이유가 있다고 추정한다.
여기서 대립가설과 귀무가설을 선택하는 기준이 바로 'p-값 (p-value)' 이다
만약, p-값이 0.05보다 작다면 대립가설을 선택하면 되고, p-값이 0.05보다 크다면 귀무가설을 선택하면 된다.
통계적 가설과 검정
귀무가설과 대립가설을 선택하는 것에는 2종류의 오류가 발생할 수 있다. 바로 1종 오류와 2종 오류다.
- 1종 오류
실제로는 참인데 판단이 거짓이라고 나오는 경우이다.
1종 오류를 판단하는 기준이 5%이고 이 5%가 p-값의 기준이 된 것이다.
- 2종 오류
실제로는 거짓인데 판단이 진실이라고 나오는 경우이다.
저 1종 오류 어쩌구 표보는거 보다 이짤이 기억에 확실함ㅋㅋㅋ
통계적 가설 설정에 예를 들자면 다음과 같다.
어떤 회사에서 신규 판매 전략을 썼고, 이번달 매출이 저번달 매출보다 100만원 많이 나왔다고 해보자.
이에, 귀무가설이 맞다면 '이번달 매출이 100만원 더 많이 나온 것은 우연이다' 라는 의미가 되고 대립가설이 맞다면 '신규 판매 전략이 효과가 있었다'는 의미가 된다.
어떤 가설이 맞는지 보기 위해 p-값을 계산한다.
(p-값이 0.05보다 작으면 대립가설을 선택하고 p-값이 0.05보다 크면 귀무가설을 선택)
결과적으로, 우연히 100만원이 나왔을 확률이 5%보다 작으면 대립가설을 선택하게 되고, 신규 판매 전략이 효과가 있다고 추정할 수 있는 것이다.
(반대로 5%보다 크면 귀무가설을 선택하고, 100만원은 우연히 더 많이 발생한 것이라고 추정)
하지만, 이렇게 해서 신규 판매 전략이 효과가 있었다고 추정했는데 실제로는 신규 판매 전략이 아무 효과가 없었던 것일 수도 있다.
이 경우에 바로 1종 오류가 발생한 것이다. (만약 실제로 그렇다면, 신규 판매 전략에 사용했던 자원들이 결국에 다 낭비되는 셈임)
결론적으로
- p-값의 확률값은 1종 오류의 수준을 5%로 제약한다는 의미이다
- 다르게 말하면, 어떤 사건이 우연히 발생했음에도 우연히 발생하지 않았다고 결론 내릴 오류를 5% 이내로 하겠다는 뜻이다.
출처
- Sapientia a Dei