t-test에 대한 이해
t-test(1) 포스팅에서 두 대학 남학생들 평균키에 1.4cm란 차이가 발생했고,
- 1.4cm가 우연히 발생했다면, 두 남학생 집단의 평균키는 같은 것이고
- 1.4cm가 우연히 발생하지 않았다면, 즉 어떤 이유가 있다면 두 남학생 집단의 평균키는 다른 것이다.
라는 두 가지 상황에 대한 판단을 위해, 키 차이가 우연히 발생했을 확률이 얼마나 될까? 란 질문을 해야했다.
이에, 1.4cm란 차이가 우연히 발생할 수 있는 수치인지, 아닌지를 판단하기 위한 비교 대상이 필요하고, 이 비교 대상은 표준편차(분산)이 된다.
표준편차는, 데이터가 평균을 중심으로 "평균적으로 얼마만큼이 퍼져있는가"를 보여주는 것인데,
중요한 것은 이 퍼짐이 "의미 없이 우연히 퍼져있는 정도"라는 것이다.
즉, 예를 들어 평균이 3이고 표준편차가 1.58일 때, 데이터는 평균값 3을 중심으로 랜덤하게 (=우연하게) 1.58씩 좌우로 퍼져 있는 것이다.
이에, 앞선 1.4cm의 차이도 결국 두 집단이 평균적인 거리이기에 표준편차와 비교할 수 있고 다음과 같은 결론이 나온다
* 두 집단의 수많은 데이터의 평균 차이가 1.4cm란 것은, 두 집단의 수많은 데이터들이 평균적으로 1.4씩 퍼져있다는 의미
* 여기서 표준편차란 두 집단 차이의 평균에 대한 표준 편차라고 이해하면 됨
- 1.4cm가 표준편차 xx cm보다 현저히 작다면, 1.4cm의 차이에는 큰 의미를 둘 수 없다
- 그러나, 1.4cm가 표준편차 xx cm보다 현저히 크다면, 1.4cm의 차이에는 큰 의미를 둘 수 있다.
즉, 차이가 표준편차 보다 현저히 작으면 차이가 '우연히 발생한 것'이 되고, 반대로 현저히 크다면 차이는 '우연히 발생하지 않은 것'이 된다.
그럼 투비컨디뉴..
출처
- Sapientia a Dei