수학/통계학

수학/통계학

3. t-test - (4) / 양측검정, 단측검정

t-test를 이해하는 데 앞서, 정규분포, 표준정규분포, z-test 다음으로 이해해야하는 것이 양측검정, 단측검정이다.  앞선 키 예제를 그대로 사용함! 양측검정 vs 단측검정* D = 차이  / Da-b : A와 B의 차  대립가설에서 양측검정은 의미상 크거나 작다를 모두 포함한 경우이고, 단측검정은 둘 중 하나만을 채택한 경우이다.양측검정과 단측검정의 사용에 있어, 정해진 것이 없기 떄문에 연구자의 판단에 따라 사용하면 된다.( 보통 단측이 한가지 경우만을 대립가설로 가져가기 때문에, 연구자가 설립한 가설을 확신할 수 있을 떄 단측을 사용하는 경우가 많음) 앞선 포스팅에서 1.4cm란 키차이가 우연히 발생했을 확률은 얼마나 될까? 했을 때, 확률이 유의수준 0.05보다 작으면 우연이 아니라고 보고..

수학/통계학

3. t-test - (3) / 정규분포, 표준정규분포, z-test

t-test를 이해하는 데 앞서, 정규분포와 z-test를 먼저 이해하는 게 좋다.모집단의 경우에는 z-test를 하고 샘플의 경우에는 t-test를 하는 것이므로, 정규분포와 z-test에 대한 이해가 선행되면 t분포와 t-test에 대한 이해가 쉽기 때문! 정규분포  정규분포의 특징종모양을 갖는다평균 (정가운데)를 중심으로 좌우 대칭이다정규분포의 양 끝은 영원히 0에 닿지 않는다정규분포는 평균과 표준편차만으로 규정된다, 즉 평균과 표준편차가 다르다면, 서로 다른 정규분포가 무한대 존재하게 된다.정규분포의 아래 면적은 확률을 의미한다. 정규분포 곡선 아래의 모든 면적의 합은 1이다.이에 정규분포를 이용한 확률을 구하려면 적분을 해야하는데, 확률 구하려고 적분을 하나하나 하는건 비효율의 끝판왕이라고 할 ..

수학/통계학

3. t-test - (2)

t-test에 대한 이해t-test(1) 포스팅에서 두 대학 남학생들 평균키에 1.4cm란 차이가 발생했고,1.4cm가 우연히 발생했다면, 두 남학생 집단의 평균키는 같은 것이고1.4cm가 우연히 발생하지 않았다면, 즉 어떤 이유가 있다면 두 남학생 집단의 평균키는 다른 것이다. 라는 두 가지 상황에 대한 판단을 위해, 키 차이가 우연히 발생했을 확률이 얼마나 될까? 란 질문을 해야했다. 이에, 1.4cm란 차이가 우연히 발생할 수 있는 수치인지, 아닌지를 판단하기 위한 비교 대상이 필요하고, 이 비교 대상은 표준편차(분산)이 된다. 표준편차는, 데이터가 평균을 중심으로 "평균적으로 얼마만큼이 퍼져있는가"를 보여주는 것인데, 중요한 것은 이 퍼짐이 "의미 없이 우연히 퍼져있는 정도"라는 것이다.즉, 예를..

수학/통계학

3. t-test -(1)

t-test란?t-test는 두개의 집단이 같은지 다른지 비교하기 위해 사용한다. 여기서의 집단은 샘플(표본)을 뜻한다.*집단에는 모집단과 샘플(표본)이 있는데, t-test에서 집단은 샘플이다. 그렇다면 어떻게 두개의 집단을 비교할까?예를 들어 1000명이 있다고 가정한다면, 1000명을 한명한명 비교하다가는 답도 없을 것이다.따라서, 두 집단의 대표값인 평균값을 사용해서, 평균값이 통계적으로 같은지 다른지를 확인하는 방식으로 두 집단을 비교한다 한 가지 예를 들어, A대학의 남학생들과 B대학의 남학생들의 키가 같은지 다른지 봐보고자 한다.A대학의 남학생 모두와 B대학의 남학생 모두의 키를 비교할 수 없으니, A대학 남학생의 샘플과 B대학 남학생의 샘플을 뽑아 비교해야한다. 샘플을 뽑아 비교하니 A대학..

수학/통계학

1. 통계 기초 - (4) 변수

변수변수란 변하는 숫자이다. 변수의 반대말은 상수, 변하지 않고 항상 그대로 있는 숫자이다. 변수에는 속성, 값, 관계등이 있다.예를 들어, 교육 정도라는 변수가 있다고 해보자. 교육 정도는 고객마다 다르기 때문에 변수가 된다.그리고, 그러한 교육 정도는 중졸 / 고졸 / 대졸 / 대졸 이상이라는 4가지 속성을 가질수 있다. 해당 4가지 속성은 숫자가 아니기 때문에 그대로 분석에 사용할 수 없으므로, 각 속성에 숫자 값을 부여해준다.이러한 숫자 값들 사이에는 관계가 있을 수도, 없을 수도 있다. 이러한 정보를 통해 변수의 종류를 나눌 수 있다.변수의 종류이산/범주형명목변수 : 속성간 순위가 없음, 속성에 할당된 값은 이름을 대신할 뿐이지 의미가 없다 ex. 성별 / 인종 / 혈액형 순위변수: 속성간 순위..

수학/통계학

1. 통계 기초 - (3) 통계적 가설과 오류

통계적 가설과 오류는 무엇인가?통계적 가설H0 (귀무가설)영어로 Null Hypothesis의 약자로, Null이 아무것도 없다는 뜻이기에 우리말로 귀무가설이라 한다.다시 말해, 아무 영향도 없고 아무 일도 없음을 가정하는 가설이다H1 (대립가설)영어로 Alternative Hypothesis의 약자로, 귀무가설을 대체하는 즉 대립하는 가설이라는 뜻이기에 우리말로 대립가설이라 한다. 다시 말해 귀무가설은 사건이 우연히 일어났다고 가정하는 가설이며, 대립가설은 사건이 뭔가 이유가 있어 일어났다고 가정하는 가설이다.즉, 귀무가설이 맞다면 그 사건은 우연히 일어났다고 추정하고 대립가설이 맞다면 사건에 뭔가 이유가 있다고 추정한다. 여기서 대립가설과 귀무가설을 선택하는 기준이 바로 'p-값 (p-value)' ..

수학/통계학

1. 통계 기초 - (2) p-value

p-value 해당 문장에서 p-value란 무엇이고, 0.05는 뭐며, 유의하다는건 무슨뜻일까? / p-value는 무엇인가p-값(p-value)에서 p는 probability를 뜻한다, 즉 p-값이란 probability value이며 결론적으로 p-값은 확률값이다.그렇다면 p-값은 '무엇에 대한' 확률값일까? 바로, 어떤 사건이 우연히 발생할 확률이다.  (cf. 1.통계기초 (1)) 정리하자면, p-값은 어떤 사건이 우연히 발생할 확률의 값이다. 따라서, p-value가 0.05보다 작는 것은 어떤 사건이 우연히 발생할 확룔이 5%로 보다 작다는 의미이다.그리고, 어떤 사건이 우연히 발생할 확률이 0.05보다 작다는 것은 이 사건이 우연히 일어났을 가능성이 거의 없다고 보는 것이다.p-value가..

수학/통계학

1. 통계 기초 - (1) 통계적 사고, 평균과 표준편차

통계적 사고"어떤 사건이 우연히 발생할 확룔이 얼마일까?" 통계적으로 생각하는 방법이란 어떤 사건 / 어떤 변화가 발생했을 때 이것이 우연히 발생했을 확률은 얼마나 될까? 라고 묻는 것이다. 우리가 평소에 하는 사고는, 변화의 원인을 결정론적으로 확신하는 결정론적 사고이다.예를 들어, '여자친구랑 헤어지고 나니 체중이 3kg 이나 늘었어' 처럼 체중 증가의 원인을 여자친구와의 헤어짐이라고 결정론적으로 확신하는 것이다. 하지만, 통계적 사고는 '여자친구랑 헤어지고 체중히 우연히 3kg 늘어날 가능성은 얼마일까?' 와 같이 체중 증가의 원인을 우연에서 찾는다. 여자친구와 헤어짐이 아닌 3kg 이 우연히 증가할 확률은 없는것인가? 라고 묻는 것이 통계적 사고이다.즉 통계적 사고란 어떤 사건이 우연히 발생할 확..

- MJ -
'수학/통계학' 카테고리의 글 목록