통계적 사고
"어떤 사건이 우연히 발생할 확룔이 얼마일까?"
통계적으로 생각하는 방법이란 어떤 사건 / 어떤 변화가 발생했을 때 이것이 우연히 발생했을 확률은 얼마나 될까? 라고 묻는 것이다.
우리가 평소에 하는 사고는, 변화의 원인을 결정론적으로 확신하는 결정론적 사고이다.
예를 들어, '여자친구랑 헤어지고 나니 체중이 3kg 이나 늘었어' 처럼 체중 증가의 원인을 여자친구와의 헤어짐이라고 결정론적으로 확신하는 것이다.
하지만, 통계적 사고는 '여자친구랑 헤어지고 체중히 우연히 3kg 늘어날 가능성은 얼마일까?' 와 같이 체중 증가의 원인을 우연에서 찾는다.
여자친구와 헤어짐이 아닌 3kg 이 우연히 증가할 확률은 없는것인가? 라고 묻는 것이 통계적 사고이다.
즉 통계적 사고란 어떤 사건이 우연히 발생할 확률을 묻는 것으로 시작하는 것이다.
통계 책 첫 페이지에 평균과 표준편차가 나오는 이유
결론적으로 통계의 본질은 분산의 마법이기 때문이다
자료를 설명하기 위해서는 자료의 대표적인 특징을 말해야한다. 여기서 대표적인 특징을 말해기 위해 사용되는 것이 대표값이다.
대표값에는 평균, 중앙값, 최빈값, 표준편차등이 있다. 그런데 왜 다른 대표값보다 평균과 표준편차가 중요하게 여겨질까?
우선, 평균과 표본분산(표준편차)은 다음과 같다
평균
- 자료의 중심값으로 자료의 특성을 대표하는 값
- 수학적 연산이 쉽다
- but, 모든 자료로 부터 영향을 받기에 이상한 값이 있을 때 영향을 심하게 받음 ( = 아웃라이어에 취약)
표본분산
- 내가 가진 자료 (데이터)가 평균값을 중심으로 퍼져 있는 평균적인 거리
분자는 관측치에서 평균을 빼서 제곱한 값이다. 제곱을 하는 이유는 관측치에서 평균을 그대로 빼주면, 자료가 평균으로 부터 얼마나 떨어져 있는지 봐야하는데
음수 / 양수 값이 혼합되어 있기 때문에 값이 아예 사라질 수도 있기 때문이다. 그렇기 때문에 관측치에서 평균값을 아예 제곱해줌으로 값이 뭉개지는 것을 막는다.
분모는 관측치에서 평균적으로 얼마나 떨어져있는지 보기 위해 자료의 값을 나눠주는 것이다.
결론적으로 분산은 내가 가진 자료의 데이터가 평균값을 중심으로 얼마나 퍼져있는지 (분자)를 평균 (분모) 으로 나타낸 것이다.
표준편차
표준편차는 분산에 루트를 씌워 다시 보정한 것이다. 분산이 임의적으로 제곱을 해서 만들어진 값이기 때문에 루트로 다시 보정을 해서 표준편차로 사용한다.
따라서 표준편차는 분산과 같은 의미이다.
왜 평균과 분산 (표준편차)가 중요한가?
그렇다면 왜 평균과 분산이 중요할까? 간단하게는 크게 3가지 이유가 있다
- 계산이 쉽다. 데이터가 많을 때, 최빈값이나 중앙값이라면 계산이 아닌 찾기를 수행해야하기 때문에 비효율적이다
- 체비체프에 의해 데이터의 불규칙성이 어떻든 [평균값 ± 2*표준편차] 범위 안에는 반드시 전체의 4분의 3 이상의 데이터가 존재함이 증명됐다
즉 평균과 표준편차 만으로도 어떠한 데이터든지 상당히 설명이 가능해진다는 것이다. - 가우스에 따르면, 데이터의 불규칙성이 정규분포를 따르고 있으면 최소제곱법이 가장 좋고, 그 결과 평균값이 가장 좋은 추정값이 되기 때문이다.
→ = 평균값이 가장 적은 제곱 오차를 가진다. (그냥 얘도 평균이 가장 효율적이란 소리)
평균과 분산이 통계의 기본이자 중심이며, 특히 분산은 통계를 배울때 매우매우 중요하다
끗!
출처
- Sapientia a Dei