전체 글

수학/통계학

3. t-test - (4) / 양측검정, 단측검정

t-test를 이해하는 데 앞서, 정규분포, 표준정규분포, z-test 다음으로 이해해야하는 것이 양측검정, 단측검정이다.  앞선 키 예제를 그대로 사용함! 양측검정 vs 단측검정* D = 차이  / Da-b : A와 B의 차  대립가설에서 양측검정은 의미상 크거나 작다를 모두 포함한 경우이고, 단측검정은 둘 중 하나만을 채택한 경우이다.양측검정과 단측검정의 사용에 있어, 정해진 것이 없기 떄문에 연구자의 판단에 따라 사용하면 된다.( 보통 단측이 한가지 경우만을 대립가설로 가져가기 때문에, 연구자가 설립한 가설을 확신할 수 있을 떄 단측을 사용하는 경우가 많음) 앞선 포스팅에서 1.4cm란 키차이가 우연히 발생했을 확률은 얼마나 될까? 했을 때, 확률이 유의수준 0.05보다 작으면 우연이 아니라고 보고..

Tableau

맵 차트 만들기

위도와 경도를 토대로 맵 형태의 뷰를 작성할 수 있다.맵으로 표현하기 위해서는 위도와 경도가 필요한데, 우리나라의 경우 시도와 시군구명이 있으면이 필드들로 위도와 경도를 만들 수 있다. 맵 차트1. 시도 필드 옆 아이콘 > 마우스 오른쪽 > 지리적 역할 > 주/시/도1-1. 시군구 필드도 같은 방법으로 해서 시군구> 측정값에 위도와 경도가 생성된다.  2. 우측하단에 unkown 이란 정보가 떠서 눌러보면 Ambiguous 란 에러를 내는 것을 알 수 있다.     이는 시군구가 어느 시도에 포함되어 있는지 알 수 없으면 에러를 내는 것이다. ( 강서구 > 서울에도 있고, 부산에도 있음 / 고성군 > 경남에도 있고 강원에도 있음..) 3. 이러한 에러를 해결해주기 위해서는 계층을 만들어줘야하는데, 하위 ..

인공지능/NLP

2. 텍스트 전처리

텍스트 전처리텍스트 전처리란, 분석 하기 전 텍스트를 분석에 적합한 형태로 변환하는 작업이다.전처리 단계로는 토큰화, 형태소 분석, 품사 태깅, 원형 복원, 불용어 처리가 있다.전처리는 분석결과와 모델 성능에 직접 영향을 미치기 때문에 매우 중요하다  진리의 GIGO토큰화 (Tokenization)텍스트를 자연어 처리를 위해 분리하는 것이다.토근화는 문장별로 분리하는 문장 토큰화와, 단어별로 분리하는 단어 토큰화로 구분된다.한국어의 경우 토큰화와 형태소 분석 단계가 혼용되는데, 형태소 분석이 되어야만 토큰화가 가능하기 때문이다.     * 형태소 분석 : 뜻을 가진 가장 작은 단위인 형태소로 분리하는 것문장 토큰화문장을 기준으로 토큰화하는 것으로,온점, 느낌표, 물음표 등으로 너무 단순하게 분리할 경우에..

인공지능/Machine Learning

머신러닝 모델 학습 프로세스

머신러닝의 핵심 아이디어는 X와 Y의 관계를 찾는 것인데 주 관심은 Y, 즉 예측하려는 대상에 있다.Y를 설명하는 X변수는 보통 여러 개로, X변수들을 수많은 방식 조합하여 Y를 표현할 수 있기에 여러개의 X와 Y의 관계를 찾는 것이다.수학적으로 표현하면, Y = f (X1, X2, X3, ... , Xn) 이다.   * 머신러닝에서 함수는 모델이 됨X와 Y의 관계 찾기 이렇게 X, Y로 함수식을 찾아야하는데, 관계가 복잡해질 수록 함수식을 찾기 어렵기에 X값 앞에 무언가가 붙을 수도 있고, X값만으로 Y값을 찾지 못할 수도 있다.X값만으로 식을 표현하지 못할 때는 앱실론 ( ε) 을 통해 식을 표현할 수 있다. Y = ?X1 + ?X2 + ε 를 좀 더 포멀하게 표현하기 위해 Y = w1X1 + w2X..

Tableau

도넛차트 만들기

도넛 차트는 파이 차이와 동일하게 전체에서 각각의 값에 대한 비중을 살펴보는 차트지만, 파이 차트와는 달리 전체 합계를 표현할 수 있고, 요약 및 텍스트 또한 넣을 수 있기에 파이 차트보다 많이 활용된다 * 도넛 차트는 파이 차트 두 개를 합쳐서 만든다(이중축 사용) 도넛 차트1. 행 선반을 더블 클릭해서 의미 없는 숫자 0을 하나 삽입2.  마크를 파이차트로 변경3. 행 선반에 있는 0 필드를 컨트롤 키를 누른 상태에서 옆으로 옮겨 복제 4. 첫번째 합계 마크에 고객 세그먼트를 색상으로 지정4-1. 마크의 고객 세크먼트 필드 > 마우스 오른쪽 > 정렬 > 정렬기준 : 필드, 정렬 순서 : 내림차순, 필드명 : 매출5. 첫번쨰 합계 마크에 매출을 각도로 지정6. 첫번째 합계 마크의 크기를 키워줌 7. 열..

수학/통계학

3. t-test - (3) / 정규분포, 표준정규분포, z-test

t-test를 이해하는 데 앞서, 정규분포와 z-test를 먼저 이해하는 게 좋다.모집단의 경우에는 z-test를 하고 샘플의 경우에는 t-test를 하는 것이므로, 정규분포와 z-test에 대한 이해가 선행되면 t분포와 t-test에 대한 이해가 쉽기 때문! 정규분포  정규분포의 특징종모양을 갖는다평균 (정가운데)를 중심으로 좌우 대칭이다정규분포의 양 끝은 영원히 0에 닿지 않는다정규분포는 평균과 표준편차만으로 규정된다, 즉 평균과 표준편차가 다르다면, 서로 다른 정규분포가 무한대 존재하게 된다.정규분포의 아래 면적은 확률을 의미한다. 정규분포 곡선 아래의 모든 면적의 합은 1이다.이에 정규분포를 이용한 확률을 구하려면 적분을 해야하는데, 확률 구하려고 적분을 하나하나 하는건 비효율의 끝판왕이라고 할 ..

수학/통계학

3. t-test - (2)

t-test에 대한 이해t-test(1) 포스팅에서 두 대학 남학생들 평균키에 1.4cm란 차이가 발생했고,1.4cm가 우연히 발생했다면, 두 남학생 집단의 평균키는 같은 것이고1.4cm가 우연히 발생하지 않았다면, 즉 어떤 이유가 있다면 두 남학생 집단의 평균키는 다른 것이다. 라는 두 가지 상황에 대한 판단을 위해, 키 차이가 우연히 발생했을 확률이 얼마나 될까? 란 질문을 해야했다. 이에, 1.4cm란 차이가 우연히 발생할 수 있는 수치인지, 아닌지를 판단하기 위한 비교 대상이 필요하고, 이 비교 대상은 표준편차(분산)이 된다. 표준편차는, 데이터가 평균을 중심으로 "평균적으로 얼마만큼이 퍼져있는가"를 보여주는 것인데, 중요한 것은 이 퍼짐이 "의미 없이 우연히 퍼져있는 정도"라는 것이다.즉, 예를..

인공지능/Machine Learning

수치 예측 / 범주 예측 (분류)

변수는 원인이 되는 X변수(독립변수) , 결과가 되는 Y변수(종속변수) 로 나눌 수 있다. 예측은 수치 예측과 범주 예측으로 나눌 수 있는데, 수치 예측은 Y변수가 연속형이고, 범주 예측은 Y변수가 범주형이다.* 연속형 데이터 : 데이터 자체가 숫자로 표현됨 ex. 가격, 길이  범주형 데이터 : 원칙적으로 데이터를 숫자로 표현할 수 없음  ex. 제품불량여부 수치 예측 (Regression)결과가 수치인 값을 예측하는 것이다.수치예측 예로는 중고차 가격 예측 등이 있다. 범주 예측 (분류, Classification)결과가 어느 분류에 포함되는지를 예측하는 것이다.범주 예측 예로는 불량 예측, 고객 이탈 여부 예측, 스팸 여부 예 등이 있다.    출처김성범 [교수 / 산업경영공학부] # 핵심 머신러닝..

- MJ -
JUtudy