전체 글

Tableau

파이차트 만들기

파이 차트는 전체에 대해 각각 얼마정도의 비중을 차지 하는지를 살펴보는 차트이다.다만, 파이 차트는 전체 총합에 대한 값을 보여주기 힘들고, 추가적인 메세지를 주는데 한계가 있어 파이 차트보다는 도넛차트가 더 선호된다. 표현 방식우측 상단에 표현 방식을 누르면 조건( ex.차원값과 측정값의 개수) 에 따라 나타낼 수 있는 차트가 보여진다.필드들을 눌렀을 때, 표현 방식 중 노란색 테두리가 생기는 표현 방식이 있는데, 그것이 태블로가 봤을 때 필드들을 가장 적합하게 표현할 수 있다고 생각한 방식이다. 파이 차트파이차트는 1개 이상의 차원과, 1개 또는 2개의 측정값이 필요하다. 1. 고객 세트먼트(차원)과 매출 (측정값)을 선택그럼 보다시피, 차원 1개와 측정값 1개로 표현할 수 있는 그래프는 표현방식에서..

인공지능/NLP

1. 개요 - (2) 통계기반 자연어 처리 과정

데이터 수집 단계분석 대상 관련 자료 수집openAPI, 웹크롤링 등으로 수행텍스트 전처리 단계 가장 중요한 단계분석 가능한 형태로 자료를 변환 (기계가 텍스트를 이해할 수 있도록 표준화해줌)텍스트 분석 단계시각화 단계워드클라우드, 파이차트 등

수학/통계학

3. t-test -(1)

t-test란?t-test는 두개의 집단이 같은지 다른지 비교하기 위해 사용한다. 여기서의 집단은 샘플(표본)을 뜻한다.*집단에는 모집단과 샘플(표본)이 있는데, t-test에서 집단은 샘플이다. 그렇다면 어떻게 두개의 집단을 비교할까?예를 들어 1000명이 있다고 가정한다면, 1000명을 한명한명 비교하다가는 답도 없을 것이다.따라서, 두 집단의 대표값인 평균값을 사용해서, 평균값이 통계적으로 같은지 다른지를 확인하는 방식으로 두 집단을 비교한다 한 가지 예를 들어, A대학의 남학생들과 B대학의 남학생들의 키가 같은지 다른지 봐보고자 한다.A대학의 남학생 모두와 B대학의 남학생 모두의 키를 비교할 수 없으니, A대학 남학생의 샘플과 B대학 남학생의 샘플을 뽑아 비교해야한다. 샘플을 뽑아 비교하니 A대학..

인공지능/NLP

1. 개요 - (1) 자연어 처리란?

전통적인 프로그래밍 언어가 인간이 기계 언어로 컴퓨터를 이해시키는 것이었다면,자연어 처리는 기계가 인간의 언어를 이해하여 소통하는 것이다, 즉 인간의 언어로 명령을 내리면 기계가 자연어 처리를 통해 인간 언어를 이해하여 처리할 수 있다. * 전통적인 프로그래밍 언어* 자연어 처리 이러한 자연어 처리는 온라인 매체 발달에 따라 비정형 데이터 (ex. 텍스트 파일, 소셜 미디어 등) 가 급증한 것에 중요도가 높아졌으며정보 검색, 문서 자동 분류, 신문 기사 클러스터링 등 다양한 곳에서 응용 되고 있다.  하지만, 한국어 언어는 언어적 특성 때문에 자연어 처리에 있어 어려움이 따르는데, 크게 5가지 이유가 있다.1. 구어와 문어와의 차이2. 띄어쓰기3. 높임말4, 동음이의어지만 운율적 요소에 따른 의미 변화 ..

Tableau

라인차트 만들기

라인 차트는 시간별 추세, 즉 트랜드를 확인하는 경우에 유용하다.따라서, 시계열 데이터를 활용할 경우 라인 그래프가 우선적으로 나타난다. 불연속형/연속형 라인 차트시계열 (날짜) 데이터는 불연속형으로 표시하냐, 연속형으로 표시하냐에 따라 라인 차트에 차이가 있다.불연속형 라인 차트월(배송 일자)를 불연속형으로 가져오면 다음과 같이 12개의 월에 따라 월별로 분절된 그래프가 그려진다.예를 들어, 1월은 2016년 1월, 2017년 1월, 2018년 1월, 2019년 1월의 매출값들이 뭉쳐져 표현된다.연속형 라인 차트월(배송 일자)를 연속형으로 가져오면 다음과 같이 2016년 1월 부터 2019년 12월까지 값이 월별로 연속되어 그려진다.라인차트로 매출 추이 살피기1. 년/월에 대한 매출값을 볼 수 있는 라..

인공지능/Machine Learning

머신러닝 개요

머신러닝Machine LearningMachine learned / by computer languages / to perform the algorithm / created by human인간이 개발한 알고리즘을 컴퓨터 언어를 통해 기계 (컴퓨터) 에게 학습시키는 행위* 알고리즘 : 문제를 해결하기 위한 방법론들의 집합  ex. Gradient, Backpropagation* 컴퓨터 언어 : 인간과 컴퓨터가 소통하기 위한 수단 ex. C++, Python머신러닝 모델링함수가 X와 함수식을 주고 Y가 뭔지 묻는 거라면, 머신러닝은 X와 Y가 주어졌을 때 함수식을 찾는 것이다. 즉 함수식을 찾는 것이 머신러닝인데, X와 Y가 수만개 이상이 존재하면 그 사이에서 X, Y 사이 관계를 설명하는 함수식을 찾는 것..

수학/통계학

1. 통계 기초 - (4) 변수

변수변수란 변하는 숫자이다. 변수의 반대말은 상수, 변하지 않고 항상 그대로 있는 숫자이다. 변수에는 속성, 값, 관계등이 있다.예를 들어, 교육 정도라는 변수가 있다고 해보자. 교육 정도는 고객마다 다르기 때문에 변수가 된다.그리고, 그러한 교육 정도는 중졸 / 고졸 / 대졸 / 대졸 이상이라는 4가지 속성을 가질수 있다. 해당 4가지 속성은 숫자가 아니기 때문에 그대로 분석에 사용할 수 없으므로, 각 속성에 숫자 값을 부여해준다.이러한 숫자 값들 사이에는 관계가 있을 수도, 없을 수도 있다. 이러한 정보를 통해 변수의 종류를 나눌 수 있다.변수의 종류이산/범주형명목변수 : 속성간 순위가 없음, 속성에 할당된 값은 이름을 대신할 뿐이지 의미가 없다 ex. 성별 / 인종 / 혈액형 순위변수: 속성간 순위..

SQL

9. Window Function

Window Functionwindow function은 전체 테이블이 아닌 분석하고 싶은 작은 테이블을 연산의 대상으로 삼는다 (어느 특정 컬럼 안에서 특정를 연산)* 전체 테이블에서도 사용 가능하지만, 보통의 경우 전체 테이블을 사용하고 싶으면 집계 함수를 바로 쓰는게 일반적윈도우 함수 지정 범위에게 윈도우 함수를 적용하겠다SELECT  WINDOW함수 (컬럼)  OVER  ( )                   윈도우 함수            ~에게                윈도우 함수 지정 범위* 부분은 생략 가능* OVER : 적용 대상을 정해줌행을 분할 : PARTITION BY            (Group By와 같은 역할)행을 정렬 : ORDER BY                 ..

- MJ -
JUtudy