분류 전체보기

인공지능/NLP

1. 개요 - (1) 자연어 처리란?

전통적인 프로그래밍 언어가 인간이 기계 언어로 컴퓨터를 이해시키는 것이었다면,자연어 처리는 기계가 인간의 언어를 이해하여 소통하는 것이다, 즉 인간의 언어로 명령을 내리면 기계가 자연어 처리를 통해 인간 언어를 이해하여 처리할 수 있다. * 전통적인 프로그래밍 언어* 자연어 처리 이러한 자연어 처리는 온라인 매체 발달에 따라 비정형 데이터 (ex. 텍스트 파일, 소셜 미디어 등) 가 급증한 것에 중요도가 높아졌으며정보 검색, 문서 자동 분류, 신문 기사 클러스터링 등 다양한 곳에서 응용 되고 있다.  하지만, 한국어 언어는 언어적 특성 때문에 자연어 처리에 있어 어려움이 따르는데, 크게 5가지 이유가 있다.1. 구어와 문어와의 차이2. 띄어쓰기3. 높임말4, 동음이의어지만 운율적 요소에 따른 의미 변화 ..

Tableau

라인차트 만들기

라인 차트는 시간별 추세, 즉 트랜드를 확인하는 경우에 유용하다.따라서, 시계열 데이터를 활용할 경우 라인 그래프가 우선적으로 나타난다. 불연속형/연속형 라인 차트시계열 (날짜) 데이터는 불연속형으로 표시하냐, 연속형으로 표시하냐에 따라 라인 차트에 차이가 있다.불연속형 라인 차트월(배송 일자)를 불연속형으로 가져오면 다음과 같이 12개의 월에 따라 월별로 분절된 그래프가 그려진다.예를 들어, 1월은 2016년 1월, 2017년 1월, 2018년 1월, 2019년 1월의 매출값들이 뭉쳐져 표현된다.연속형 라인 차트월(배송 일자)를 연속형으로 가져오면 다음과 같이 2016년 1월 부터 2019년 12월까지 값이 월별로 연속되어 그려진다.라인차트로 매출 추이 살피기1. 년/월에 대한 매출값을 볼 수 있는 라..

인공지능/Machine Learning

머신러닝 개요

머신러닝Machine LearningMachine learned / by computer languages / to perform the algorithm / created by human인간이 개발한 알고리즘을 컴퓨터 언어를 통해 기계 (컴퓨터) 에게 학습시키는 행위* 알고리즘 : 문제를 해결하기 위한 방법론들의 집합  ex. Gradient, Backpropagation* 컴퓨터 언어 : 인간과 컴퓨터가 소통하기 위한 수단 ex. C++, Python머신러닝 모델링함수가 X와 함수식을 주고 Y가 뭔지 묻는 거라면, 머신러닝은 X와 Y가 주어졌을 때 함수식을 찾는 것이다. 즉 함수식을 찾는 것이 머신러닝인데, X와 Y가 수만개 이상이 존재하면 그 사이에서 X, Y 사이 관계를 설명하는 함수식을 찾는 것..

SQL

9. Window Function

Window Functionwindow function은 전체 테이블이 아닌 분석하고 싶은 작은 테이블을 연산의 대상으로 삼는다 (어느 특정 컬럼 안에서 특정를 연산)* 전체 테이블에서도 사용 가능하지만, 보통의 경우 전체 테이블을 사용하고 싶으면 집계 함수를 바로 쓰는게 일반적윈도우 함수 지정 범위에게 윈도우 함수를 적용하겠다SELECT  WINDOW함수 (컬럼)  OVER  ( )                   윈도우 함수            ~에게                윈도우 함수 지정 범위* 부분은 생략 가능* OVER : 적용 대상을 정해줌행을 분할 : PARTITION BY            (Group By와 같은 역할)행을 정렬 : ORDER BY                 ..

Side Project

이커머스 데이터 분석) 5. RFM 고객 세분화

* 데이터는 교육 받으면서 사측에서 제공 받았습니다. RFM 고객 세분화 분석을 해봤다!분석 프로젝트를 하면서 느끼는건 개발이 코드와 싸움이라면 분석은 이렇게 기준을 잡아도 될까? 이게 적합한 비율일까? 등의 무한 고민어려웝🫠 이론 RFM 분석RFMRFM에서 R은 최근성(Recency), F는 구매 빈도 (Frequency), M은 구매액(Monetary)를 뜻하고이 세가지 지표(얼마나 최근에, 얼마나 자주, 얼마나 많이 구매)는 고객을 분류하고 고객의 가치를 측정하는데beigepepxi.tistory.com나의 블로그 재소환 그럼 분석으로 넘어가보겠습니다. RFM Recency현재로 부터 구매일자가 얼마나 지났나? 를 파악하기 위해, 고객별로 가장 최근 주문일자를 구해줬다.* 여기서 구한 최근 주문 ..

Side Project

이커머스 데이터 분석) 4. 리텐션 측정 by 코호트 분석

* 데이터는 교육 받으면서 사측에서 제공 받았습니다. 고객 데이터 분석 시작이번에 고객 데이터 분석하면서 다양한 데이터 분석 방법론을 적용해볼 수 있어서 좋았다. 이론 코호트 분석, 리텐션코호트코호트란 특정 기간 동안 공통된 특성이나 경험을 갖는 사용자 집단을 의미한다.중요한 것은 특정 기간 "+" 공통된 특성/ 경험이라는 것이다. 예를 들자면 아래와 같다.A학교에 입학한 사beigepepxi.tistory.com나의 블로그 *^^* 공부 열심히 했어여 그럼 분석으로 넘어가보겠다 코호트 분석, 리텐션 측정고객별로 가장 처음 주문한 날짜를 추출첫 주문 날짜와 주문 월을 그룹화해서, 해당 그룹에 해당되는 고객 수 구함reset_index를 통해 인덱스를 열로 다시 받아오고, 컬럼명을 재지정 해줌해당 코드를 ..

Side Project

이커머스 데이터 분석) 3. 판매 데이터(EDA)

* 데이터는 교육 받으면서 사측에서 제공 받았습니다.  판매 데이터는 EDA 위주로 봐보았다판매 데이터에 해당하는 컬럼은 다음과 같다대분류명, 중분류명, 소분류명, 상품명주문 년도, 주문 월, 주문 시각, 주문 요일배송 기간해당 컬럼들을 EDA하여 인사이트를 도출해보고자 한다 판매 데이터 분석 (EDA)매출 추이먼저 매출 추이를 봐야할 거 같아, 월별 매출 그래프를 그려봤다.해당 그래프를 보니, 2021년 기점으로 매출이 한번 크게 튀는 것이 확인된다. 그 다음으로는 2022년 1월에 큰 매출 상승이 확인된다.  관련해서 그래프를 그려보니, 2021년에 가공식품군이 추가되었으며, 2022년에는 가공식품군의 비율이 더 커졌음을 알 수 있었다. 이를 보았을 떄, 고객이 선호하는 상품군을 추가하는 것이 매출에..

Side Project

이커머스 데이터 분석) 2. 데이터 전처리

* 데이터는 교육 받으면서 사측에서 제공 받았습니다 데이터 전처리는 고민을,, 많이 해야하는 부분🧐  파생변수 생성1. 구매 개수 변수 생성df['개수'] = .transform('size')df.groupby(['고객ID', '주문/판매 ID', '주문일자', '상품코드', '배송일자', '가격'])['고객ID']고객이 같은 상품을 한번에 여러개 구매 하진 않았을까 해서 구매 개수 변수를 생성해보았지만, 모두 다 개수가 1개였다.2. 매출 변수 생성df['매출'] = df['개수'] * df['가격']개수가 다 1개임을 알아버려서 의미가 없긴 했지만..! 상품의 가격과 매출을 엄연히 다른 정보니까, 가격*개수 값이 가격과 같아도 매출이라도 따로 명명해줬다  주문일자에 대한 정보는 년-월-시각 다 따로..