Side Project

Side Project

eCommerce Events History) 3. Funnel 분석

데이터 eCommerce Events History in Cosmetics ShopThis dataset contains 20M users' events from eCommerce websitewww.kaggle.com 캐글에 2019년 11월 ~ 2020년 2월까지의 데이터가 올라와 있는데 데이터 양이 너무 많아서 2020년 2월 데이터만 사용했다.Funnel 분석데이터를 보면 user_session과 event_type, event_time이 존재하기에 Funnel 분석을 해보려고 함! 개념 참고 퍼널분석퍼널분석퍼널분석이란 유저들이 들어온 시점부터 설정한 목표를 달성할 때까지, 단계별 프로세스를 분석하는 방법이다.  퍼널분석은 이것처럼 깔때기 모양으로 시각화를 하는데, 퍼널(=Funnel)beigep..

Side Project

eCommerce Events History) 2. Active User

데이터 eCommerce Events History in Cosmetics ShopThis dataset contains 20M users' events from eCommerce websitewww.kaggle.com 캐글에 2019년 11월 ~ 2020년 2월까지의 데이터가 올라와 있는데 데이터 양이 너무 많아서 2020년 2월 데이터만 사용했다.Active User데이터를 보면 event_time과 user_id가 존재하기에 활성 고객 수를 구해봐야겠다고 생각했다. 1. 2020년 2월 데이터만 사용했기 때문에 Daily Active User, 즉 DAU를 구해 2월의 일간 활성 사용자 수를 구해보고자 했다.2. (분석에 사용하진 않았지만) 캐글에 2019 11월 ~ 2020년 2월까지 데이터가 존..

Side Project

eCommerce Events History) 1. 데이터 전처리

데이터 eCommerce Events History in Cosmetics ShopThis dataset contains 20M users' events from eCommerce websitewww.kaggle.com캐글에 2019년 11월 ~ 2020년 2월까지의 데이터가 올라와 있는데 데이터 양이 너무 많아서 2020년 2월 데이터만 사용했다.데이터 확인user_id와 user_session이 있다. user_session은 해당 사이트에 접속하면 생기는 것이고, user_id는 사용자 고윳값이다.      (만약 심심해서 어떤 사이트에 접속했다 나갔다를 반복한다면 user_session은 접속할 때마다 생성되는 것임)     따라서, user_id가 하나여도 user_session은 여러개가 존재..

Side Project

이커머스 데이터 분석) 5. RFM 고객 세분화

* 데이터는 교육 받으면서 사측에서 제공 받았습니다. RFM 고객 세분화 분석을 해봤다!분석 프로젝트를 하면서 느끼는건 개발이 코드와 싸움이라면 분석은 이렇게 기준을 잡아도 될까? 이게 적합한 비율일까? 등의 무한 고민어려웝🫠 이론 RFM 분석RFMRFM에서 R은 최근성(Recency), F는 구매 빈도 (Frequency), M은 구매액(Monetary)를 뜻하고이 세가지 지표(얼마나 최근에, 얼마나 자주, 얼마나 많이 구매)는 고객을 분류하고 고객의 가치를 측정하는데beigepepxi.tistory.com나의 블로그 재소환 그럼 분석으로 넘어가보겠습니다. RFM Recency현재로 부터 구매일자가 얼마나 지났나? 를 파악하기 위해, 고객별로 가장 최근 주문일자를 구해줬다.* 여기서 구한 최근 주문 ..

Side Project

이커머스 데이터 분석) 4. 리텐션 측정 by 코호트 분석

* 데이터는 교육 받으면서 사측에서 제공 받았습니다. 고객 데이터 분석 시작이번에 고객 데이터 분석하면서 다양한 데이터 분석 방법론을 적용해볼 수 있어서 좋았다. 이론 코호트 분석, 리텐션코호트코호트란 특정 기간 동안 공통된 특성이나 경험을 갖는 사용자 집단을 의미한다.중요한 것은 특정 기간 "+" 공통된 특성/ 경험이라는 것이다. 예를 들자면 아래와 같다.A학교에 입학한 사beigepepxi.tistory.com나의 블로그 *^^* 공부 열심히 했어여 그럼 분석으로 넘어가보겠다 코호트 분석, 리텐션 측정고객별로 가장 처음 주문한 날짜를 추출첫 주문 날짜와 주문 월을 그룹화해서, 해당 그룹에 해당되는 고객 수 구함reset_index를 통해 인덱스를 열로 다시 받아오고, 컬럼명을 재지정 해줌해당 코드를 ..

Side Project

이커머스 데이터 분석) 3. 판매 데이터(EDA)

* 데이터는 교육 받으면서 사측에서 제공 받았습니다.  판매 데이터는 EDA 위주로 봐보았다판매 데이터에 해당하는 컬럼은 다음과 같다대분류명, 중분류명, 소분류명, 상품명주문 년도, 주문 월, 주문 시각, 주문 요일배송 기간해당 컬럼들을 EDA하여 인사이트를 도출해보고자 한다 판매 데이터 분석 (EDA)매출 추이먼저 매출 추이를 봐야할 거 같아, 월별 매출 그래프를 그려봤다.해당 그래프를 보니, 2021년 기점으로 매출이 한번 크게 튀는 것이 확인된다. 그 다음으로는 2022년 1월에 큰 매출 상승이 확인된다.  관련해서 그래프를 그려보니, 2021년에 가공식품군이 추가되었으며, 2022년에는 가공식품군의 비율이 더 커졌음을 알 수 있었다. 이를 보았을 떄, 고객이 선호하는 상품군을 추가하는 것이 매출에..

Side Project

이커머스 데이터 분석) 2. 데이터 전처리

* 데이터는 교육 받으면서 사측에서 제공 받았습니다 데이터 전처리는 고민을,, 많이 해야하는 부분🧐  파생변수 생성1. 구매 개수 변수 생성df['개수'] = .transform('size')df.groupby(['고객ID', '주문/판매 ID', '주문일자', '상품코드', '배송일자', '가격'])['고객ID']고객이 같은 상품을 한번에 여러개 구매 하진 않았을까 해서 구매 개수 변수를 생성해보았지만, 모두 다 개수가 1개였다.2. 매출 변수 생성df['매출'] = df['개수'] * df['가격']개수가 다 1개임을 알아버려서 의미가 없긴 했지만..! 상품의 가격과 매출을 엄연히 다른 정보니까, 가격*개수 값이 가격과 같아도 매출이라도 따로 명명해줬다  주문일자에 대한 정보는 년-월-시각 다 따로..

Side Project

이커머스 데이터 분석) 1. 데이터

최근에 한 이커머스 데이터 분석!!그동안 했던 것들은 못 쓰더라도 (털썩,,,) 앞으로 하는 것들은 써봐야지!! * 데이터는 교육 받으면서 사측에서 제공 받았습니다데이터 불러오기일단, 데이터를 불러오기 전에 기본 라이브러리를 import 해줍시다import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltimport matplotlibimport warningswarnings.filterwarnings(action='ignore')# 한글 깨짐 방지plt.rc('font', family='NanumBarunGothic')palette3 = sns.color_palette('mako', 10)!sudo apt..

- MJ -
'Side Project' 카테고리의 글 목록