최근에 한 이커머스 데이터 분석!!
그동안 했던 것들은 못 쓰더라도 (털썩,,,) 앞으로 하는 것들은 써봐야지!!
* 데이터는 교육 받으면서 사측에서 제공 받았습니다
데이터 불러오기
일단, 데이터를 불러오기 전에 기본 라이브러리를 import 해줍시다
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib
import warnings
warnings.filterwarnings(action='ignore')
# 한글 깨짐 방지
plt.rc('font', family='NanumBarunGothic')
palette3 = sns.color_palette('mako', 10)
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf
코랩에서 데이터 시각화할 때, 한글이 다 깨진다 하면 한글 깨짐 방지 코드 부분을 써주면 된다
** 중요한게 해당 코드를 한번 실행하고 난 다음 >세션을 다시 시작< 하고 또 실행시켜줘야 함!!
데이터 사전을 봐보면 다음과 같이 데이터가 존재한다.
orders, users 데이터에서는 모든 컬럼을 다 가져갔고, items 데이터에서는 코드 정보 컬럼과, 변동 가격 정보 컬럼을 삭제해줬다.
- 대분류코드, 중분류코드, 소분류코드 같은 코드 정보는 대분류명, 중분류명, 소분류명 컬럼이 따로 있기에 분석시 불필요하다고 생각되어 삭제를 진행했음
- PriceYear, PriceMin, PriceMax 같은 변동 가격 정보 컬럼의 삭제에 대해 고민을 많이 했지만 분석시 필요 정보는 아니기에 삭제를 진행함.
해당 컬럼은 해당 아이템의 가격 변동은 어떤지 (ex. 3년치 토마토 물가 등) 가 보고 싶을 때는 따로 대시보드로 빼서 보기엔 좋을 거 같음 (물가가 변동한 시점에 어떤게 영향을 미쳤는지도 봐보면 굿굿일 듯).
이후 중복 확인 및 삭제와 3가지 데이터의 병합을 진행했고, 분석 편리성을 위해 열이름을 한국어로 바꿔줬읍니다...
최종 데이터 셋
데이터 특성 파악
데이터 특성 파악 그냥 넘어가지 말고 꼬옥 해야함 꼬옥하기
1. shape
2. info()
info는 참 좋다... 친절해..
일단 일자 정보들이 object로 들어가있는 거 하나 확인해두고, 기본 df 에서는 결측치가 없음을 확인
3.describe()
수치형 변수의 파악을 위해 describe()
4. nunique()
범주형 변수의 파악을 위해 nunique()
고객이 3000명임을 파악.
이커머스인데 고객 3000명이면 갓 태어난 회사이지 않을까 생각하며 분석 방향을 설정해봄
데이터 출처가 신생 회사임을 가정하고, 분석 방향을 세가지로 잡아보았다.
1. 판매 데이터 분석을 통해, 판매 증대 전략에 대해 고안
2. 고객 데이터 분석을 통해, 기존 고객 이탈 방지 및 신규 고객 유입 전략에 대해 고안
3. 연관 분석을 통해 상품 추천을 진행
이상 끝
다음은 전처리