데이터
캐글에 2019년 11월 ~ 2020년 2월까지의 데이터가 올라와 있는데 데이터 양이 너무 많아서 2020년 2월 데이터만 사용했다.
데이터 확인
- user_id와 user_session이 있다. user_session은 해당 사이트에 접속하면 생기는 것이고, user_id는 사용자 고윳값이다.
(만약 심심해서 어떤 사이트에 접속했다 나갔다를 반복한다면 user_session은 접속할 때마다 생성되는 것임)
따라서, user_id가 하나여도 user_session은 여러개가 존재한다. - event_type에는 view, cart, remove the cart, purchase가 있음 > 즉, 구매까지 사용자 행동이 기록되는 것
- event_time은 event_type이 발생할 때의 시간!
데이터 전처리
1. 데이터 타입 변경
event_time이 날짜 타입이기 때문에 event_time을 문자형이 아닌 날짜형으로 변경해주었다.
2. 중복 처리
중복값이 매우 많아서 중복행 삭제를 진행해주었다.
3. 결측 처리
결측을 확인해보니, user_session에서 결측이 존재했다. (결측도 906개라 전체 데이터로 보면 적은 수)
user_session은 접속할 때마다 부여되는 값이어야하기 때문에, 해당열에서 결측이 발생한 행들은 삭제해줬다.
brand나 category_code도 결측이 존재하지만, 이것은 이름 지정을 안하거나 분류가 없었기에 존재하는 결측이라 유의미하지 않은 결측이라 판단함!
해당 데이터를 보고, 분석할 방향을 설정해보았다.
1. Active User (활성 고객수) 파악
2. Funnel 분석을 통해 구매까지의 전환율 파악
이상 끝
다음은 active user 파악!