분류 전체보기

데이터 분석/분석 방법론

코호트 분석, 리텐션

코호트코호트란 특정 기간 동안 공통된 특성이나 경험을 갖는 사용자 집단을 의미한다.중요한 것은 특정 기간 "+" 공통된 특성/ 경험이라는 것이다. 예를 들자면 아래와 같다.A학교에 입학한 사람 → 오로지 공통된 특성/경험만 존재 → 코호트 아님2024년도에 A학교에 입학한 사람 → 특정한 기간동안 공통된 특성이나 경험을 갖음 → 코호트근데 그냥 생각해봐도 특정한 기간이 없으면 코호트로 뭔 분석을 할 수가 없을 듯 뭐 학교가 한 오만년 역사다 이런거 아니면 1920년도에 입학한 사람이랑 2024년도에 입학한 사람이랑 입학했다는 이유만으로 묶으면..?🙄  코호트는 보통 특정 기간에, 특정 행동을 한 사용자 집단의 행동 변화를 보기 위해 사용하기에 비즈니스에서는 코호트를 아주 다양하게 정의한다.특정 날짜에 ..

데이터 분석/분석 방법론

RFM 분석

RFMRFM에서 R은 최근성(Recency), F는 구매 빈도 (Frequency), M은 구매액(Monetary)를 뜻하고이 세가지 지표(얼마나 최근에, 얼마나 자주, 얼마나 많이 구매)는 고객을 분류하고 고객의 가치를 측정하는데 활용된다.  RFM분석은 여러 산업에서 많이 쓰이지만, 산업에 따라 세가지 지표의 중요 정도는 다르다Recency : 백화점, 대형할인마트 등의 산업에서 중요 (*보험 같은 산업은 반대로 R이 약할수록 좋다)Frequency : 이동통신 등의 산업에서 중요Monetary : 은행, 명품관 등의 산업에서 중요 cf.RFM을 구한다고 해서 꼭 R,F,M을 다 쓰지 않아도 된다.어느 곳에서는 F, M만을 활용해서 고객 등급을 분류한다던가 도메인에 맞게끔 RFM을 유연하게 사용하면 ..

SQL/문제

[프로그래머스] 재구매가 일어난 상품과 회원 리스트 구하기

문제 풀이SELECT USER_ID, PRODUCT_IDFROM ONLINE_SALEGROUP BY USER_ID, PRODUCT_IDHAVING COUNT(USER_ID) > 1ORDER BY USER_ID, PRODUCT_ID DESC 셀프 조인으로 푼 다른 코드도 있던데, 개인적으로 해당 문제는 having절을 사용하는게 가장 깔끔한 거 같다. 해당 문제는 group by를 하고 조건을 줘서 세어주는 거니까 메인 쿼리에서 해결이 가능하다.having절은 그룹화된 집계 결과에서 조건식을 적용할 때 사용하는데 having을 사용할 때는 대상이 무엇인지를 봐야한다. 이 문제에서 두개 이상이여야하는 게 뭘까? 바로, USER_ID 나 PRODUCT_ID 이다.따라서 having 절에 둘중 하나로 필터를 걸..

수학/통계학

1. 통계 기초 - (3) 통계적 가설과 오류

통계적 가설과 오류는 무엇인가?통계적 가설H0 (귀무가설)영어로 Null Hypothesis의 약자로, Null이 아무것도 없다는 뜻이기에 우리말로 귀무가설이라 한다.다시 말해, 아무 영향도 없고 아무 일도 없음을 가정하는 가설이다H1 (대립가설)영어로 Alternative Hypothesis의 약자로, 귀무가설을 대체하는 즉 대립하는 가설이라는 뜻이기에 우리말로 대립가설이라 한다. 다시 말해 귀무가설은 사건이 우연히 일어났다고 가정하는 가설이며, 대립가설은 사건이 뭔가 이유가 있어 일어났다고 가정하는 가설이다.즉, 귀무가설이 맞다면 그 사건은 우연히 일어났다고 추정하고 대립가설이 맞다면 사건에 뭔가 이유가 있다고 추정한다. 여기서 대립가설과 귀무가설을 선택하는 기준이 바로 'p-값 (p-value)' ..

수학/통계학

1. 통계 기초 - (2) p-value

p-value 해당 문장에서 p-value란 무엇이고, 0.05는 뭐며, 유의하다는건 무슨뜻일까? / p-value는 무엇인가p-값(p-value)에서 p는 probability를 뜻한다, 즉 p-값이란 probability value이며 결론적으로 p-값은 확률값이다.그렇다면 p-값은 '무엇에 대한' 확률값일까? 바로, 어떤 사건이 우연히 발생할 확률이다.  (cf. 1.통계기초 (1)) 정리하자면, p-값은 어떤 사건이 우연히 발생할 확률의 값이다. 따라서, p-value가 0.05보다 작는 것은 어떤 사건이 우연히 발생할 확룔이 5%로 보다 작다는 의미이다.그리고, 어떤 사건이 우연히 발생할 확률이 0.05보다 작다는 것은 이 사건이 우연히 일어났을 가능성이 거의 없다고 보는 것이다.p-value가..

수학/통계학

1. 통계 기초 - (1) 통계적 사고, 평균과 표준편차

통계적 사고"어떤 사건이 우연히 발생할 확룔이 얼마일까?" 통계적으로 생각하는 방법이란 어떤 사건 / 어떤 변화가 발생했을 때 이것이 우연히 발생했을 확률은 얼마나 될까? 라고 묻는 것이다. 우리가 평소에 하는 사고는, 변화의 원인을 결정론적으로 확신하는 결정론적 사고이다.예를 들어, '여자친구랑 헤어지고 나니 체중이 3kg 이나 늘었어' 처럼 체중 증가의 원인을 여자친구와의 헤어짐이라고 결정론적으로 확신하는 것이다. 하지만, 통계적 사고는 '여자친구랑 헤어지고 체중히 우연히 3kg 늘어날 가능성은 얼마일까?' 와 같이 체중 증가의 원인을 우연에서 찾는다. 여자친구와 헤어짐이 아닌 3kg 이 우연히 증가할 확률은 없는것인가? 라고 묻는 것이 통계적 사고이다.즉 통계적 사고란 어떤 사건이 우연히 발생할 확..

SQL/문제

[프로그래머스] 자동차 종류 별 특정 옵션이 포함된 자동차 수 구하기

문제 풀이SELECT CAR_TYPE, COUNT(CAR_TYPE) AS CARSFROM CAR_RENTAL_COMPANY_CARWHERE (OPTIONS LIKE '%통풍시트%') OR (OPTIONS LIKE '%열선시트%') OR (OPTIONS LIKE '%가죽시트%')GROUP BY CAR_TYPEORDER BY CAR_TYPE SELECT *을 찍어보면 아래와 같이 options 컬럼에 자동차 옵션이 쭉 써져있다.따라서, where(options like '%통풍시트%') or ( options like '%통풍시트%')  or ( options like '%통풍시트%') 로options 안에 통풍시트, 열선시트, 가죽시트가 포함되는 컬럼을 필터링 해줬다. * LIKE : '%a%..

SQL/문제

[프로그래머스] 중성화 여부 파악하기

문제 풀이SELECT ANIMAL_ID, NAME, CASE WHEN SEX_UPON_INTAKE LIKE 'Neutered%' THEN 'O' WHEN SEX_UPON_INTAKE LIKE 'Spayed%' THEN 'O' ELSE 'X' END AS '중성화'FROM ANIMAL_INSORDER BY ANIMAL_ID CASE WHENcase when 역시 if-else 처럼 조건을 지정해줄 때 사용해주는 구문이다. CASE WHEN 조건1 THEN 조건1의 결과값           WHEN 조건2 THEN 조건2의 결과값           ELSE 조건이 충족되지 않을 때의 결과값           END  * CASE WHEN 구문은..

- MJ -
'분류 전체보기' 카테고리의 글 목록 (7 Page)