문제 및 데이터 개요
문제 개요
- 온라인 거래 고객 log 데이터를 이용하여 고객들의 미래 소비를 예측 분석
- 2009년 12월부터 2011년 11월까지 거래 데이터가 주어짐
- 목적: 주어지는 데이터를 이용하여, 5914명의 고객에 대한 2011년 12월 구매액 300 초과 여부를 각각 예측
- 평가 metric : AUC(Area Under Curve)
데이터 개요
- 주어지는 데이터 컬럼
- 주문번호, 상품번호, 상품설명, 주문 수량, 주문 일자, 상품 가격, 고객번호, 고객 거주 국가, 총 구매액(총 9개의 컬럼)
- 추가정보
- customer_id(고객번호): 5914명
- customer당 거래 로그의 수: 1개~12714개
기술적인 도전
본인의 점수 및 순위
검증 전략
- Cross Validation을 이용한 Out of Fold(OOF) 사용
- 사이킷런의 StratifiedKFold를 사용하여 validation 성능을 측정
- 랜덤시드 값을 고정하고, fold 수는 10개를 사용
- 각 폴드에 대한 validation 결과(AUC)의 평균을 최종 OOF AUC 값으로 사용
- 하루 제출 횟수가 5회로 한정되어 있으므로, OOF 점수가 높은 상위 5개의 결과를 제출함
- 실험 결과, 대체로 OOF AUC 점수와 리더보드 점수가 비례하였음