#Time-Series#Ensemble#Feature-Engineering

KDLC: 물류센터 수요 예측 경진대회

개요

피처 공학이 모델 선택을 이긴다 — 45개+ 피처로 실증. Lag·Rolling·sin/cos 주기성 인코딩, SARIMA+LSTM+LightGBM 3-Model 가중 앙상블, TimeSeriesSplit으로 Data Leakage 구조적 차단.

맥락

물류센터 유통 데이터 기반 상품 수요 예측 경진대회입니다. 세 가지 핵심 도전이 있었습니다. (1) 시계열 복잡성 — 주기성(주간·월간·연간)·추세·노이즈가 혼합된 다층 패턴. (2) Data Leakage — 무작위 K-Fold 적용 시 미래 데이터가 학습에 포함되는 치명적 오류. (3) 단일 모델 한계 — 계절성·장기 의존성·비선형 피처 중요도를 동시에 포착하는 모델 부재. 모델 선택 이전에 피처 설계와 검증 구조가 승패를 결정했습니다.

핵심 의사결정

피처 공학을 우선했습니다. Lag·Rolling·주기성 인코딩·도메인 지식 피처를 포함한 45개↑ 피처가 성능 향상의 핵심 동인이었습니다. TimeSeriesSplit으로 시간 순서 보존 교차검증을 적용해 Data Leakage를 구조적으로 차단하고, SARIMA(계절성) + LSTM(장기 의존성) + LightGBM(비선형 피처) 3-Model 앙상블로 각 모델의 강점을 상호 보완했습니다.

구현

45개+ 피처 공학 전략

Lag(1~7일), Rolling 통계(7·14·30일 평균·분산·최대), sin/cos 주기성 인코딩, 공휴일 바이너리, 프로모션 플래그를 설계했습니다. 도메인 지식 기반 피처가 성능 향상에 가장 크게 기여했으며, 피처 중요도 분석으로 불필요한 피처를 제거했습니다.

3-Model 앙상블 설계

SARIMA는 주간·월간 계절성 ARIMA 분해, LSTM은 30일 시퀀스 장기 의존성 학습, LightGBM은 45개+ 피처의 비선형 중요도를 포착합니다. 각 모델 검증 RMSE 역수를 가중치로 앙상블해 단일 모델 대비 예측 분산을 감소시켰습니다.

TimeSeriesSplit 교차검증

무작위 K-Fold를 금지하고 시간 순서 보존 분할(과거 Train → 미래 Val)로 미래 데이터가 학습에 포함되는 Data Leakage를 구조적으로 차단했습니다. 실제 운영 환경과 동일한 검증 조건을 확보해 과적합 탐지 신뢰도를 높였습니다.

sin/cos 주기성 & 가중 앙상블 최적화

요일·월을 sin/cos 변환으로 연속 순환 표현해 12월→1월 경계에서 불연속 없이 주기성을 보존했습니다. 각 모델의 TimeSeriesSplit 검증 RMSE 역수를 정규화해 가중치를 산출, 단순 평균 앙상블 대비 최종 RMSE를 추가 개선했습니다.

아키텍처

성과 & 회고

피처 공학이 모델 선택보다 예측 성능에 더 큰 영향을 준다는 것을 확인했습니다. TimeSeriesSplit 적용 후 검증 지표와 실제 예측 오차 간 괴리가 대폭 감소했고, 앙상블로 단일 모델 대비 RMSE를 개선했습니다. SARIMA 파라미터 그리드 서치 자동화, LSTM 하이퍼파라미터 최적화(Optuna), 외부 데이터(날씨·경제지표) 추가가 개선 과제입니다.

기술 스택

SARIMALSTMLightGBMTimeSeriesSplitpandasscikit-learnPyTorch