Skip to content

2021 기상청 날씨 빅데이터 콘테스트 최우수상・특별상 수상작

Notifications You must be signed in to change notification settings

hrlee113/Weather-BigData-Contest

Repository files navigation

2021 기상청 날씨 빅데이터 콘테스트

민간협력형 : 날씨에 따른 소비패턴 분석 ⛅️

  • 온라인 판매 데이터로 날씨에 따른 소비패턴을 분석하고 예측하여, 날씨와 아이템 특성을 반영한 상품을 추천합니다.
  • 보고서 를 통해 분석 과정에 대해 확인하실 수 있으며, Dashboard 를 통해 날씨 빅데이터 마케팅 플랫폼을 경험하실 수 있습니다.

1. Goal

  • 날씨에 민감한 상품군 분석
  • 소비패턴 트렌드 분석
  • 날씨에 따른 수요 예측
  • 결과 활용 방안 제시

2. Data

주어진 내부 데이터는 2018.01 ~ 2019.12 2년 동안의 온라인 구매이력소셜 데이터 입니다.
2년간의 날씨 데이터, 외부 이슈 데이터, 지역 데이터를 추가로 수집해 분석하였습니다.


3. PROCESS

분석은 다음 순서로 진행되며, 분석 과정을 클릭하시면 자세한 설명을 참고하실 수 있습니다.

1. 상품 필터링 & 분류 : 상관관계 분석 & 단위근 검정

  • Spearman Correlation 기준으로, 날씨와 상관관계 높은 상품을 선택합니다.
  • 날씨와 상관관계가 높은 상품에 대하여, 2년간의 일별 판매량 추이에 대해 ADF Test 를 통해
    정상 (일별 판매량 변동성이 크지 않고, 계절성이 크지 않은 상품),
    비정상 (일별 판매량 변동성이 크고, 계절에 따른 판매량 차이가 큰 상품) 시계열 상품군으로 구분합니다.

2. 날씨와의 인과관계 검정 : Granger Causality Test

  • 날씨가 상품 판매량에 영향을 미치는, 날씨변수와 인과관계가 있는 상품군을 선택하기 위한 과정입니다.
  • 날씨・상품 판매량이 모두 정상 시계열인 경우 VAR & Granger 인과관계 검정을 수행하며,
    날씨・상품 판매량 중 하나라도 비정상 시계열인 경우 VECM & Granger 인과관계 검정을 수행합니다.

3. 상품 판매량 예측 : LSTM / Time Series Clustering + Machine Learning

  • 정상 시계열 상품의 경우, 인과관계가 있는 날씨 변수를 선택하여 LSTM 을 통해 예측합니다.
  • 비정상 시계열 상품의 경우, Time Series Clustering을 통해 비슷한 추세를 가진 상품군끼리 묶은 후,
    각 군집별로 Machine Learning 모델을 통해 상품 판매량 추세를 예측합니다.
  • 날씨의 영향력을 파악하기 위해, 날씨 변수 별로 시간에 따른 SHAP 을 시각화하여 결과를 해석했습니다.

4. 날씨 기반 추천시스템 : Recommender System

  • Item-based CF 기반으로, 해당 상품의 특성을 반영하여 다른 상품을 추천합니다.
  • 고객 타겟층을 설정하고, 날씨(강수 여부/미세먼지)를 설정해 유사도 기반으로 상품을 추천합니다.

5. Dashboard : 온라인 소비패턴 분석 서비스

  • 고객 맞춤형 전략을 위한 날씨 빅데이터 마켓팅 플랫폼 Dashboard 입니다.
  • 1 상품의 특성 (날씨와의 인과관계 여부), 2 날씨와의 관계, 3 상품 분석 (성・연령별 구매건수 추이),
    4 SNS 언급량 (상품 판매량에 유의한 lag + 언급량 추세), 5 추천시스템 으로 구성되어 있습니다.
  • 대회 규정에 따라 Dashboard 링크는 제공하지 않습니다.


4. Members : Team 빠른이들


Bomin Kim

Jaebeen Lee

Hyerin Lee

5. File Directory

📂 빠른이들
├── 1-Data-Preprocessing.ipynb  
├── 2-Correlation.ipynb  
├── 3-Granger-Causality-Test.ipynb 
├── 4-LSTM.ipynb 
├── 5-TSClustering_ML.ipynb
├── 6-Recommender-System.ipynb
│
├── dataload.py
├── HIVEdataload.R 		        # SQL : 날씨마루 데이터 불러오기 
│
├── 📂 기상청데이터
├── 📂 내부데이터  		 
│   ├── buy2018_1.csv 
│   ├── ...
│   └── sns2019_2.csv  		   
│
├── 📂 외부데이터      
│   ├── trendsearch.csv  		# 네이버 검색어 트렌드 
│   ├── trend_with_weather.csv  	# 네이버 날씨 정보 검색어 트렌드 
│   ├── 시도별_주민등록_인구현황.csv  	# 통계청 시도별 총인구수  
│   ├── 소비자심리지수_seoul_past.csv  	# 통계청 서울 소비자심리지수  
│   ├── 소비자심리지수_other_past.csv  	# 통계청 지역별 소비자심리지수  
│   │
│   ├── 📂 2018  		        # 2018 에어코리아 미세먼지 데이터  
│   │    ├── 2018년 1분기.xlsx
│   │    └── ...  
│   └── 📂 2019  		        # 2019 에어코리아 미세먼지 데이터  
│        ├── 2018년 1월.xlsx
│        └── ...    
│
├── 📂 최종데이터  		          # 분석 과정 중 생성된 데이터 
└── 📂 최종결과     
    ├── LSTM_result.csv  		  # 정상시계열 상품군 예측 결과 
    └── nonst_high_for_dashboard_0622.csv # 비정상시계열 상품군 예측 결과  
 

About

2021 기상청 날씨 빅데이터 콘테스트 최우수상・특별상 수상작

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published