ETL 프로세스를 통해 데이터웨어하우스에 데이터를 적재하고 대시보드 구성해 보는 프로젝트
물류 데이터를 활용하여 지역별 물류 생활 대시보드
를 생성하는 것을 목표로 합니다.
데이터 수집, 전처리, 클라우드 스토리지에 저장, 벌크 업데이트의 ELT 프로세스를 경험 하고,
데이터웨어하우스에 적재된 데이터를 이용하여 대시보드를 생성 합니다.
멀티 스레딩, 비동기를 활용하여 대용량의 파일을 효과적으로 수집할 수 있습니다.
Python, SQL 언어로 데이터를 전처리할 수 있습니다.
데이터 웨어하우스(Snowflake)를 활용하여 대용량 파일을 처리할 수 있습니다.
데이터를 분석하고 이를 시각적으로 표현하는 데이터 대시보드(Superset)를 만들 수 있습니다.
- API, 크롤링을 통한 데이터 수집 및 데이터 전처리
- 클라우드 스토리지에 데이터 저장 (Google Storage)
- Google storage에 저장된 파일을 데이터 웨어하우스에 적재 (Snowflake로 벌크 업데이트)
- 데이터 웨어하우스(Snowflake) 대시보드(Superset)에 연결
- 대시보드 생성 및 데이터 분석
- Python
- BeautifulSoup
- Pandas
- Google Storage
- Snowflake
- Superset(preset.io)
- GitHub Project
- Slack
- 이서림 : GCS 및 Snowflake 환경설정
- 김동연 : 수집 데이터 테이블 설계
- 이서림 :
우편 물류 데이터(구/동)
- 파일 일괄 다운로드 및 GCS에 업로드 - 정세욱 :
지역별 인구 수
- 데이터 형식 변환 - 최은서 :
서울시 생활 물류 데이터
- 스크립트 파일로 자동화(데이터 수집 및 전처리, 클라우드 스토리지 저장)
우편 물류 데이터(시/도)
- 데이터 수집 및 전처리