Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ETL process - 데이터 수집 및 전처리 #9

Open
es3442 opened this issue Dec 5, 2023 · 1 comment
Open

ETL process - 데이터 수집 및 전처리 #9

es3442 opened this issue Dec 5, 2023 · 1 comment
Assignees

Comments

@es3442
Copy link
Contributor

es3442 commented Dec 5, 2023

서울시 생활물류 [202101-202309]

  • 서울 생활물류 (출발지) 서울 자치구 - (도착지) 전국시도
  • 서울 생활물류 (출발지) 서울 자치구 - (도착지) 서울 자치구
  • 서울 생활물류 (출발지) 전국시도 - (도착지) 서울 자치구

데이터 수집
서울 열린 데이터광장에서 데이터 수집

전처리

  1. 사용하지 않는 Column 삭제
  2. 파일명, Column명 영어로 수정
    용량변화 : 150MB → 146MB

우체국 전국 시도별 우편물류 데이터

  • 시도별 우편분류 접수 및 배달정보 : [2020.01-2023.10]

데이터 수집
우정사업본부-열린경영-통계.연차보고에서 수집(웹 스크래핑 이용)

전처리

  1. 부피 null인 row에 대해 drop
  2. (접수날짜, 출발지역, 도착지역, 카테고리별로) 중량 합계, 부피 합계, 총 배송건수로 전처리
  3. 파일명, Column명 영어로 수정
    용량변화 : 69.1GB → 377MB
@es3442 es3442 self-assigned this Dec 5, 2023
@es3442 es3442 converted this from a draft issue Dec 5, 2023
@es3442 es3442 changed the title ETL process - 데이터 수집 ETL process - 데이터 수집 및 전처리 Dec 5, 2023
@srlee056
Copy link
Member

srlee056 commented Dec 6, 2023

우체국 전국 행정동별 우편물류 데이터

  • 기간 : 2019.10 ~ 2020.09, 2020.10 ~ 2021.09, 2022.01 ~ 2022.12

  • 데이터 출처 : 한국 데이터 거래소 - 국내 우편물류 데이터

  • 데이터 수집

    • 웹 스크래핑을 활용하여 사이트에 로그인 후, url list를 순회하여 일별 데이터 파일을 받아옴
    • 2020년도 데이터 파일의 제목 전처리 필요

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
Status: Done
Development

No branches or pull requests

2 participants