Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ETL process #3

Open
3 of 5 tasks
srlee056 opened this issue Dec 4, 2023 · 0 comments
Open
3 of 5 tasks

ETL process #3

srlee056 opened this issue Dec 4, 2023 · 0 comments
Assignees

Comments

@srlee056
Copy link
Member

srlee056 commented Dec 4, 2023

[서울시 생활물류]

https://data.seoul.go.kr/dataList/OA-21866/S/1/datasetView.do

(2MB*30=60MB)

  • 서울 생활물류 (출발지) 서울 자치구 - (도착지) 전국시도 [202101-202309]

    DWC_KXLCLS_OD_DAY_SEOULGU_SIDO

    송하인 구명O

  • 서울 생활물류 (출발지) 서울 자치구 - (도착지) 서울 자치구 [202101-202309]

    DWC_KXLCLS_OD_DAY_SEOULGU_SEOULGU

    송하인 구명O, 수하인 구명O

  • 서울 생활물류 (출발지) 전국시도 - (도착지) 서울 자치구 [202101-202309]

    DWC_KXLCLS_OD_DAY_SIDO_SEOULGU

    수하인 구명O

  • 우체국 전국 시도별 우편물류 데이터

    • 2021 상/하반기 데이터 : https://www.data.go.kr/data/15090558/fileData.do

    • 시도별 우편분류 접수 및 배달정보 : [2020.01-2023.10]

      • 크롤링(O) + 전처리(세모)

      https://www.koreapost.go.kr/kpost/subIndex/4255.do?pSiteIdx=4254

      [2020.01-2021.09] 등기(창구+택배)로 존재

      [2021.10-2023.10] 방문, 등기로 존재

      ⇒아마 창구 등기가 방문으로 변하지 않았을까 생각

      • 1 (17개 시/도 별로 구분) 69.1GB →

        • 우정사업본부_등기소포 정보(접수일자, 접수지역, 배달지역, 내용품, 중량, 부피)
        • 우정사업본부 방문소포 정보(접수일자, 접수지역, 배달지역, 내용품, 중량, 부피)

        부피에 일부값은 null→dropna 수행

        • 나머지 데이터는 위의 데이터를 바탕으로 데이터 분석을 수행한것 같아서 전처리를 수행하지 않음
          • 우정사업본부 우편물류 정보

            배달지역별 등기소포물량

            배달지역별 상품유형별 등기소포물량

            배달지역별 특수통상물량(시도, 접수물량)

            접수지역별 유형별 등기소포물량

            접수지역별 종별 우편접수물량

          • 우정사업본부 일반통상 정보(접수일자, 접수지역, 접수통수)

          • 2(우정사업본부 특수통상 정보) (접수지역, 배달지역, 중량)

    • 송장 건 별 데이터이기 때문에 데이터 크기가 매우 커서 , s3 올리기 전에 분류별로 데이터 전처리하는 과정 필요

    • 시도 단위 주소까지 기록

    • 상품 분류 O

@srlee056 srlee056 converted this from a draft issue Dec 4, 2023
@srlee056 srlee056 moved this from Todo to In Progress in project TODO Dec 4, 2023
@es3442 es3442 removed this from project TODO Dec 5, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants