Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[FEAT] Data cleaning #116

Closed
10 tasks done
srlee056 opened this issue Feb 29, 2024 · 2 comments
Closed
10 tasks done

[FEAT] Data cleaning #116

srlee056 opened this issue Feb 29, 2024 · 2 comments

Comments

@srlee056
Copy link
Contributor

srlee056 commented Feb 29, 2024

Description

  • glue job script를 수정하여 parquet에 적재되는 데이터 형식을 체크하고 수정
  • datetime : "yyyy-MM-dd'T'HH:mm:ss'+09:00'" (or "yyyy-MM-dd'T'HH:mm:ss'+'zz:zz" maybe)
  • 빈 값을 0으로 두는건 이미 영호님이 구현하신 것 같음

script 수정

dag 재실행

버킷에서 parquet 파일 삭제 후 진행하기

  • glue_followers
  • glue_live_viewer
  • glue_game_ccu (ing)
  • glue_game_rating
  • glue_game_price
@mediwind
Copy link
Contributor

데이터 결측치를 말씀하시는 거라면
rating은 빈 값들이 0으로 오도록,
price는 지역락 등의 이슈로 더 이상 판매를 하지 않을 경우 있을 수 없는 가격인 999,999,999원으로 처리했습니다.
(사실 0원으로 할까 하다 무료 판매와 구분할 방법이 없어 999,999,999원으로 처리했습니다. 😂 )

ccu는 단 한번도 문제가 없었지만 결측치 발생시 ccu의 값이 0으로 오도록 추가해뒀습니다.

data_cleaning 하실 때 Date type말고는 수정하실 필요 없습니다❗

@poriz
Copy link
Contributor

poriz commented Mar 1, 2024

game code가 null인 값이 존재하는데 이부분에 대한 처리가 필요할 것 같습니다.
게임을 안하지만 방송을 하니까 talk와 다르지 않을 듯해서 talk으로 처리하면 좋을것같아 추가 코드 작성합니다.
chzzk_df = chzzk_df.withColumn("GAME_CODE", when(col("GAME_CODE").isNull(), lit("talk")).otherwise(col("GAME_CODE")))
논의가 필요할듯해서 수정은 후에 진행하겠습니다.

@poriz poriz closed this as completed Mar 8, 2024
@github-project-automation github-project-automation bot moved this from Backlog to Done in zhzzic_kanban Mar 8, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
Status: Done
Development

No branches or pull requests

3 participants