Merge pull request #96 from zizzic/feature/glue

poriz · web-flow · commit 5a8741f7c9b8 · 2024-02-24T12:49:57.000+09:00
Feature/glue
diff --git a/dags/glue/game_ccu.py b/dags/glue/game_ccu.py
@@ -0,0 +1,90 @@
+from datetime import datetime, timedelta
+
+from airflow import DAG
+from airflow.operators.python import PythonOperator
+from airflow.providers.amazon.aws.operators.glue import GlueJobOperator
+from airflow.providers.amazon.aws.hooks.s3 import S3Hook
+
+from airflow.providers.amazon.aws.sensors.glue import GlueJobSensor
+from jinja2 import Template
+
+
+def upload_rendered_script_to_s3(
+    bucket_name, template_s3_key, rendered_s3_key, aws_conn_id, **kwargs
+):
+    # S3Hook 인스턴스 생성
+    s3_hook = S3Hook(aws_conn_id=aws_conn_id)
+
+    # S3에서 Jinja 템플릿 파일 읽기
+    template_str = s3_hook.read_key(template_s3_key, bucket_name)
+
+    # Jinja 템플릿 렌더링
+    template = Template(template_str)
+    rendered_script = template.render(**kwargs)
+
+    # 렌더링된 스크립트를 S3에 업로드
+    s3_hook.load_string(
+        string_data=rendered_script,
+        bucket_name=bucket_name,
+        key=rendered_s3_key,
+        replace=True,
+    )
+
+
+with DAG(
+    "glue_game_ccu",
+    default_args={
+        "owner": "airflow",
+        "depends_on_past": False,
+        "start_date": datetime(2024, 2, 22),
+        "retries": 0,
+        "retry_delay": timedelta(minutes=5),
+    },
+    schedule_interval="5 * * * *",
+    tags=["glue", "Game_CCU"],
+    catchup=False,
+) as dag:
+
+    bucket_name = "de-2-1-bucket"
+    current_time = "{{ data_interval_end.in_timezone('Asia/Seoul').strftime('%Y-%m-%dT%H:%M:%S+00:00') }}"
+    year = "{{ data_interval_end.in_timezone('Asia/Seoul').year }}"
+    month = "{{ data_interval_end.in_timezone('Asia/Seoul').month }}"
+    day = "{{ data_interval_end.in_timezone('Asia/Seoul').day }}"
+    hour = "{{ (data_interval_end - macros.timedelta(hours=1)).in_timezone('Asia/Seoul').hour }}"  # before 1 hour
+
+    upload_script = PythonOperator(
+        task_id="upload_script_to_s3",
+        python_callable=upload_rendered_script_to_s3,
+        op_kwargs={
+            "bucket_name": bucket_name,
+            "aws_conn_id": "aws_conn_id",
+            "template_s3_key": "source/script/glue_game_ccu_template.py",
+            "rendered_s3_key": "source/script/glue_game_ccu_script.py",
+            # into template
+            "input_path": f"s3://de-2-1-bucket/source/json/table_name=raw_game_ccu/year={year}/month={month}/day={day}/hour={hour}/",
+            "output_path": f"s3://de-2-1-bucket/source/parquet/table_name=raw_game_ccu/year={year}/month={month}/day={day}/hour={hour}/",
+            "collect_time": f"{year}-{month}-{day} {hour}:00",
+        },
+    )
+
+    run_glue_job = GlueJobOperator(
+        task_id="run_glue_job",
+        job_name="de-2-1_game_ccu",
+        script_location="s3://de-2-1-bucket/source/script/glue_game_ccu_script.py",
+        aws_conn_id="aws_conn_id",
+        region_name="ap-northeast-2",
+        iam_role_name="AWSGlueServiceRole-crawler",
+        dag=dag,
+    )
+
+    wait_for_job = GlueJobSensor(  # trigger
+        task_id="wait_for_job_game_ccu_glue_job",  # task_id 직관적으로 알 수 있도록 변경 권장
+        job_name="de-2-1_game_ccu",
+        # Job ID extracted from previous Glue Job Operator task
+        run_id=run_glue_job.output,
+        verbose=True,  # prints glue job logs in airflow logs
+        # region_name="ap-northeast-2",
+        aws_conn_id="aws_conn_id",
+    )
+
+upload_script >> run_glue_job >> wait_for_job
diff --git a/dags/glue/game_price.py b/dags/glue/game_price.py
@@ -0,0 +1,90 @@
+from datetime import datetime, timedelta
+
+from airflow import DAG
+from airflow.operators.python import PythonOperator
+from airflow.providers.amazon.aws.operators.glue import GlueJobOperator
+from airflow.providers.amazon.aws.hooks.s3 import S3Hook
+
+from airflow.providers.amazon.aws.sensors.glue import GlueJobSensor
+from jinja2 import Template
+
+
+def upload_rendered_script_to_s3(
+    bucket_name, template_s3_key, rendered_s3_key, aws_conn_id, **kwargs
+):
+    # S3Hook 인스턴스 생성
+    s3_hook = S3Hook(aws_conn_id=aws_conn_id)
+
+    # S3에서 Jinja 템플릿 파일 읽기
+    template_str = s3_hook.read_key(template_s3_key, bucket_name)
+
+    # Jinja 템플릿 렌더링
+    template = Template(template_str)
+    rendered_script = template.render(**kwargs)
+
+    # 렌더링된 스크립트를 S3에 업로드
+    s3_hook.load_string(
+        string_data=rendered_script,
+        bucket_name=bucket_name,
+        key=rendered_s3_key,
+        replace=True,
+    )
+
+
+with DAG(
+    "glue_game_price",
+    default_args={
+        "owner": "airflow",
+        "depends_on_past": False,
+        "start_date": datetime(2024, 2, 22),
+        "retries": 0,
+        "retry_delay": timedelta(minutes=5),
+    },
+    schedule_interval="0 1 * * *",
+    tags=["glue", "Game_Price"],
+    catchup=False,
+) as dag:
+
+    bucket_name = "de-2-1-bucket"
+    current_time = "{{ data_interval_end.in_timezone('Asia/Seoul').strftime('%Y-%m-%dT%H:%M:%S+00:00') }}"
+    year = "{{ data_interval_end.in_timezone('Asia/Seoul').year }}"
+    month = "{{ data_interval_end.in_timezone('Asia/Seoul').month }}"
+    day = "{{ data_interval_end.in_timezone('Asia/Seoul').day }}"
+    hour = "{{ (data_interval_end - macros.timedelta(hours=1)).in_timezone('Asia/Seoul') }}"  # before 1 hour
+
+    upload_script = PythonOperator(
+        task_id="upload_script_to_s3",
+        python_callable=upload_rendered_script_to_s3,
+        op_kwargs={
+            "bucket_name": bucket_name,
+            "aws_conn_id": "aws_conn_id",
+            "template_s3_key": "source/script/glue_game_price_template.py",
+            "rendered_s3_key": "source/script/glue_game_price_script.py",
+            # into template
+            "input_path": f"s3://de-2-1-bucket/source/json/table_name=raw_game_price/year={year}/month={month}/day={day}/",
+            "output_path": f"s3://de-2-1-bucket/source/parquet/table_name=raw_game_price/year={year}/month={month}/day={day}/",
+            "collect_date": f"{year}-{month}-{day}",
+        },
+    )
+
+    run_glue_job = GlueJobOperator(
+        task_id="run_glue_job",
+        job_name="de-2-1_game_price",
+        script_location="s3://de-2-1-bucket/source/script/glue_game_price_script.py",
+        aws_conn_id="aws_conn_id",
+        region_name="ap-northeast-2",
+        iam_role_name="AWSGlueServiceRole-crawler",
+        dag=dag,
+    )
+
+    wait_for_job = GlueJobSensor(  # trigger
+        task_id="wait_for_job_game_price_glue_job",  # task_id 직관적으로 알 수 있도록 변경 권장
+        job_name="de-2-1_game_price",
+        # Job ID extracted from previous Glue Job Operator task
+        run_id=run_glue_job.output,
+        verbose=True,  # prints glue job logs in airflow logs
+        # region_name="ap-northeast-2",
+        aws_conn_id="aws_conn_id",
+    )
+
+upload_script >> run_glue_job >> wait_for_job
diff --git a/dags/glue/glue_airflow.py b/dags/glue/glue_airflow.py
@@ -40,17 +40,16 @@ def upload_rendered_script_to_s3(
         "retry_delay": timedelta(minutes=5),
     },
     schedule_interval="0 * * * *",
-    tags=["Glue"],
+    tags=["glue", "streaming"],
     catchup=False,
 ) as dag:
 
     bucket_name = "de-2-1-bucket"
-    local_path = "./glue_script.py"
-    current_time = "{{ data_interval_end.strftime('%Y-%m-%dT%H:%M:%S+00:00') }}"
-    year = "{{ data_interval_end.year }}"
-    month = "{{ data_interval_end.month }}"
-    day = "{{ data_interval_end.day }}"
-    hour = "{{ data_interval_end.hour }}"
+    current_time = "{{ data_interval_end.in_timezone('Asia/Seoul').strftime('%Y-%m-%dT%H:%M:%S+00:00') }}"
+    year = "{{ data_interval_end.year.in_timezone('Asia/Seoul') }}"
+    month = "{{ data_interval_end.month.in_timezone('Asia/Seoul') }}"
+    day = "{{ data_interval_end.day.in_timezone('Asia/Seoul') }}"
+    hour = "{{ data_interval_end.hour.in_timezone('Asia/Seoul') }}"
 
     upload_script = PythonOperator(
         task_id="upload_script_to_s3",
diff --git a/dags/glue/live_viewer.py b/dags/glue/live_viewer.py
@@ -0,0 +1,78 @@
+from datetime import datetime, timedelta
+
+from airflow import DAG
+from airflow.operators.python import PythonOperator
+from airflow.providers.amazon.aws.operators.glue import GlueJobOperator
+from airflow.providers.amazon.aws.hooks.s3 import S3Hook
+
+from jinja2 import Template
+
+
+def upload_rendered_script_to_s3(
+    bucket_name, template_s3_key, rendered_s3_key, aws_conn_id, **kwargs
+):
+    # S3Hook 인스턴스 생성
+    s3_hook = S3Hook(aws_conn_id=aws_conn_id)
+
+    # S3에서 Jinja 템플릿 파일 읽기
+    template_str = s3_hook.read_key(template_s3_key, bucket_name)
+
+    # Jinja 템플릿 렌더링
+    template = Template(template_str)
+    rendered_script = template.render(**kwargs)
+
+    # 렌더링된 스크립트를 S3에 업로드
+    s3_hook.load_string(
+        string_data=rendered_script,
+        bucket_name=bucket_name,
+        key=rendered_s3_key,
+        replace=True,
+    )
+
+
+with DAG(
+    "glue_live_viewer",
+    default_args={
+        "owner": "airflow",
+        "depends_on_past": False,
+        "start_date": datetime(2024, 1, 17),
+        "retries": 0,
+        "retry_delay": timedelta(minutes=5),
+    },
+    tags=["glue", "streaming"],
+    schedule_interval="0 * * * *",
+    catchup=False,
+) as dag:
+
+    bucket_name = "de-2-1-bucket"
+    current_time = "{{ data_interval_end.in_timezone('Asia/Seoul').strftime('%Y-%m-%dT%H:%M:%S+00:00') }}"
+    year = "{{ data_interval_end.in_timezone('Asia/Seoul').year }}"
+    month = "{{ data_interval_end.in_timezone('Asia/Seoul').month }}"
+    day = "{{ data_interval_end.in_timezone('Asia/Seoul').day }}"
+    hour = "{{ (data_interval_end - macros.timedelta(hours=1)).in_timezone('Asia/Seoul').hour }}"  # before 1 hour
+
+    upload_script = PythonOperator(
+        task_id="upload_script_to_s3",
+        python_callable=upload_rendered_script_to_s3,
+        op_kwargs={
+            "bucket_name": bucket_name,
+            "aws_conn_id": "aws_conn_id",
+            "template_s3_key": "source/script/live_viewer_template.py",
+            "rendered_s3_key": "source/script/live_viewer_script.py",
+            # into template
+            "input_path": f"s3://de-2-1-bucket/source/json/table_name=raw_live_viewer/year={year}/month={month}/day={day}/hour={hour}/",
+            "output_path": f"s3://de-2-1-bucket/source/parquet/table_name=raw_live_viewer/year={year}/month={month}/day={day}/hour={hour}/",
+        },
+    )
+
+    run_glue_job = GlueJobOperator(
+        task_id="run_glue_job",
+        job_name="de-2-1_live_viewer",  # when launch, plz clean&change glue jobs
+        script_location="s3://de-2-1-bucket/source/script/live_viewer_script.py",
+        aws_conn_id="aws_conn_id",
+        region_name="ap-northeast-2",
+        iam_role_name="AWSGlueServiceRole-crawler",
+        dag=dag,
+    )
+
+upload_script >> run_glue_job
diff --git a/dags/streaming/stream_data_raw.py b/dags/streaming/stream_data_raw.py
@@ -1,3 +1,4 @@
+import time
 from datetime import datetime, timedelta
 
 import json
@@ -55,6 +56,9 @@ def chzzk_raw(current_time, **kwargs):
 
         if res.status_code == 200:
             live_data = res.json()
+            if live_data["content"]["liveId"]:
+                time.sleep(5)
+                live_data = requests.get(f"https://api.chzzk.naver.com/service/v2/channels/{id}/live-detail").json()
             try:
                 live = live_data["content"]["status"]
                 if live == "OPEN":
diff --git a/dataCollector/glue&athena/glue_game_ccu_template.py b/dataCollector/glue&athena/glue_game_ccu_template.py
@@ -0,0 +1,57 @@
+import sys
+
+from pyspark.context import SparkContext
+from pyspark.sql.functions import col, lit, when, udf, explode
+from pyspark.sql.types import StringType
+
+from awsglue.context import GlueContext
+from awsglue.dynamicframe import DynamicFrame
+from awsglue.job import Job
+from awsglue.utils import getResolvedOptions
+
+# SparkContext와 GlueContext 초기화
+sc = SparkContext()
+glueContext = GlueContext(sc)
+spark = glueContext.spark_session
+
+# Job 초기화 (Job Bookmark 활성화 포함)
+job = Job(glueContext)
+args = getResolvedOptions(sys.argv, ["JOB_NAME"])
+job.init(args["JOB_NAME"], args)
+
+# S3에서 데이터를 읽어오는 부분
+datasource = glueContext.create_dynamic_frame.from_options(
+    "s3",
+    {"paths": ["{{ input_path }}"], "recurse": True},
+    format="json",
+    transformation_ctx="datasource",
+)
+
+# 전처리를 위해 DF로 변환하기
+game_ccu_datasource = datasource.toDF()
+
+# 최상위 레벨의 key를 중심으로 explode하기
+df = game_ccu_datasource.select(
+    explode(game_ccu_datasource.raw_game_ccu).alias("raw_game_ccu")
+)
+
+df = df.select(
+    col("raw_game_ccu.game_id").alias("GAME_ID"),
+    lit("{{ collect_time }}").alias("COLLECT_TIME"),
+    col("raw_game_ccu.player_count").alias("GAME_CCU"),
+)
+
+dynamic_frame = DynamicFrame.fromDF(df, glueContext, "dynamic_frame")
+
+# Parquet으로 변환하여 S3에 저장
+glueContext.write_dynamic_frame.from_options(
+    frame=dynamic_frame,
+    connection_type="s3",
+    connection_options={"path": "{{ output_path }}"},
+    format="parquet",
+    transformation_ctx="dynamic_frame",
+)
+
+
+# Job Bookmark의 상태를 최종적으로 커밋
+job.commit()
diff --git a/dataCollector/glue&athena/glue_game_price_template.py b/dataCollector/glue&athena/glue_game_price_template.py
diff --git a/dataCollector/glue&athena/live_viewer_template.py b/dataCollector/glue&athena/live_viewer_template.py