A Sample Structured Streaming

Run the job (local)

Build

poetry build

Running

poetry run spark-submit \
  --master local \
  --packages 'org.apache.spark:spark-streaming-kafka-0-10_2.12:3.1.3,org.apache.spark:spark-sql-kafka-0-10_2.12:3.1.3'\
  --py-files dist/structured_streaming-*.whl jobs/sample_job.py \
  <IP_KAFKA_BROKER>:9092 com.google.sample.purchases.2 ./tmp/output ./tmp/checkpoint '60 seconds'

Submit to Dataproc

Preparing dependencies

poetry export -f requirements.txt --output requirements.txt

Copy initialization script GCS

gsutil cp requirements.txt gs://andresousa-experimental-scripts

Create Dataproc cluster

Create the cluster with python dependencies and submit the job

export REGION=us-central1;
gcloud dataproc clusters create cluster-sample \
--region=${REGION} \
--image-version 2.0-debian10 \
--initialization-actions=gs://andresousa-experimental-scripts/initialize-cluster.sh

Submit job

gcloud dataproc jobs submit pyspark \
  --cluster=cluster-sample \
  --region=us-central1 \
  --properties=^#^spark.jars.packages='org.apache.spark:spark-streaming-kafka-0-10_2.12:3.1.3,org.apache.spark:spark-sql-kafka-0-10_2.12:3.1.3' \
  --py-files dist/structured_streaming-*.whl \
  jobs/sample_job.py \
  -- <IP_KAFKA_BROKER>:9092 com.google.sample.purchases.2 gs://andresousa-experimental-streaming-test/output gs://andresousa-experimental-checkpoints/checkpoint '60 seconds'

Debugging

See query streaming in console

query = df \
    .writeStream \
    .outputMode('Append') \
    .format('console') \
    .start()

query.awaitTermination()

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
jobs		jobs
scripts		scripts
structured_streaming		structured_streaming
tests		tests
.gitignore		.gitignore
.python-version		.python-version
README.md		README.md
README.rst		README.rst
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

A Sample Structured Streaming

Run the job (local)

Build

Running

Submit to Dataproc

Preparing dependencies

Copy initialization script GCS

Create Dataproc cluster

Submit job

Debugging

See query streaming in console

About

Releases

Packages

Languages

dedeco/structured-streaming-job-pyspark

Folders and files

Latest commit

History

Repository files navigation

A Sample Structured Streaming

Run the job (local)

Build

Running

Submit to Dataproc

Preparing dependencies

Copy initialization script GCS

Create Dataproc cluster

Submit job

Debugging

See query streaming in console

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages