Add Limited Read Support for Deletion Vectors on Databricks 14.3 [databricks] #12238

razajafri · 2025-02-26T21:43:10Z

This PR adds read-support for deletion vectors on Databricks 14.3 when the spark.rapids.sql.format.parquet.reader.type is set to PERFILE.

The spark.rapids.sql.format.parquet.reader.type defaults to PERFILE on Databricks 14.3 if the user doesn't set a preferred value.

Signed-off-by: Raza Jafri <[email protected]>

revans2

I didn't look at the code in depth. Just did a quick once over.

revans2 · 2025-03-03T16:43:38Z

...3/src/main/scala/com/databricks/sql/transaction/tahoe/rapids/GpuLowShuffleMergeCommand.scala

- * limitations under the License.
- */
-
-package com.databricks.sql.transaction.tahoe.rapids


So is the plan to add this back in later? Or is this really gone gone?

revans2 · 2025-03-03T16:49:19Z

integration_tests/src/main/python/delta_lake_delete_test.py

+@delta_lake
+@ignore_order
+@pytest.mark.skipif(not supports_delta_lake_deletion_vectors(), \
+    reason="Deletion vectors new in Delta Lake 2.4 / Apache Spark 3.4")


This is not 100% accurate.

https://docs.delta.io/latest/delta-deletion-vectors.html

Do we want to distinguish between the different operators being supported? I am fine with 2.4 being the base for support because scan with nothing that can write them is not really a supported feature we can test.

razajafri force-pushed the SP-10661-db-14.3-deletion-vectors-perfile branch from 483b309 to 599498e Compare February 26, 2025 21:53

Added deletion vector read support for PERFILE

221abdb

Signed-off-by: Raza Jafri <[email protected]>

razajafri force-pushed the SP-10661-db-14.3-deletion-vectors-perfile branch from 599498e to 221abdb Compare February 26, 2025 21:54

razajafri added 3 commits February 26, 2025 18:53

Fixed compile error

2da476d

Remove LowShuffleMerge from Databricks 14.3

86412e6

updated copyrights

8f8ea95

revans2 reviewed Mar 3, 2025

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add Limited Read Support for Deletion Vectors on Databricks 14.3 [databricks] #12238

Add Limited Read Support for Deletion Vectors on Databricks 14.3 [databricks] #12238

razajafri commented Feb 26, 2025

revans2 left a comment

revans2 Mar 3, 2025

revans2 Mar 3, 2025

Add Limited Read Support for Deletion Vectors on Databricks 14.3 [databricks] #12238

Are you sure you want to change the base?

Add Limited Read Support for Deletion Vectors on Databricks 14.3 [databricks] #12238

Conversation

razajafri commented Feb 26, 2025

revans2 left a comment

Choose a reason for hiding this comment

revans2 Mar 3, 2025

Choose a reason for hiding this comment

revans2 Mar 3, 2025

Choose a reason for hiding this comment