rerun-io · teh-cmc · Oct 17, 2024 · Oct 17, 2024 · teh-cmc · Oct 17, 2024
diff --git a/Cargo.lock b/Cargo.lock
@@ -6251,6 +6251,7 @@ dependencies = [
  "re_chunk_store",
  "re_crash_handler",
  "re_data_source",
+ "re_dataframe",
  "re_entity_db",
  "re_error",
  "re_format",

diff --git a/crates/store/re_chunk/src/util.rs b/crates/store/re_chunk/src/util.rs
@@ -10,6 +10,8 @@ use arrow2::{
 };
 use itertools::Itertools;
 
+use crate::TransportChunk;
+
 // ---
 
 /// Returns true if the given `list_array` is semantically empty.
@@ -409,3 +411,38 @@ pub fn take_array<A: ArrowArray + Clone, O: arrow2::types::Index>(
         .unwrap()
         .clone()
 }
+
+// ---
+
+use arrow2::{chunk::Chunk as ArrowChunk, datatypes::Schema as ArrowSchema};
+
+/// Concatenate multiple [`TransportChunk`]s into one.
+///
+/// This is a temporary method that we use while waiting to migrate towards `arrow-rs`.
+/// * `arrow2` doesn't have a `RecordBatch` type, therefore we emulate that using our `TransportChunk`s.
+/// * `arrow-rs` does have one, and it natively supports concatenation.
+pub fn concatenate_record_batches(
+    schema: ArrowSchema,
+    batches: &[TransportChunk],
+) -> anyhow::Result<TransportChunk> {
+    assert!(batches.iter().map(|batch| &batch.schema).all_equal());
+
+    let mut arrays = Vec::new();
+
+    if !batches.is_empty() {
+        for (i, _field) in schema.fields.iter().enumerate() {
+            let array = arrow2::compute::concatenate::concatenate(
+                &batches
+                    .iter()
+                    .map(|batch| &*batch.data[i] as &dyn ArrowArray)
+                    .collect_vec(),
+            )?;
+            arrays.push(array);
+        }
+    }
+
+    Ok(TransportChunk {
+        schema,
+        data: ArrowChunk::new(arrays),
+    })
+}
diff --git a/crates/store/re_dataframe/src/lib.rs b/crates/store/re_dataframe/src/lib.rs
@@ -9,12 +9,14 @@ pub use self::query::QueryHandle;
 #[doc(no_inline)]
 pub use self::external::arrow2::chunk::Chunk as ArrowChunk;
 #[doc(no_inline)]
+pub use self::external::re_chunk::util::concatenate_record_batches;
+#[doc(no_inline)]
 pub use self::external::re_chunk_store::{
     ColumnSelector, ComponentColumnSelector, Index, IndexRange, IndexValue, QueryExpression,
     SparseFillStrategy, TimeColumnSelector, ViewContentsSelector,
 };
 #[doc(no_inline)]
-pub use self::external::re_log_types::{TimeInt, Timeline};
+pub use self::external::re_log_types::{EntityPathFilter, ResolvedTimeRange, TimeInt, Timeline};
 #[doc(no_inline)]
 pub use self::external::re_query::Caches as QueryCache;
 

diff --git a/crates/store/re_dataframe/src/query.rs b/crates/store/re_dataframe/src/query.rs
@@ -1179,7 +1179,7 @@ impl<'a> QueryHandle<'a> {
 mod tests {
     use std::sync::Arc;
 
-    use re_chunk::{Chunk, ChunkId, RowId, TimePoint};
+    use re_chunk::{util::concatenate_record_batches, Chunk, ChunkId, RowId, TimePoint};
     use re_chunk_store::{ChunkStore, ChunkStoreConfig, ResolvedTimeRange, TimeInt};
     use re_log_types::{
         build_frame_nr, build_log_time,
@@ -1248,7 +1248,7 @@ mod tests {
             let dataframe = concatenate_record_batches(
                 query_handle.schema().clone(),
                 &query_handle.into_batch_iter().collect_vec(),
-            );
+            )?;
             eprintln!("{dataframe}");
 
             let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -1283,7 +1283,7 @@ mod tests {
             let dataframe = concatenate_record_batches(
                 query_handle.schema().clone(),
                 &query_handle.into_batch_iter().collect_vec(),
-            );
+            )?;
             eprintln!("{dataframe}");
 
             let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -1333,7 +1333,7 @@ mod tests {
         let dataframe = concatenate_record_batches(
             query_handle.schema().clone(),
             &query_handle.into_batch_iter().collect_vec(),
-        );
+        )?;
         eprintln!("{dataframe}");
 
         let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -1382,7 +1382,7 @@ mod tests {
         let dataframe = concatenate_record_batches(
             query_handle.schema().clone(),
             &query_handle.into_batch_iter().collect_vec(),
-        );
+        )?;
         eprintln!("{dataframe}");
 
         let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -1437,7 +1437,7 @@ mod tests {
         let dataframe = concatenate_record_batches(
             query_handle.schema().clone(),
             &query_handle.into_batch_iter().collect_vec(),
-        );
+        )?;
         eprintln!("{dataframe}");
 
         let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -1495,7 +1495,7 @@ mod tests {
             let dataframe = concatenate_record_batches(
                 query_handle.schema().clone(),
                 &query_handle.into_batch_iter().collect_vec(),
-            );
+            )?;
             eprintln!("{dataframe}");
 
             let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -1538,7 +1538,7 @@ mod tests {
             let dataframe = concatenate_record_batches(
                 query_handle.schema().clone(),
                 &query_handle.into_batch_iter().collect_vec(),
-            );
+            )?;
             eprintln!("{dataframe}");
 
             let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -1595,7 +1595,7 @@ mod tests {
             let dataframe = concatenate_record_batches(
                 query_handle.schema().clone(),
                 &query_handle.into_batch_iter().collect_vec(),
-            );
+            )?;
             eprintln!("{dataframe}");
 
             let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -1624,7 +1624,7 @@ mod tests {
             let dataframe = concatenate_record_batches(
                 query_handle.schema().clone(),
                 &query_handle.into_batch_iter().collect_vec(),
-            );
+            )?;
             eprintln!("{dataframe}");
 
             let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -1653,7 +1653,7 @@ mod tests {
             let dataframe = concatenate_record_batches(
                 query_handle.schema().clone(),
                 &query_handle.into_batch_iter().collect_vec(),
-            );
+            )?;
             eprintln!("{dataframe}");
 
             let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -1692,7 +1692,7 @@ mod tests {
             let dataframe = concatenate_record_batches(
                 query_handle.schema().clone(),
                 &query_handle.into_batch_iter().collect_vec(),
-            );
+            )?;
             eprintln!("{dataframe}");
 
             let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -1750,7 +1750,7 @@ mod tests {
             let dataframe = concatenate_record_batches(
                 query_handle.schema().clone(),
                 &query_handle.into_batch_iter().collect_vec(),
-            );
+            )?;
             eprintln!("{dataframe}");
 
             let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -1790,7 +1790,7 @@ mod tests {
             let dataframe = concatenate_record_batches(
                 query_handle.schema().clone(),
                 &query_handle.into_batch_iter().collect_vec(),
-            );
+            )?;
             eprintln!("{dataframe}");
 
             let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -1843,7 +1843,7 @@ mod tests {
             let dataframe = concatenate_record_batches(
                 query_handle.schema().clone(),
                 &query_handle.into_batch_iter().collect_vec(),
-            );
+            )?;
             eprintln!("{dataframe}");
 
             let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -1879,7 +1879,7 @@ mod tests {
             let dataframe = concatenate_record_batches(
                 query_handle.schema().clone(),
                 &query_handle.into_batch_iter().collect_vec(),
-            );
+            )?;
             eprintln!("{dataframe}");
 
             let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -1930,7 +1930,7 @@ mod tests {
             let dataframe = concatenate_record_batches(
                 query_handle.schema().clone(),
                 &query_handle.into_batch_iter().collect_vec(),
-            );
+            )?;
             eprintln!("{dataframe}");
 
             let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -2003,7 +2003,7 @@ mod tests {
             let dataframe = concatenate_record_batches(
                 query_handle.schema().clone(),
                 &query_handle.into_batch_iter().collect_vec(),
-            );
+            )?;
             eprintln!("{dataframe}");
 
             let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -2094,7 +2094,7 @@ mod tests {
             let dataframe = concatenate_record_batches(
                 query_handle.schema().clone(),
                 &query_handle.into_batch_iter().collect_vec(),
-            );
+            )?;
             eprintln!("{dataframe}");
 
             let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -2151,7 +2151,7 @@ mod tests {
             let dataframe = concatenate_record_batches(
                 query_handle.schema().clone(),
                 &query_handle.into_batch_iter().collect_vec(),
-            );
+            )?;
             eprintln!("{dataframe}");
 
             let got = format!("{:#?}", dataframe.data.iter().collect_vec());
@@ -2188,7 +2188,7 @@ mod tests {
             let dataframe = concatenate_record_batches(
                 query_handle.schema().clone(),
                 &query_handle.into_batch_iter().collect_vec(),
-            );
+            )?;
             eprintln!("{dataframe}");
 
             // TODO(#7650): Those null values for `MyColor` on 10 and 20 look completely insane, but then again
@@ -2252,11 +2252,11 @@ mod tests {
                     let expected = concatenate_record_batches(
                         query_handle.schema().clone(),
                         &expected_rows.iter().skip(i).take(3).cloned().collect_vec(),
-                    );
+                    )?;
                     let got = concatenate_record_batches(
                         query_handle.schema().clone(),
                         &query_handle.batch_iter().take(3).collect_vec(),
-                    );
+                    )?;
 
                     let expected = format!("{:#?}", expected.data.iter().collect_vec());
                     let got = format!("{:#?}", got.data.iter().collect_vec());
@@ -2293,11 +2293,11 @@ mod tests {
                     let expected = concatenate_record_batches(
                         query_handle.schema().clone(),
                         &expected_rows.iter().skip(i).take(3).cloned().collect_vec(),
-                    );
+                    )?;
                     let got = concatenate_record_batches(
                         query_handle.schema().clone(),
                         &query_handle.batch_iter().take(3).collect_vec(),
-                    );
+                    )?;
 
                     let expected = format!("{:#?}", expected.data.iter().collect_vec());
                     let got = format!("{:#?}", got.data.iter().collect_vec());
@@ -2337,11 +2337,11 @@ mod tests {
                     let expected = concatenate_record_batches(
                         query_handle.schema().clone(),
                         &expected_rows.iter().skip(i).take(3).cloned().collect_vec(),
-                    );
+                    )?;
                     let got = concatenate_record_batches(
                         query_handle.schema().clone(),
                         &query_handle.batch_iter().take(3).collect_vec(),
-                    );
+                    )?;
 
                     let expected = format!("{:#?}", expected.data.iter().collect_vec());
                     let got = format!("{:#?}", got.data.iter().collect_vec());
@@ -2375,11 +2375,11 @@ mod tests {
                     let expected = concatenate_record_batches(
                         query_handle.schema().clone(),
                         &expected_rows.iter().skip(i).take(3).cloned().collect_vec(),
-                    );
+                    )?;
                     let got = concatenate_record_batches(
                         query_handle.schema().clone(),
                         &query_handle.batch_iter().take(3).collect_vec(),
-                    );
+                    )?;
 
                     let expected = format!("{:#?}", expected.data.iter().collect_vec());
                     let got = format!("{:#?}", got.data.iter().collect_vec());
@@ -2682,28 +2682,4 @@ mod tests {
 
         Ok(())
     }
-
-    fn concatenate_record_batches(schema: ArrowSchema, batches: &[RecordBatch]) -> RecordBatch {
-        assert!(batches.iter().map(|batch| &batch.schema).all_equal());
-
-        let mut arrays = Vec::new();
-
-        if !batches.is_empty() {
-            for (i, _field) in schema.fields.iter().enumerate() {
-                let array = arrow2::compute::concatenate::concatenate(
-                    &batches
-                        .iter()
-                        .map(|batch| &*batch.data[i] as &dyn ArrowArray)
-                        .collect_vec(),
-                )
-                .unwrap();
-                arrays.push(array);
-            }
-        }
-
-        RecordBatch {
-            schema,
-            data: ArrowChunk::new(arrays),
-        }
-    }
 }
diff --git a/crates/top/rerun/Cargo.toml b/crates/top/rerun/Cargo.toml
@@ -26,6 +26,7 @@ targets = ["x86_64-unknown-linux-gnu", "wasm32-unknown-unknown"]
 default = [
   "analytics",
   "data_loaders",
+  "dataframe",
   "demo",
   "glam",
   "image",
@@ -54,6 +55,9 @@ data_loaders = ["re_sdk?/data_loaders"]
 ## Demo helpers for examples.
 demo = []
 
+## Access to Rerun's dataframe API and related types.
+dataframe = ["dep:re_dataframe"]
+
 ## Add support for some math operations using [`glam`](https://crates.io/crates/glam/).
 ## Only relevant if feature `sdk` is enabled.
 glam = ["re_types?/glam"]
@@ -132,6 +136,7 @@ similar-asserts.workspace = true
 re_analytics = { workspace = true, optional = true }
 re_chunk_store = { workspace = true, optional = true }
 re_data_source = { workspace = true, optional = true }
+re_dataframe = { workspace = true, optional = true }
 re_log_encoding = { workspace = true, optional = true, features = [
   "decoder",
   "encoder",

diff --git a/crates/top/rerun/src/lib.rs b/crates/top/rerun/src/lib.rs
@@ -136,11 +136,18 @@ pub use commands::{run, CallSource};
 #[cfg(feature = "sdk")]
 pub use sdk::*;
 
+/// All the types required by the dataframe API.
+#[cfg(feature = "dataframe")]
+pub mod dataframe {
+    pub use re_dataframe::*;
+}
+
 /// Everything needed to build custom `ChunkStoreSubscriber`s.
 pub use re_entity_db::external::re_chunk_store::{
-    ChunkStore, ChunkStoreDiff, ChunkStoreDiffKind, ChunkStoreEvent, ChunkStoreGeneration,
-    ChunkStoreSubscriber,
+    ChunkStore, ChunkStoreConfig, ChunkStoreDiff, ChunkStoreDiffKind, ChunkStoreEvent,
+    ChunkStoreGeneration, ChunkStoreSubscriber, VersionPolicy,
 };
+pub use re_log_types::StoreKind;
 
 /// To register a new external data loader, simply add an executable in your $PATH whose name
 /// starts with this prefix.