Partly vectorize CompactProtocol list read (facebook#9606)

Nicoshev · facebook-github-bot · commit de9e9b175dec · 2025-04-24T12:40:08.000-07:00
Summary:

Partly vectorize CompactProtocol's list reading, mainly on aarch64.

Performance gains varies by type:

before:
CompactProtocol_read_SmallListInt                                           36.10ns    27.70M
CompactProtocol_read_BigListByte                                            18.32us    54.57K            10005
CompactProtocol_read_BigListShort                                           27.57us    36.27K            27489
CompactProtocol_read_BigListInt                                             22.74us    43.97K            49370
CompactProtocol_read_BigListBigInt                                          25.26us    39.59K            49696
CompactProtocol_read_BigListFloat                                           18.62us    53.69K            40005
CompactProtocol_read_BigListDouble                                          18.81us    53.16K            80005

after:

CompactProtocol_read_SmallListInt                                           27.07ns    36.94M               52
CompactProtocol_read_BigListByte                                           185.48ns     5.39M            10005
CompactProtocol_read_BigListShort                                            5.97us   167.42K            27489
CompactProtocol_read_BigListInt                                              8.67us   115.37K            49370
CompactProtocol_read_BigListBigInt                                          13.01us    76.87K            49696
CompactProtocol_read_BigListFloat                                          827.75ns     1.21M            40005
CompactProtocol_read_BigListDouble                                           1.67us   600.49K            80005

Differential Revision: D73063243
diff --git a/third-party/thrift/src/thrift/lib/cpp2/protocol/CompactProtocol.cpp b/third-party/thrift/src/thrift/lib/cpp2/protocol/CompactProtocol.cpp
@@ -447,6 +447,226 @@ size_t CompactProtocolWriter::writeArithmeticVector<double>(
       out_, inputPtr, numElements);
 }
 
-#endif // FOLLY_AARCH64
+// Decodes compacted zigzag varints in a vectorized manner
+template <class Cursor, typename T>
+static inline void readEncodedArithmeticVectorSIMD(
+    Cursor& c, T* outputPtr, size_t numElements) {
+  constexpr size_t simdWidth = sizeof(uint8x16_t) / sizeof(T);
+  size_t len = c.length();
+  size_t i = 0;
+  size_t loopBound = numElements - (numElements % simdWidth);
+  while (i < numElements && len >= sizeof(T)) {
+    const uint8_t* inPtr = c.data();
+    const uint8_t* endSimd =
+        inPtr + len - util::detail::kVarintMaxBytes<T> * simdWidth;
+    const uint8_t* endScalar = inPtr + len - util::detail::kVarintMaxBytes<T>;
+    const uint8_t* start = inPtr;
+    for (; i < loopBound && inPtr <= endSimd; i += simdWidth) {
+      if constexpr (sizeof(T) == 4) {
+        uint32x4_t vec;
+        T value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[0] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[1] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[2] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[3] = value;
+        uint32x4_t vecBit = vshlq_n_u32(vec, 31);
+        vecBit = vreinterpretq_u32_s32(
+            vshrq_n_s32(vreinterpretq_s32_u32(vecBit), 30));
+        vec = svget_neonq_u32(svxar_n_u32(
+            svset_neonq_u32(svundef_u32(), vec),
+            svset_neonq_u32(svundef_u32(), vecBit),
+            1));
+        vst1q_u32(reinterpret_cast<uint32_t*>(outputPtr + i), vec);
+      } else if constexpr (sizeof(T) == 2) {
+        uint16x8_t vec;
+        T value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[0] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[1] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[2] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[3] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[4] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[5] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[6] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[7] = value;
+        uint16x8_t vecBit = vshlq_n_u16(vec, 15);
+        vecBit = vreinterpretq_u16_s16(
+            vshrq_n_s16(vreinterpretq_s16_u16(vecBit), 14));
+        vec = svget_neonq_u16(svxar_n_u16(
+            svset_neonq_u16(svundef_u16(), vec),
+            svset_neonq_u16(svundef_u16(), vecBit),
+            1));
+        vst1q_u16(reinterpret_cast<uint16_t*>(outputPtr + i), vec);
+      }
+    }
+    for (; i < numElements && inPtr <= endScalar; ++i) {
+      T value;
+      inPtr += util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+      outputPtr[i] = util::detail::zigzagToSignedInt(value);
+    }
+    size_t consumed = inPtr - start;
+    c.skip(consumed);
+    len -= consumed;
+    size_t trailingLoopBound = std::min(numElements, i + len);
+    for (; i < trailingLoopBound; ++i) {
+      // Need to finish consuming current input buffer
+      T value;
+      util::detail::readVarintSlow(c, value);
+      outputPtr[i] = util::detail::zigzagToSignedInt(value);
+    }
+  }
+}
+
+#endif // FOLLY_ARM_FEATURE_NEON_SVE_BRIDGE
+
+// Function used with data types that are decoded from compacted zigzag
+template <class Cursor, typename T>
+static inline void readEncodedArithmeticVector(
+    Cursor& c, T* outputPtr, size_t numElements) {
+  size_t i = 0;
+  size_t numElementsMod = numElements & 1;
+  size_t loopBound = numElements - numElementsMod;
+  while (i < numElements) {
+    const uint8_t* inPtr = c.data();
+    const uint8_t* start = inPtr;
+    size_t len = c.length();
+    const uint8_t* endVec = inPtr + len - util::detail::kVarintMaxBytes<T> * 2;
+    for (; i < loopBound && inPtr <= endVec; i += 2) {
+      T valueA;
+      T valueB;
+      inPtr += util::detail::readVarintMediumSlowUnrolled(valueA, inPtr);
+      inPtr += util::detail::readVarintMediumSlowUnrolled(valueB, inPtr);
+      valueA = util::detail::zigzagToSignedInt(valueA);
+      valueB = util::detail::zigzagToSignedInt(valueB);
+      outputPtr[i] = valueA;
+      outputPtr[i + 1] = valueB;
+    }
+    size_t consumed = inPtr - start;
+    c.skip(consumed);
+    len -= consumed;
+    size_t trailingLoopBound = std::min(numElements, i + len);
+    while (i < trailingLoopBound) {
+      // Need to finish consuming current input buffer
+      T value;
+      util::detail::readVarintSlow(c, value);
+      outputPtr[i] = util::detail::zigzagToSignedInt(value);
+      ++i;
+    }
+  }
+}
+
+#if !FOLLY_ARM_FEATURE_NEON_SVE_BRIDGE
+// Decodes compacted zigzag varints in a vectorized manner
+template <class Cursor, typename T>
+static inline void readEncodedArithmeticVectorSIMD(
+    Cursor& c, T* outputPtr, size_t numElements) {
+  return readEncodedArithmeticVector<Cursor, T>(c, outputPtr, numElements);
+}
+#endif // !FOLLY_ARM_FEATURE_NEON_SVE_BRIDGE
+
+// Function used with data types that are just received as BE/LE bytes
+template <class Cursor, typename T, bool BE>
+static inline void readUnencodedArithmeticVector(
+    Cursor& c, T* outputPtr, size_t numElements) {
+  size_t i = 0;
+  size_t len = c.length();
+  while (i < numElements && len >= sizeof(T)) {
+    const uint8_t* inPtr = c.data();
+    size_t loopBound = std::min(numElements, i + len / sizeof(T));
+    size_t j = 0;
+    for (; i < loopBound; ++i, ++j) {
+      T value = BE ? folly::Endian::big<T>(
+                         folly::loadUnaligned<T>(inPtr + j * sizeof(T)))
+                   : folly::loadUnaligned<T>(inPtr + j * sizeof(T));
+      outputPtr[i] = value;
+    }
+    c.skip(j * sizeof(T));
+    len = c.length();
+  }
+}
+
+template <>
+void CompactProtocolReader::readArithmeticVector<int64_t>(
+    int64_t* outputPtr, size_t numElements) {
+  return readEncodedArithmeticVector<Cursor, int64_t>(
+      in_, outputPtr, numElements);
+}
+template <>
+void CompactProtocolReader::readArithmeticVector<uint64_t>(
+    uint64_t* outputPtr, size_t numElements) {
+  return readEncodedArithmeticVector<Cursor, uint64_t>(
+      in_, outputPtr, numElements);
+}
+template <>
+void CompactProtocolReader::readArithmeticVector<int32_t>(
+    int32_t* outputPtr, size_t numElements) {
+  return readEncodedArithmeticVectorSIMD<Cursor, int32_t>(
+      in_, outputPtr, numElements);
+}
+template <>
+void CompactProtocolReader::readArithmeticVector<uint32_t>(
+    uint32_t* outputPtr, size_t numElements) {
+  return readEncodedArithmeticVectorSIMD<Cursor, uint32_t>(
+      in_, outputPtr, numElements);
+}
+template <>
+void CompactProtocolReader::readArithmeticVector<int16_t>(
+    int16_t* outputPtr, size_t numElements) {
+  return readEncodedArithmeticVectorSIMD<Cursor, int16_t>(
+      in_, outputPtr, numElements);
+}
+template <>
+void CompactProtocolReader::readArithmeticVector<uint16_t>(
+    uint16_t* outputPtr, size_t numElements) {
+  return readEncodedArithmeticVectorSIMD<Cursor, uint16_t>(
+      in_, outputPtr, numElements);
+}
+template <>
+void CompactProtocolReader::readArithmeticVector<int8_t>(
+    int8_t* outputPtr, size_t numElements) {
+  return readUnencodedArithmeticVector<Cursor, int8_t, false>(
+      in_, outputPtr, numElements);
+}
+template <>
+void CompactProtocolReader::readArithmeticVector<uint8_t>(
+    uint8_t* outputPtr, size_t numElements) {
+  return readUnencodedArithmeticVector<Cursor, uint8_t, false>(
+      in_, outputPtr, numElements);
+}
+template <>
+void CompactProtocolReader::readArithmeticVector<float>(
+    float* outputPtr, size_t numElements) {
+  return readUnencodedArithmeticVector<Cursor, float, true>(
+      in_, outputPtr, numElements);
+}
+template <>
+void CompactProtocolReader::readArithmeticVector<double>(
+    double* outputPtr, size_t numElements) {
+  return readUnencodedArithmeticVector<Cursor, double, true>(
+      in_, outputPtr, numElements);
+}
 
 } // namespace apache::thrift
diff --git a/third-party/thrift/src/thrift/lib/cpp2/protocol/CompactProtocol.h b/third-party/thrift/src/thrift/lib/cpp2/protocol/CompactProtocol.h
@@ -261,6 +261,8 @@ class CompactProtocolReader : public detail::ProtocolBase {
 
   static constexpr bool kHasDeferredRead() { return true; }
 
+  static constexpr bool kSupportsArithmeticVectors() { return true; }
+
   void setStringSizeLimit(int32_t string_limit) {
     string_limit_ = string_limit;
   }
@@ -302,6 +304,8 @@ class CompactProtocolReader : public detail::ProtocolBase {
   void readI64(int64_t& i64);
   void readDouble(double& dub);
   void readFloat(float& flt);
+  template <typename T>
+  void readArithmeticVector(T* outputPtr, size_t numElements);
   template <typename StrType>
   void readString(StrType& str);
   template <typename StrType>
diff --git a/third-party/thrift/src/thrift/lib/cpp2/protocol/CompactV1Protocol.h b/third-party/thrift/src/thrift/lib/cpp2/protocol/CompactV1Protocol.h
@@ -137,6 +137,7 @@ class CompactV1ProtocolReader : protected CompactProtocolReader {
   using CompactProtocolReader::peekList;
   using CompactProtocolReader::peekMap;
   using CompactProtocolReader::peekSet;
+  using CompactProtocolReader::readArithmeticVector;
   using CompactProtocolReader::readBinary;
   using CompactProtocolReader::readFloat;
   using CompactProtocolReader::readString;
@@ -145,6 +146,8 @@ class CompactV1ProtocolReader : protected CompactProtocolReader {
 
   using CompactProtocolReader::getCursor;
   using CompactProtocolReader::getCursorPosition;
+
+  static constexpr bool kSupportsArithmeticVectors() { return true; }
 };
 
 } // namespace apache::thrift