Partly vectorize CompactProtocol list read (#9606)

Nicoshev · facebook-github-bot · commit eabcad3b0677 · 2025-05-05T14:03:28.000-07:00
Summary: Pull Request resolved: #9606 Partly vectorize CompactProtocol's list reading, mainly on aarch64. Performance gains varies by type: before: CompactProtocol_read_SmallListInt 36.10ns 27.70M CompactProtocol_read_BigListByte 18.32us 54.57K 10005 CompactProtocol_read_BigListShort 27.57us 36.27K 27489 CompactProtocol_read_BigListInt 22.74us 43.97K 49370 CompactProtocol_read_BigListBigInt 25.26us 39.59K 49696 CompactProtocol_read_BigListFloat 18.62us 53.69K 40005 CompactProtocol_read_BigListDouble 18.81us 53.16K 80005 after: CompactProtocol_read_SmallListInt 27.07ns 36.94M 52 CompactProtocol_read_BigListByte 185.48ns 5.39M 10005 CompactProtocol_read_BigListShort 6.01us 166.50K 27489 CompactProtocol_read_BigListInt 8.67us 115.37K 49370 CompactProtocol_read_BigListBigInt 11.33us 88.26K 49696 CompactProtocol_read_BigListFloat 827.75ns 1.21M 40005 CompactProtocol_read_BigListDouble 1.67us 600.49K 80005 Differential Revision: D73063243
diff --git a/third-party/thrift/src/thrift/lib/cpp2/protocol/CompactProtocol.cpp b/third-party/thrift/src/thrift/lib/cpp2/protocol/CompactProtocol.cpp
@@ -462,6 +462,258 @@ size_t CompactProtocolWriter::writeArithmeticVector<double>(
       out_, inputPtr, numElements);
 }
 
-#endif // FOLLY_AARCH64
+// Decodes compacted zigzag varints in a vectorized manner
+template <class Cursor, typename T>
+static inline void readEncodedArithmeticVectorSIMD(
+    Cursor& c, T* outputPtr, size_t numElements) {
+  constexpr size_t simdWidth = sizeof(uint8x16_t) / sizeof(T);
+  size_t i = 0;
+  size_t loopBound = numElements - (numElements % simdWidth);
+  while (i < numElements) {
+    const uint8_t* inPtr = c.data();
+    size_t len = c.length();
+    const uint8_t* endSimd =
+        inPtr + len - util::detail::kVarintMaxBytes<T> * simdWidth;
+    const uint8_t* endScalar = inPtr + len - util::detail::kVarintMaxBytes<T>;
+    const uint8_t* start = inPtr;
+    for (; i < loopBound && inPtr <= endSimd; i += simdWidth) {
+      if constexpr (sizeof(T) == 4) {
+        uint32x4_t vec;
+        T value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[0] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[1] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[2] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[3] = value;
+        uint32x4_t vecBit = vshlq_n_u32(vec, 31);
+        vecBit = vreinterpretq_u32_s32(
+            vshrq_n_s32(vreinterpretq_s32_u32(vecBit), 30));
+        vec = svget_neonq_u32(svxar_n_u32(
+            svset_neonq_u32(svundef_u32(), vec),
+            svset_neonq_u32(svundef_u32(), vecBit),
+            1));
+        vst1q_u32(reinterpret_cast<uint32_t*>(outputPtr + i), vec);
+      } else if constexpr (sizeof(T) == 2) {
+        uint16x8_t vec;
+        T value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[0] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[1] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[2] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[3] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[4] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[5] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[6] = value;
+        inPtr +=
+            util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+        vec[7] = value;
+        uint16x8_t vecBit = vshlq_n_u16(vec, 15);
+        vecBit = vreinterpretq_u16_s16(
+            vshrq_n_s16(vreinterpretq_s16_u16(vecBit), 14));
+        vec = svget_neonq_u16(svxar_n_u16(
+            svset_neonq_u16(svundef_u16(), vec),
+            svset_neonq_u16(svundef_u16(), vecBit),
+            1));
+        vst1q_u16(reinterpret_cast<uint16_t*>(outputPtr + i), vec);
+      }
+    }
+    for (; i < numElements && inPtr <= endScalar; ++i) {
+      int32_t value;
+      inPtr += util::detail::readVarintMediumSlowUnrolledAarch64(value, inPtr);
+      outputPtr[i] = (T)util::detail::zigzagToSignedInt(value);
+    }
+    size_t consumed = inPtr - start;
+    c.skip(consumed);
+    len -= consumed;
+    size_t trailingLoopBound = std::min(numElements, i + len + 1);
+    for (; i < trailingLoopBound; ++i) {
+      // Need to finish consuming current input buffer
+      int32_t value;
+      util::detail::readVarintSlow(c, value);
+      outputPtr[i] = (T)util::detail::zigzagToSignedInt(value);
+    }
+  }
+}
+
+#endif // FOLLY_ARM_FEATURE_NEON_SVE_BRIDGE
+
+// Function used with data types that are decoded from compacted zigzag
+template <class Cursor, typename T>
+static inline void readEncodedArithmeticVector(
+    Cursor& c, T* outputPtr, size_t numElements) {
+  size_t i = 0;
+  size_t numElementsMod = numElements & 1;
+  size_t loopBound = numElements - numElementsMod;
+  while (i < numElements) {
+    const uint8_t* inPtr = c.data();
+    const uint8_t* start = inPtr;
+    size_t len = c.length();
+    constexpr size_t kMaxVarintBytes = sizeof(T) == 2
+        ? util::detail::kVarintMaxBytes<int32_t>
+        : util::detail::kVarintMaxBytes<T>;
+    const uint8_t* endVec = inPtr + len - kMaxVarintBytes * 2;
+    for (; i < loopBound && inPtr <= endVec; i += 2) {
+      if constexpr (sizeof(T) == 2) {
+        int32_t valueA;
+        int32_t valueB;
+        inPtr += util::detail::readVarintMediumSlowUnrolled(valueA, inPtr);
+        inPtr += util::detail::readVarintMediumSlowUnrolled(valueB, inPtr);
+        valueA = util::detail::zigzagToSignedInt(valueA);
+        valueB = util::detail::zigzagToSignedInt(valueB);
+        outputPtr[i] = (T)valueA;
+        outputPtr[i + 1] = (T)valueB;
+      } else {
+        T valueA;
+        T valueB;
+        inPtr += util::detail::readVarintMediumSlowUnrolled(valueA, inPtr);
+        inPtr += util::detail::readVarintMediumSlowUnrolled(valueB, inPtr);
+        valueA = util::detail::zigzagToSignedInt(valueA);
+        valueB = util::detail::zigzagToSignedInt(valueB);
+        outputPtr[i] = valueA;
+        outputPtr[i + 1] = valueB;
+      }
+    }
+    size_t consumed = inPtr - start;
+    c.skipNoAdvance(consumed);
+    len -= consumed;
+    size_t trailingLoopBound = std::min(numElements, i + len + 1);
+    while (i < trailingLoopBound) {
+      if constexpr (sizeof(T) == 2) {
+        // Need to finish consuming current input buffer
+        int32_t value;
+        util::detail::readVarintSlow(c, value);
+        outputPtr[i] = (T)util::detail::zigzagToSignedInt(value);
+      } else {
+        // Need to finish consuming current input buffer
+        T value;
+        util::detail::readVarintSlow(c, value);
+        outputPtr[i] = util::detail::zigzagToSignedInt(value);
+      }
+      ++i;
+    }
+  }
+}
+
+#if !FOLLY_ARM_FEATURE_NEON_SVE_BRIDGE
+// Decodes compacted zigzag varints in a vectorized manner
+template <class Cursor, typename T>
+static inline void readEncodedArithmeticVectorSIMD(
+    Cursor& c, T* outputPtr, size_t numElements) {
+  return readEncodedArithmeticVector<Cursor, T>(c, outputPtr, numElements);
+}
+#endif // !FOLLY_ARM_FEATURE_NEON_SVE_BRIDGE
+
+// Function used with data types that are just received as BE/LE bytes
+template <class Cursor, typename T, bool BE>
+static inline void readUnencodedArithmeticVector(
+    Cursor& c, T* outputPtr, size_t numElements) {
+  size_t i = 0;
+  while (i < numElements) {
+    const uint8_t* inPtr = c.data();
+    size_t len = c.length();
+    size_t loopBound = std::min(numElements, i + len / sizeof(T));
+    size_t j = 0;
+    for (; i < loopBound; ++i, ++j) {
+      T value = BE ? folly::Endian::big<T>(
+                         folly::loadUnaligned<T>(inPtr + j * sizeof(T)))
+                   : folly::loadUnaligned<T>(inPtr + j * sizeof(T));
+      outputPtr[i] = value;
+    }
+    c.skipNoAdvance(j * sizeof(T));
+    if (i < numElements) {
+      if constexpr (sizeof(T) == 8) {
+        uint64_t bits = c.template readBE<int64_t>();
+        outputPtr[i] = folly::bit_cast<double>(bits);
+      } else if constexpr (sizeof(T) == 4) {
+        uint32_t bits = c.template readBE<int32_t>();
+        outputPtr[i] = folly::bit_cast<float>(bits);
+      } else {
+        outputPtr[i] = c.template read<int8_t>();
+      }
+      ++i;
+    }
+  }
+}
+
+template <>
+void CompactProtocolReader::readArithmeticVector<int64_t>(
+    int64_t* outputPtr, size_t numElements) {
+  return readEncodedArithmeticVector<Cursor, int64_t>(
+      in_, outputPtr, numElements);
+}
+template <>
+void CompactProtocolReader::readArithmeticVector<uint64_t>(
+    uint64_t* outputPtr, size_t numElements) {
+  return readEncodedArithmeticVector<Cursor, uint64_t>(
+      in_, outputPtr, numElements);
+}
+template <>
+void CompactProtocolReader::readArithmeticVector<int32_t>(
+    int32_t* outputPtr, size_t numElements) {
+  return readEncodedArithmeticVectorSIMD<Cursor, int32_t>(
+      in_, outputPtr, numElements);
+}
+template <>
+void CompactProtocolReader::readArithmeticVector<uint32_t>(
+    uint32_t* outputPtr, size_t numElements) {
+  return readEncodedArithmeticVectorSIMD<Cursor, uint32_t>(
+      in_, outputPtr, numElements);
+}
+template <>
+void CompactProtocolReader::readArithmeticVector<int16_t>(
+    int16_t* outputPtr, size_t numElements) {
+  return readEncodedArithmeticVectorSIMD<Cursor, int16_t>(
+      in_, outputPtr, numElements);
+}
+template <>
+void CompactProtocolReader::readArithmeticVector<uint16_t>(
+    uint16_t* outputPtr, size_t numElements) {
+  return readEncodedArithmeticVectorSIMD<Cursor, uint16_t>(
+      in_, outputPtr, numElements);
+}
+template <>
+void CompactProtocolReader::readArithmeticVector<int8_t>(
+    int8_t* outputPtr, size_t numElements) {
+  return readUnencodedArithmeticVector<Cursor, int8_t, false>(
+      in_, outputPtr, numElements);
+}
+template <>
+void CompactProtocolReader::readArithmeticVector<uint8_t>(
+    uint8_t* outputPtr, size_t numElements) {
+  return readUnencodedArithmeticVector<Cursor, uint8_t, false>(
+      in_, outputPtr, numElements);
+}
+template <>
+void CompactProtocolReader::readArithmeticVector<float>(
+    float* outputPtr, size_t numElements) {
+  return readUnencodedArithmeticVector<Cursor, float, true>(
+      in_, outputPtr, numElements);
+}
+template <>
+void CompactProtocolReader::readArithmeticVector<double>(
+    double* outputPtr, size_t numElements) {
+  return readUnencodedArithmeticVector<Cursor, double, true>(
+      in_, outputPtr, numElements);
+}
 
 } // namespace apache::thrift
diff --git a/third-party/thrift/src/thrift/lib/cpp2/protocol/CompactProtocol.h b/third-party/thrift/src/thrift/lib/cpp2/protocol/CompactProtocol.h
@@ -253,6 +253,8 @@ class CompactProtocolReader : public detail::ProtocolBase {
 
   static constexpr bool kHasDeferredRead() { return true; }
 
+  static constexpr bool kSupportsArithmeticVectors() { return true; }
+
   void setStringSizeLimit(int32_t string_limit) {
     string_limit_ = string_limit;
   }
@@ -294,6 +296,8 @@ class CompactProtocolReader : public detail::ProtocolBase {
   void readI64(int64_t& i64);
   void readDouble(double& dub);
   void readFloat(float& flt);
+  template <typename T>
+  void readArithmeticVector(T* outputPtr, size_t numElements);
   template <typename StrType>
   void readString(StrType& str);
   template <typename StrType>
diff --git a/third-party/thrift/src/thrift/lib/cpp2/protocol/CompactV1Protocol.h b/third-party/thrift/src/thrift/lib/cpp2/protocol/CompactV1Protocol.h
@@ -139,6 +139,8 @@ class CompactV1ProtocolReader : protected CompactProtocolReader {
 
   using CompactProtocolReader::getCursor;
   using CompactProtocolReader::getCursorPosition;
+
+  static constexpr bool kSupportsArithmeticVectors() { return false; }
 };
 
 } // namespace apache::thrift
diff --git a/third-party/thrift/src/thrift/lib/cpp2/protocol/test/ProtocolTest.cpp b/third-party/thrift/src/thrift/lib/cpp2/protocol/test/ProtocolTest.cpp
@@ -225,7 +225,11 @@ void runBigListTest(
       } else {
         prot_method_integral::read(r, outList);
       }
-      ASSERT_EQ(intList, outList);
+      ASSERT_EQ(intList.size(), outList.size());
+      size_t len = std::min(intList.size(), outList.size());
+      for (size_t j = 0; j < len; ++j) {
+        ASSERT_EQ(intList[j], outList[j]);
+      }
     }
   }
 }

Original file line number	Diff line number	Diff line change
`@@ -225,7 +225,11 @@ void runBigListTest(`
`225`	`225`	`} else {`
`226`	`226`	`prot_method_integral::read(r, outList);`
`227`	`227`	`}`
`228`		`- ASSERT_EQ(intList, outList);`
	`228`	`+ ASSERT_EQ(intList.size(), outList.size());`
	`229`	`+ size_t len = std::min(intList.size(), outList.size());`
	`230`	`+ for (size_t j = 0; j < len; ++j) {`
	`231`	`+ ASSERT_EQ(intList[j], outList[j]);`
	`232`	`+ }`
`229`	`233`	`}`
`230`	`234`	`}`
`231`	`235`	`}`