[Bug fix][CPU] Fix fp8 sdpa compiling issue with latest PyTorch (#2991)

Valentine233 · web-flow · commit 22819f4d3035 · 2025-09-21T02:51:10.000-07:00
* [CPU] Fix fp8 sdpa compiling issue with latest pytorch

* disable fp8 fusion
diff --git a/torchao/csrc/cpu/aten_kernels/quantized_sdpa.cpp b/torchao/csrc/cpu/aten_kernels/quantized_sdpa.cpp
@@ -1775,6 +1775,7 @@ int8_sdpa_fused_kernel_impl(
   at::native::cpublas::brgemm_release();
 }
 
+#if defined(CPUBLAS_BRGEMM_F8F8F32)
 // FP8 - kernel with f8f8f8 GEMM
 template <typename scalar_t, typename mask_t,
           int64_t q_split_size, int64_t kv_split_size>
@@ -2136,6 +2137,7 @@ fp8_sdpa_fused_kernel_impl(
     at::native::cpublas::brgemm_release();
   });
 }
+#endif // CPUBLAS_BRGEMM_F8F8F32
 
 template <typename scalar_t, typename mask_t, int64_t q_split_size, int64_t kv_split_size>
 inline typename std::enable_if_t<std::is_same_v<scalar_t, unsigned char>, void>
@@ -2304,6 +2306,7 @@ void int8_sdpa_fused_kernel(
   }
 }
 
+#if defined(CPUBLAS_BRGEMM_F8F8F32)
 void fp8_sdpa_fused_kernel(
     const at::Tensor& output,
     const at::Tensor& query,
@@ -2380,6 +2383,7 @@ void fp8_sdpa_fused_kernel(
     });
   }
 }
+#endif // CPUBLAS_BRGEMM_F8F8F32
 #endif // CPU_CAPABILITY_AVX512
 
 at::Tensor int8_sdpa_math_kernel(
diff --git a/torchao/prototype/inductor/fx_passes/qsdpa_fusion.py b/torchao/prototype/inductor/fx_passes/qsdpa_fusion.py
@@ -28,7 +28,7 @@
 ]
 
 aten = torch.ops.aten
-quantize_dtypes = [torch.uint8, torch.float8_e4m3fn]
+quantize_dtypes = [torch.uint8]
 
 
 def _is_valid_qsdpa_pattern():
@@ -121,53 +121,31 @@ def qsdpa(match: Match, *args, **kwargs):
 def _generate_dequant_pattern(
     input_pattern, qtype, is_reduced_type, scale: str, zp: str = None
 ):
-    if qtype == torch.uint8:
-        assert zp is not None, "Zero point must be provided for uint8 dequantization"
-        return CallFunction(
-            torch.ops.quantized_decomposed.dequantize_per_tensor.default,
-            input_pattern,
-            KeywordArg(scale),
-            KeywordArg(zp),
-            Arg(),
-            Arg(),
-            Arg(),
-        )
-    else:
-        assert zp is None, "Fp8 dequantization does not support zero point"
-        if is_reduced_type:
-            return CallFunction(
-                torch.ops.torchao.dequantize_affine_float8.default,
-                input_pattern,
-                KeywordArg(scale),
-                Arg(),
-            )
-        else:
-            return CallFunction(
-                torch.ops.torchao.dequantize_affine_float8.default,
-                input_pattern,
-                KeywordArg(scale),
-            )
+    assert qtype is torch.uint8, "QSDPA expects type to be uint8"
+    assert zp is not None, "Zero point must be provided for uint8 dequantization"
+    return CallFunction(
+        torch.ops.quantized_decomposed.dequantize_per_tensor.default,
+        input_pattern,
+        KeywordArg(scale),
+        KeywordArg(zp),
+        Arg(),
+        Arg(),
+        Arg(),
+    )
 
 
 def _generate_quant_pattern(input_pattern, qtype, scale: str, zp: str = None):
-    if qtype == torch.uint8:
-        assert zp is not None, "Zero point must be provided for uint8 quantization"
-        return CallFunction(
-            torch.ops.quantized_decomposed.quantize_per_tensor.default,
-            input_pattern,
-            KeywordArg(scale),
-            KeywordArg(zp),
-            Arg(),
-            Arg(),
-            Arg(),
-        )
-    else:
-        assert zp is None, "Fp8 quantization does not support zero point"
-        return CallFunction(
-            torch.ops.torchao.quantize_affine_float8.default,
-            input_pattern,
-            KeywordArg(scale),
-        )
+    assert qtype is torch.uint8, "QSDPA expects type to be uint8"
+    assert zp is not None, "Zero point must be provided for uint8 quantization"
+    return CallFunction(
+        torch.ops.quantized_decomposed.quantize_per_tensor.default,
+        input_pattern,
+        KeywordArg(scale),
+        KeywordArg(zp),
+        Arg(),
+        Arg(),
+        Arg(),
+    )
 
 
 def _get_qsdpa_qkv_pattern(

Original file line number	Diff line number	Diff line change
`@@ -1775,6 +1775,7 @@ int8_sdpa_fused_kernel_impl(`
`1775`	`1775`	`at::native::cpublas::brgemm_release();`
`1776`	`1776`	`}`
`1777`	`1777`
	`1778`	`+#if defined(CPUBLAS_BRGEMM_F8F8F32)`
`1778`	`1779`	`// FP8 - kernel with f8f8f8 GEMM`
`1779`	`1780`	`template <typename scalar_t, typename mask_t,`
`1780`	`1781`	`int64_t q_split_size, int64_t kv_split_size>`
`@@ -2136,6 +2137,7 @@ fp8_sdpa_fused_kernel_impl(`
`2136`	`2137`	`at::native::cpublas::brgemm_release();`
`2137`	`2138`	`});`
`2138`	`2139`	`}`
	`2140`	`+#endif // CPUBLAS_BRGEMM_F8F8F32`
`2139`	`2141`
`2140`	`2142`	`template <typename scalar_t, typename mask_t, int64_t q_split_size, int64_t kv_split_size>`
`2141`	`2143`	`inline typename std::enable_if_t<std::is_same_v<scalar_t, unsigned char>, void>`
`@@ -2304,6 +2306,7 @@ void int8_sdpa_fused_kernel(`
`2304`	`2306`	`}`
`2305`	`2307`	`}`
`2306`	`2308`
	`2309`	`+#if defined(CPUBLAS_BRGEMM_F8F8F32)`
`2307`	`2310`	`void fp8_sdpa_fused_kernel(`
`2308`	`2311`	`const at::Tensor& output,`
`2309`	`2312`	`const at::Tensor& query,`
`@@ -2380,6 +2383,7 @@ void fp8_sdpa_fused_kernel(`
`2380`	`2383`	`});`
`2381`	`2384`	`}`
`2382`	`2385`	`}`
	`2386`	`+#endif // CPUBLAS_BRGEMM_F8F8F32`
`2383`	`2387`	`#endif // CPU_CAPABILITY_AVX512`
`2384`	`2388`
`2385`	`2389`	`at::Tensor int8_sdpa_math_kernel(`