[SYCL] Add sigmoid in intel math functions (#20738)

jinge90 · web-flow · commit c757480800a9 · 2025-11-26T07:47:27.000+01:00
Signed-off-by: jinge90 &lt;ge.jin@intel.com&gt;
diff --git a/libdevice/device_imf.hpp b/libdevice/device_imf.hpp
@@ -700,5 +700,36 @@ template <typename Ty> static inline Ty __srhadd(Ty x, Ty y) {
   return __spirv_ocl_s_rhadd(x, y);
 #endif
 }
+
+static inline float __fsigm(float x) {
+#if defined(__LIBDEVICE_HOST_IMPL__)
+  return 1.0f / (1.0f + __builtin_expf(-x));
+#elif defined(__SPIR__) || defined(__SPIRV__)
+  return 1.0f / (1.0f + __spirv_ocl_exp(-x));
+#endif
+}
+
+static inline _iml_half __fsigm(_iml_half x) {
+#if defined(__LIBDEVICE_HOST_IMPL__)
+  float tmp_x = __half2float(x.get_internal());
+  float res = 1.0f / (1.0f + __builtin_expf(-tmp_x));
+  return _iml_half(__float2half(res));
+#elif defined(__SPIR__) || defined(__SPIRV__)
+  _iml_half_internal tmp_x = x.get_internal();
+  float res_f = 1.0f / (1.0f + __half2float(__spirv_ocl_exp(-tmp_x)));
+  return __float2half(res_f);
+#endif
+}
+
+static inline uint16_t __fsigm(uint16_t x) {
+  float tmp_x = __bfloat162float(x);
+  float res;
+#if defined(__LIBDEVICE_HOST_IMPL__)
+  res = 1.0f / (1.0f + __builtin_expf(-tmp_x));
+#elif defined(__SPIR__) || defined(__SPIRV__)
+  res = 1.0f / (1.0f + __spirv_ocl_exp(-tmp_x));
+#endif
+  return __float2bfloat16(res, __IML_RTE);
+}
 #endif // __LIBDEVICE_IMF_ENABLED__
 #endif // __LIBDEVICE_DEVICE_IMF_H__
diff --git a/libdevice/imf/imf_inline_bf16.cpp b/libdevice/imf/imf_inline_bf16.cpp
@@ -70,4 +70,9 @@ DEVICE_EXTERN_C_INLINE
 _iml_bf16_internal __devicelib_imf_truncbf16(_iml_bf16_internal a) {
   return __trunc(_iml_bf16(a)).get_internal();
 }
+
+DEVICE_EXTERN_C_INLINE
+_iml_bf16_internal __devicelib_imf_fsigmbf16(_iml_bf16_internal x) {
+  return __fsigm(x);
+}
 #endif
diff --git a/libdevice/imf/imf_inline_fp32.cpp b/libdevice/imf/imf_inline_fp32.cpp
@@ -130,4 +130,14 @@ DEVICE_EXTERN_C_INLINE float __devicelib_imf_invf(float a) { return 1.0f / a; }
 DEVICE_EXTERN_C_INLINE float __devicelib_imf_copysignf(float a, float b) {
   return __copysign(a, b);
 }
+
+DEVICE_EXTERN_C_INLINE float __devicelib_imf_fsigmf(float x) {
+  return __fsigm(x);
+}
+
+DEVICE_EXTERN_C_INLINE
+_iml_half_internal __devicelib_imf_fsigmf16(_iml_half_internal x) {
+  _iml_half hx(x);
+  return __fsigm(hx).get_internal();
+}
 #endif /*__LIBDEVICE_IMF_ENABLED__*/
diff --git a/libdevice/imf_wrapper.cpp b/libdevice/imf_wrapper.cpp
@@ -2344,4 +2344,21 @@ float __devicelib_imf_sqrtf_rz(float);
 
 DEVICE_EXTERN_C_INLINE
 float __imf_sqrtf_rz(float x) { return __devicelib_imf_sqrtf_rz(x); }
+
+/// --------------------------------------------------------------------------
+/// sigmoid(x) function
+/// sigmoid(x) = 1 / (1 + exp(-x))
+/// --------------------------------------------------------------------------
+DEVICE_EXTERN_C_INLINE float __devicelib_imf_fsigmf(float x);
+
+DEVICE_EXTERN_C_INLINE
+_iml_half_internal __devicelib_imf_fsigmf16(_iml_half_internal x);
+
+DEVICE_EXTERN_C_INLINE _iml_half_internal __imf_fsigmf16(_iml_half_internal x) {
+  return __devicelib_imf_fsigmf16(x);
+}
+
+DEVICE_EXTERN_C_INLINE float __imf_fsigmf(float x) {
+  return __devicelib_imf_fsigmf(x);
+}
 #endif // __LIBDEVICE_IMF_ENABLED__
diff --git a/libdevice/imf_wrapper_bf16.cpp b/libdevice/imf_wrapper_bf16.cpp
@@ -571,4 +571,12 @@ DEVICE_EXTERN_C_INLINE
 _iml_bf16_internal __imf_truncbf16(_iml_bf16_internal a) {
   return __devicelib_imf_truncbf16(a);
 }
+
+DEVICE_EXTERN_C_INLINE
+_iml_bf16_internal __devicelib_imf_fsigmbf16(_iml_bf16_internal x);
+
+DEVICE_EXTERN_C_INLINE
+_iml_bf16_internal __imf_fsigmbf16(_iml_bf16_internal x) {
+  return __devicelib_imf_fsigmbf16(x);
+}
 #endif // __LIBDEVICE_IMF_ENABLED__
diff --git a/sycl/include/sycl/builtins.hpp b/sycl/include/sycl/builtins.hpp
@@ -117,6 +117,7 @@ extern __DPCPP_SYCL_EXTERNAL float __imf_frcp_rd(float x);
 extern __DPCPP_SYCL_EXTERNAL float __imf_frcp_rn(float x);
 extern __DPCPP_SYCL_EXTERNAL float __imf_frcp_ru(float x);
 extern __DPCPP_SYCL_EXTERNAL float __imf_frcp_rz(float x);
+extern __DPCPP_SYCL_EXTERNAL float __imf_fsigmf(float x);
 extern __DPCPP_SYCL_EXTERNAL float __imf_fmaf_rd(float x, float y, float z);
 extern __DPCPP_SYCL_EXTERNAL float __imf_fmaf_rn(float x, float y, float z);
 extern __DPCPP_SYCL_EXTERNAL float __imf_fmaf_ru(float x, float y, float z);
@@ -233,6 +234,7 @@ extern __DPCPP_SYCL_EXTERNAL _Float16 __imf_rsqrtf16(_Float16 x);
 extern __DPCPP_SYCL_EXTERNAL _Float16 __imf_invf16(_Float16 x);
 extern __DPCPP_SYCL_EXTERNAL _Float16 __imf_fmaxf16(_Float16 x, _Float16 y);
 extern __DPCPP_SYCL_EXTERNAL _Float16 __imf_fminf16(_Float16 x, _Float16 y);
+extern __DPCPP_SYCL_EXTERNAL _Float16 __imf_fsigmf16(_Float16 x);
 extern __DPCPP_SYCL_EXTERNAL _Float16 __imf_copysignf16(_Float16 x, _Float16 y);
 extern __DPCPP_SYCL_EXTERNAL float __imf_half2float(_Float16 x);
 extern __DPCPP_SYCL_EXTERNAL float __imf_bfloat162float(uint16_t x);
@@ -323,6 +325,7 @@ extern __DPCPP_SYCL_EXTERNAL uint16_t __imf_ceilbf16(uint16_t x);
 extern __DPCPP_SYCL_EXTERNAL uint16_t __imf_truncbf16(uint16_t x);
 extern __DPCPP_SYCL_EXTERNAL uint16_t __imf_copysignbf16(uint16_t x,
                                                          uint16_t y);
+extern __DPCPP_SYCL_EXTERNAL uint16_t __imf_fsigmbf16(uint16_t x);
 extern __DPCPP_SYCL_EXTERNAL uint16_t __imf_sqrtbf16(uint16_t x);
 extern __DPCPP_SYCL_EXTERNAL uint16_t __imf_rsqrtbf16(uint16_t x);
 extern __DPCPP_SYCL_EXTERNAL double __imf_fma(double x, double y, double z);
diff --git a/sycl/include/sycl/ext/intel/math.hpp b/sycl/include/sycl/ext/intel/math.hpp
@@ -21,6 +21,8 @@ using _iml_half_internal = _Float16;
 using _iml_half_internal = uint16_t;
 #endif
 
+using _iml_bf16_internal = uint16_t;
+
 #include <sycl/bit_cast.hpp>
 #include <sycl/builtins.hpp>
 #include <sycl/ext/intel/math/imf_fp_conversions.hpp>
@@ -43,6 +45,9 @@ _iml_half_internal __imf_ceilf16(_iml_half_internal);
 float __imf_floorf(float);
 double __imf_floor(double);
 _iml_half_internal __imf_floorf16(_iml_half_internal);
+float __imf_fsigmf(float);
+_iml_half_internal __imf_fsigmf16(_iml_half_internal);
+_iml_bf16_internal __imf_fsigmbf16(_iml_bf16_internal);
 float __imf_rintf(float);
 double __imf_rint(double);
 _iml_half_internal __imf_invf16(_iml_half_internal);
@@ -242,6 +247,33 @@ template <typename Tp>
 std::enable_if_t<std::is_same_v<Tp, double>, double> rcp64h(Tp x) {
   return __imf_rcp64h(x);
 }
+/// --------------------------------------------------------------------------
+/// sigmoid(x) function
+/// --------------------------------------------------------------------------
+extern "C" {
+_iml_bf16_internal __imf_fsigmbf16(_iml_bf16_internal x);
+_iml_half_internal __imf_fsigmf16(_iml_half_internal x);
+float __imf_fsigmf(float x);
+};
+
+template <typename Tp>
+std::enable_if_t<std::is_same_v<Tp, sycl::half>, sycl::half> sigmoid(Tp x) {
+  _iml_half_internal xi = sycl::bit_cast<_iml_half_internal>(x);
+  return sycl::bit_cast<sycl::half>(__imf_fsigmf16(xi));
+}
+
+template <typename Tp>
+std::enable_if_t<std::is_same_v<Tp, sycl::ext::oneapi::bfloat16>,
+                 sycl::ext::oneapi::bfloat16>
+sigmoid(Tp x) {
+  _iml_bf16_internal xi = sycl::bit_cast<_iml_bf16_internal>(x);
+  return sycl::bit_cast<sycl::ext::oneapi::bfloat16>(__imf_fsigmbf16(xi));
+}
+
+template <typename Tp>
+std::enable_if_t<std::is_same_v<Tp, float>, float> sigmoid(Tp x) {
+  return __imf_fsigmf(x);
+}
 
 } // namespace ext::intel::math
 } // namespace _V1
diff --git a/sycl/test-e2e/DeviceLib/imf/imf_utils.hpp b/sycl/test-e2e/DeviceLib/imf/imf_utils.hpp
@@ -1,6 +1,7 @@
 #pragma once
 #include <cassert>
 #include <climits>
+#include <cmath>
 #include <cstdint>
 #include <initializer_list>
 #include <iostream>
@@ -51,6 +52,58 @@ template <> class imf_utils_default_equ<uint64_t> {
   }
 };
 
+template <class Ty> class imf_utils_fp_equ {
+public:
+  bool operator()(Ty x, Ty y) { return x == y; }
+};
+
+template <> class imf_utils_fp_equ<float> {
+public:
+  bool operator()(float x, float y) {
+    if ((__builtin_isinf_sign(x) * __builtin_isinf_sign(y)) == 1)
+      return true;
+    if (__builtin_isnan(x) || __builtin_isnan(y))
+      return false;
+    // Simple check for 2 fp32
+    const float relative_eps = 1e-4f;
+    return std::fabs(x - y) <
+           relative_eps * std::fmax(std::fabs(x), std::fabs(y));
+  }
+};
+
+template <> class imf_utils_fp_equ<sycl::half> {
+public:
+  bool operator()(sycl::half x, sycl::half y) {
+    float xf = static_cast<float>(x);
+    float yf = static_cast<float>(y);
+    if ((__builtin_isinf_sign(xf) * __builtin_isinf_sign(yf)) == 1)
+      return true;
+    if (__builtin_isnan(xf) || __builtin_isnan(yf))
+      return false;
+    // Simple check for 2 fp16
+    const float relative_eps = 1e-3f;
+    return std::fabs(xf - yf) <
+           relative_eps * std::fmax(std::fabs(xf), std::fabs(yf));
+  }
+};
+
+template <> class imf_utils_fp_equ<sycl::ext::oneapi::bfloat16> {
+public:
+  bool operator()(sycl::ext::oneapi::bfloat16 x,
+                  sycl::ext::oneapi::bfloat16 y) {
+    float xf = static_cast<float>(x);
+    float yf = static_cast<float>(y);
+    if ((__builtin_isinf_sign(xf) * __builtin_isinf_sign(yf)) == 1)
+      return true;
+    if (__builtin_isnan(xf) || __builtin_isnan(yf))
+      return false;
+    // Simple check for 2 bf16
+    const float relative_eps = 1e-3f;
+    return std::fabs(xf - yf) <
+           relative_eps * std::fmax(std::fabs(xf), std::fabs(yf));
+  }
+};
+
 // Used to test half precision utils
 template <class InputTy, class OutputTy, class FuncTy,
           class EquTy = imf_utils_default_equ<OutputTy>>
@@ -72,6 +125,42 @@ void test_host(std::initializer_list<InputTy> Input,
   }
 }
 
+template <class InputTy, class FuncTy, class EquTy = imf_utils_fp_equ<InputTy>>
+void test(sycl::queue &q, std::initializer_list<InputTy> Input, FuncTy Func,
+          int Line = __builtin_LINE()) {
+  auto Size = Input.size();
+  std::vector<InputTy> HostRef(Size);
+  for (size_t Idx = 0; Idx < Size; ++Idx) {
+    HostRef[Idx] = Func(*(std::begin(Input) + Idx));
+  }
+
+  sycl::buffer<InputTy> InBuf(Size);
+  {
+    sycl::host_accessor InAcc(InBuf, sycl::write_only);
+    int i = 0;
+    for (auto x : Input)
+      InAcc[i++] = x;
+  }
+
+  sycl::buffer<InputTy> OutBuf(Size);
+  q.submit([&](sycl::handler &CGH) {
+     sycl::accessor InAcc(InBuf, CGH, sycl::read_only);
+     sycl::accessor OutAcc(OutBuf, CGH, sycl::write_only);
+     CGH.parallel_for(Size,
+                      [=](sycl::id<1> Id) { OutAcc[Id] = Func(InAcc[Id]); });
+   }).wait();
+
+  sycl::host_accessor Acc(OutBuf, sycl::read_only);
+  for (size_t Idx = 0; Idx < Size; ++Idx) {
+    if (EquTy()(HostRef[Idx], Acc[Idx]))
+      continue;
+    std::cout << "Mismatch at line " << Line << "[" << Idx << "]: " << Acc[Idx]
+              << " != " << HostRef[Idx] << ", input was "
+              << *(std::begin(Input) + Idx) << std::endl;
+    assert(false);
+  }
+}
+
 template <class InputTy, class OutputTy, class FuncTy,
           class EquTy = imf_utils_default_equ<OutputTy>>
 void test(sycl::queue &q, std::initializer_list<InputTy> Input,
diff --git a/sycl/test-e2e/DeviceLib/imf/sigmoid.cpp b/sycl/test-e2e/DeviceLib/imf/sigmoid.cpp
@@ -0,0 +1,26 @@
+// RUN: %{build} -o %t1.out
+// RUN: %{run} %t1.out
+#include "imf_utils.hpp"
+#include <sycl/ext/intel/math.hpp>
+
+namespace sycl_imf = sycl::ext::intel::math;
+
+int main(int, char **) {
+  sycl::queue device_queue(sycl::default_selector_v);
+  std::initializer_list<float> input_vals = {
+      -0x1.4p+3, -0x1p+3,  -0x1.8p+2, -0x1p+1,  -0x1.8p-1,
+      -0x1p-1,   -0x1p-2,  0x0p+0,    0x1p-2,   0x1p-1,
+      0x1p+2,    0x1.8p+2, 0x1p+3,    0x1.4p+3, 0x1.8p+3};
+  test(device_queue, input_vals, F(sycl_imf::sigmoid));
+
+  std::initializer_list<sycl::half> input_vals_fp16 = {
+      -0x1p+3, -0x1.8p+2, -0x1p+1, -0x1.8p-1, -0x1p-1,  -0x1p-2,
+      0x0p+0,  0x1p-2,    0x1p-1,  0x1p+2,    0x1.8p+2, 0x1p+3};
+  test(device_queue, input_vals_fp16, F(sycl_imf::sigmoid));
+
+  std::initializer_list<sycl::ext::oneapi::bfloat16> input_vals_bf16 = {
+      -0x1p+3, -0x1.8p+2, -0x1p+1, -0x1.8p-1, -0x1p-1,  -0x1p-2,
+      0x0p+0,  0x1p-2,    0x1p-1,  0x1p+2,    0x1.8p+2, 0x1p+3};
+  test(device_queue, input_vals_bf16, F(sycl_imf::sigmoid));
+  return 0;
+}