minor corrections and added some support for llvm-mca profiler

JishinMaster · JishinMaster · commit 1c4235d9abaa · 2022-11-01T16:32:06.000+01:00
diff --git a/simd_test.c b/simd_test.c
@@ -6059,13 +6059,13 @@ printf("\n");
 
     clock_gettime(CLOCK_REALTIME, &start);
     for (l = 0; l < loop; l++)
-        tan256d(inoutd, inoutd2, len);
+        tan512d(inoutd, inoutd2, len);
     clock_gettime(CLOCK_REALTIME, &stop);
     elapsed = ((stop.tv_sec - start.tv_sec) * 1e6 + (stop.tv_nsec - start.tv_nsec) * 1e-3) / (double) loop;
     printf("tan512d %d %lf\n", len, elapsed);
 
     l2_errd(inoutd_ref, inoutd2, len);
-    // for(int i = 0;  i < len; i++) printf("%lf %lf %lf \n",inoutd[i],inoutd_ref[i],inoutd2[i]);
+    // for(int i = 0;  i < 512len; i++) printf("%lf %lf %lf \n",inoutd[i],inoutd_ref[i],inoutd2[i]);
 #endif
 
     printf("\n");
diff --git a/simd_utils_avx512_float.h b/simd_utils_avx512_float.h
@@ -2493,6 +2493,10 @@ static inline void tanh512f(float *src, float *dst, int len)
 #if 1
 static inline v16sf tan512f_ps(v16sf xx)
 {
+#ifdef LLVMMCA
+    __asm volatile("# LLVM-MCA-BEGIN tan512f_ps" ::
+                       : "memory");
+#endif
     v16sf x, y, z, zz;
     v16si j;  // long?
     __mmask16 sign, xsupem4;
@@ -2537,7 +2541,10 @@ static inline v16sf tan512f_ps(v16sf xx)
 
     sign = _mm512_cmp_ps_mask(xx, _mm512_setzero_ps(), _CMP_LT_OS);  // 0xFFFFFFFF if xx < 0.0
     y = _mm512_mask_blend_ps(sign, y, _mm512_xor_ps(*(v16sf *) _ps512_neg_sign_mask, y));
-
+#ifdef LLVMMCA
+    __asm volatile("# LLVM-MCA-END tan512f_ps" ::
+                       : "memory");
+#endif
     return (y);
 }
 
diff --git a/simd_utils_avx_float.h b/simd_utils_avx_float.h
@@ -47,6 +47,10 @@ _CMP_TRUE_US  0x1f /* True (unordered, signaling)  */
 
 static inline v8sf log10256_ps(v8sf x)
 {
+#ifdef LLVMMCA
+    __asm volatile("# LLVM-MCA-BEGIN log10256_ps" ::
+                       : "memory");
+#endif
     v8si imm0;
     v8sf one = *(v8sf *) _ps256_1;
 
@@ -97,6 +101,10 @@ static inline v8sf log10256_ps(v8sf x)
     x = _mm256_fmadd_ps_custom(e, *(v8sf *) _ps256_cephes_L102A, z);
 
     x = _mm256_or_ps(x, invalid_mask);  // negative arg will be NAN
+#ifdef LLVMMCA
+    __asm volatile("# LLVM-MCA-END log10256_ps" ::
+                       : "memory");
+#endif
     return x;
 }
 
@@ -2745,6 +2753,10 @@ static inline void tanh256f(float *src, float *dst, int len)
 #if 1
 static inline v8sf tan256f_ps(v8sf xx)
 {
+#ifdef LLVMMCA
+    __asm volatile("# LLVM-MCA-BEGIN tan256f_ps" ::
+                       : "memory");
+#endif
     v8sf x, y, z, zz;
     v8si j;  // long?
     v8sf sign, xsupem4;
@@ -2821,7 +2833,10 @@ static inline v8sf tan256f_ps(v8sf xx)
 
     sign = _mm256_cmp_ps(xx, _mm256_setzero_ps(), _CMP_LT_OS);  // 0xFFFFFFFF if xx < 0.0
     y = _mm256_blendv_ps(y, _mm256_xor_ps(*(v8sf *) _ps256_neg_sign_mask, y), sign);
-
+#ifdef LLVMMCA
+    __asm volatile("# LLVM-MCA-END tan256f_ps" ::
+                       : "memory");
+#endif
     return (y);
 }
 
diff --git a/simd_utils_constants.h b/simd_utils_constants.h
@@ -185,9 +185,8 @@ typedef float32x4x2_t v4sfx2;
 
 #else
 
-typedef __m128 v4sf;    // vector of 4 float (sse1)
-typedef __m128i v4si;   // vector of 4 int (sse2)
-typedef __m128i v2sid;  // vector of 2 int64 (sse2)
+typedef __m128 v4sf;   // vector of 4 float (sse1)
+typedef __m128i v4si;  // vector of 4 int (sse2)
 typedef struct {
     v4sf val[2];
 } v4sfx2;
@@ -207,8 +206,8 @@ typedef struct {
 #define ROUNDTOCEIL (_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC)
 #define ROUNDTOZERO (_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC)
 
-typedef __m128d v2sd;  // vector of 2 double (sse)
-typedef __m128i v2si;  // vector of 2 int 64 (sse)
+typedef __m128d v2sd;   // vector of 2 double (sse)
+typedef __m128i v2sid;  // vector of 2 int64 (sse2)
 
 typedef struct {
     v2sd val[2];
@@ -1257,7 +1256,7 @@ typedef __vector char v16s8;
 #endif
 
 /// PRINT FUNCTIONS */
-#if 1
+#if 0
 
 #ifdef SSE
 /*
diff --git a/simd_utils_sse_double.h b/simd_utils_sse_double.h
@@ -460,7 +460,7 @@ static inline void vectorSlope128d(double *dst, int len, double offset, double s
 // in SSE, missing _mm_cvtepi64_pd, _mm_cvttpd_epi64
 // See : https://stackoverflow.com/questions/41144668/how-to-efficiently-perform-double-int64-conversions-with-sse-avx
 
-static inline v2sd _mm_cvtepi64_pd_custom(v2si x)
+static inline v2sd _mm_cvtepi64_pd_custom(v2sid x)
 {
 #if 0
     //Signed
@@ -473,7 +473,7 @@ static inline v2sd _mm_cvtepi64_pd_custom(v2si x)
 #endif
 }
 
-static inline v2si _mm_cvttpd_epi64_custom(v2sd x)
+static inline v2sid _mm_cvttpd_epi64_custom(v2sd x)
 {
     // Signed
 #if 0
@@ -495,7 +495,7 @@ static inline void sincos_pd(v2sd x, v2sd *s, v2sd *c)
 {
     v2sd xmm1, xmm2, xmm3 = _mm_setzero_pd(), sign_bit_sin, y;
 
-    v2si emm0, emm2, emm4;
+    v2sid emm0, emm2, emm4;
 
     sign_bit_sin = x;
     /* take the absolute value */
@@ -510,21 +510,21 @@ static inline void sincos_pd(v2sd x, v2sd *s, v2sd *c)
     /* store the integer part of y in emm2 */
     emm2 = _mm_cvttpd_epi64_custom(y);
     /* j=(j+1) & (~1) (see the cephes sources) */
-    emm2 = _mm_add_epi64(emm2, *(v2si *) _pi64_1);
+    emm2 = _mm_add_epi64(emm2, *(v2sid *) _pi64_1);
 
-    emm2 = _mm_and_si128(emm2, *(v2si *) _pi64_inv1);
+    emm2 = _mm_and_si128(emm2, *(v2sid *) _pi64_inv1);
     y = _mm_cvtepi64_pd_custom(emm2);
     emm4 = emm2;
 
     /* get the swap sign flag for the sine */
-    emm0 = _mm_and_si128(emm2, *(v2si *) _pi64_4);
+    emm0 = _mm_and_si128(emm2, *(v2sid *) _pi64_4);
     // print2i(emm0);
     emm0 = _mm_slli_epi64(emm0, 61);
     // print2i(emm0);
     v2sd swap_sign_bit_sin = _mm_castsi128_pd(emm0);
 
     /* get the polynom selection mask for the sine*/
-    emm2 = _mm_and_si128(emm2, *(v2si *) _pi64_2);
+    emm2 = _mm_and_si128(emm2, *(v2sid *) _pi64_2);
     // SSE3
     emm2 = _mm_cmpeq_epi64(emm2, _mm_setzero_si128());
     v2sd poly_mask = _mm_castsi128_pd(emm2);
@@ -535,8 +535,8 @@ static inline void sincos_pd(v2sd x, v2sd *s, v2sd *c)
     x = _mm_fmadd_pd_custom(y, *(v2sd *) _pd_minus_cephes_DP2, x);
     x = _mm_fmadd_pd_custom(y, *(v2sd *) _pd_minus_cephes_DP3, x);
 
-    emm4 = _mm_sub_epi64(emm4, *(v2si *) _pi64_2);
-    emm4 = _mm_andnot_si128(emm4, *(v2si *) _pi64_4);
+    emm4 = _mm_sub_epi64(emm4, *(v2sid *) _pi64_2);
+    emm4 = _mm_andnot_si128(emm4, *(v2sid *) _pi64_4);
     emm4 = _mm_slli_epi64(emm4, 61);
     v2sd sign_bit_cos = _mm_castsi128_pd(emm4);
 
@@ -977,7 +977,7 @@ static inline v2sd exp_pd(v2sd x)
 {
     v2sd tmp = _mm_setzero_pd(), fx;
 
-    v2si emm0;
+    v2sid emm0;
 
     v2sd one = *(v2sd *) _pd_1;
     v2sd two = *(v2sd *) _pd_2;
@@ -1015,7 +1015,7 @@ static inline v2sd exp_pd(v2sd x)
 
     /* build 2^n */
     emm0 = _mm_cvttpd_epi64_custom(fx);
-    emm0 = _mm_add_epi64(emm0, *(v2si *) _pi64_0x7f);
+    emm0 = _mm_add_epi64(emm0, *(v2sid *) _pi64_0x7f);
     emm0 = _mm_slli_epi64(emm0, 52);
     v2sd pow2n = _mm_castsi128_pd(emm0);
 
@@ -1025,7 +1025,7 @@ static inline v2sd exp_pd(v2sd x)
 
 static inline v2sd log_pd(v2sd x)
 {
-    v2si emm0;
+    v2sid emm0;
     v2sd one = *(v2sd *) _pd_1;
 
     v2sd invalid_mask = _mm_cmple_pd(x, _mm_setzero_pd());
diff --git a/simd_utils_sse_float.h b/simd_utils_sse_float.h
@@ -20,6 +20,11 @@
 
 static inline v4sf log10_ps(v4sf x)
 {
+#ifdef LLVMMCA
+    __asm volatile("# LLVM-MCA-BEGIN log10_ps" ::
+                       : "memory");
+#endif
+
     v4si emm0;
     v4sf one = *(v4sf *) _ps_1;
     v4sf invalid_mask = _mm_cmple_ps(x, _mm_setzero_ps());
@@ -62,6 +67,10 @@ static inline v4sf log10_ps(v4sf x)
     x = _mm_fmadd_ps_custom(e, *(v4sf *) _ps_cephes_L102A, z);
 
     x = _mm_or_ps(x, invalid_mask);  // negative arg will be NAN
+#ifdef LLVMMCA
+    __asm volatile("# LLVM-MCA-END log10_ps" ::
+                       : "memory");
+#endif
     return x;
 }
 
@@ -2694,6 +2703,10 @@ static inline void tanh128f(float *src, float *dst, int len)
 
 static inline v4sf tanf_ps(v4sf xx)
 {
+#ifdef LLVMMCA
+    __asm volatile("# LLVM-MCA-BEGIN tanf_ps" ::
+                       : "memory");
+#endif
     v4sf x, y, z, zz;
     v4si j;  // long?
     v4sf sign, xsupem4;
@@ -2740,7 +2753,10 @@ static inline v4sf tanf_ps(v4sf xx)
     // xor(rcp(y)) gives not good enough result
     y = _mm_blendv_ps(y, _mm_div_ps(*(v4sf *) _ps_min1, y), (v4sf) (jandtwo));
     y = _mm_xor_ps(y, sign);
-
+#ifdef LLVMMCA
+    __asm volatile("# LLVM-MCA-END tanf_ps" ::
+                       : "memory");
+#endif
     return (y);
 }