Add conv optimization and updates, including mathType, argument data type, etc.

Ziminli · Ziminli · commit 9e71f53ae88b · 2024-11-28T10:21:10.000+08:00
diff --git a/include/ops/conv/conv.h b/include/ops/conv/conv.h
@@ -15,9 +15,9 @@ __C __export infiniopStatus_t infiniopCreateConvDescriptor(infiniopHandle_t hand
                                                            infiniopTensorDescriptor_t y,
                                                            infiniopTensorDescriptor_t x,
                                                            infiniopTensorDescriptor_t w,
-                                                           void *pads,
-                                                           void *strides,
-                                                           void *dilations,
+                                                           uint64_t const *pads,
+                                                           int64_t const *strides,
+                                                           uint64_t const *dilations,
                                                            uint64_t n);
 
 __C __export infiniopStatus_t infiniopGetConvWorkspaceSize(infiniopConvDescriptor_t desc, uint64_t *size);
diff --git a/operatorspy/tests/conv.py b/operatorspy/tests/conv.py
@@ -39,22 +39,25 @@ class ConvDescriptor(Structure):
 
 
 def conv(x, w, stride, padding, dilation):
-    match len(x.shape) - 2:
-        case 1:
-            return F.conv1d(
-                x, w, stride=stride, padding=padding, dilation=dilation
-            )
-        case 2:
-            return F.conv2d(
-                x, w, stride=stride, padding=padding, dilation=dilation
-            )
-        case 3:
-            return F.conv3d(
-                x, w, stride=stride, padding=padding, dilation=dilation
-            )
-        case _:
-            print("Error: Pytorch -> Unsupported tensor dimension")
-            return None
+    ndim = len(x.shape) - 2
+    conv_func_map = {
+        1: F.conv1d,
+        2: F.conv2d,
+        3: F.conv3d
+    }
+
+    if ndim not in conv_func_map:
+        print("Error: Pytorch -> Unsupported tensor dimension")
+        return None
+
+    # Select the appropriate convolution function
+    conv_func = conv_func_map[ndim]
+
+    if PROFILE:
+        ans = conv_func(x, w, stride=stride, padding=padding, dilation=dilation)
+        torch.cuda.synchronize()
+        return ans
+    return conv_func(x, w, stride=stride, padding=padding, dilation=dilation)
 
 
 # infer the shape of the output given the inputs for a N-ary convolution
diff --git a/src/ops/conv/cpu/conv_cpu.cc b/src/ops/conv/cpu/conv_cpu.cc
@@ -17,9 +17,9 @@ infiniopStatus_t cpuCreateConvDescriptor(infiniopHandle_t,
                                          infiniopTensorDescriptor_t y,
                                          infiniopTensorDescriptor_t x,
                                          infiniopTensorDescriptor_t w,
-                                         void const *pads,
-                                         void const *strides,
-                                         void const *dilations,
+                                         uint64_t const *pads,
+                                         int64_t const *strides,
+                                         uint64_t const *dilations,
                                          uint64_t n) {
     uint64_t ndim = y->ndim;
     if (ndim < 3 || ndim != x->ndim || ndim != w->ndim) {
@@ -36,27 +36,39 @@ infiniopStatus_t cpuCreateConvDescriptor(infiniopHandle_t,
     }
 
     uint64_t y_size = getTotalSize(y->shape, ndim);
-    const auto pads_ = reinterpret_cast<uint64_t const *>(pads);
-    uint64_t padded_x_size = requirePadding(pads_, ndim) ? getPaddedSize(ndim, x->shape, pads_) : 0;
+    uint64_t padded_x_size = requirePadding(pads, ndim) ? getPaddedSize(ndim, x->shape, pads) : 0;
     uint64_t *x_shape = new uint64_t[ndim];
     uint64_t *w_shape = new uint64_t[ndim];
     uint64_t *y_shape = new uint64_t[ndim];
+    uint64_t *pads_ = new uint64_t[n];
+    int64_t *strides_ = new int64_t[n];
+    uint64_t *dilations_ = new uint64_t[n];
     memcpy(x_shape, x->shape, ndim * sizeof(uint64_t));
     memcpy(w_shape, w->shape, ndim * sizeof(uint64_t));
     memcpy(y_shape, y->shape, ndim * sizeof(uint64_t));
+    memcpy(pads_, pads, n * sizeof(*pads));
+    memcpy(strides_, strides, n * sizeof(*strides));
+    memcpy(dilations_, dilations, n * sizeof(*dilations));
+
+    uint64_t *padded_shape = nullptr;
+    if (padded_x_size > 0) {
+        padded_shape = new uint64_t[ndim];
+        getPaddedShape(ndim, x_shape, pads_, padded_shape);
+    }
 
     *desc_ptr = new ConvCpuDescriptor{
         DevCpu,
         y->dt,
         ndim,
         y_size,
         padded_x_size,
+        padded_shape,
         x_shape,
         w_shape,
         y_shape,
-        reinterpret_cast<uint64_t const *>(pads),
-        reinterpret_cast<int64_t const *>(strides),
-        reinterpret_cast<uint64_t const *>(dilations),
+        pads_,
+        strides_,
+        dilations_,
     };
 
     return STATUS_SUCCESS;
@@ -71,9 +83,13 @@ infiniopStatus_t cpuGetConvWorkspaceSize(ConvCpuDescriptor_t desc, uint64_t *siz
 }
 
 infiniopStatus_t cpuDestroyConvDescriptor(ConvCpuDescriptor_t desc) {
+    delete[] desc->padded_shape;
     delete[] desc->x_shape;
     delete[] desc->w_shape;
     delete[] desc->y_shape;
+    delete[] desc->pads;
+    delete[] desc->strides;
+    delete[] desc->dilations;
     delete desc;
     return STATUS_SUCCESS;
 }
@@ -121,6 +137,7 @@ void _applyConv(ConvCpuDescriptor_t desc, Ydata *y, Xdata const *x,
 
     // perform all the convolutions along this axis
     for (size_t i = 0; i < steps; ++i, ++y_index) {
+#pragma unroll
         // perform a single convolution
         for (size_t k = 0; k < kernel_size; ++k) {
             // calculate the current indices
@@ -129,7 +146,7 @@ void _applyConv(ConvCpuDescriptor_t desc, Ydata *y, Xdata const *x,
 
             // base case (last dimension)
             if (ndim == desc->ndim - 1) {
-                if (desc->dtype == F16) {
+                if constexpr (std::is_same_v<Xdata, uint16_t>) {
                     y[y_index] += f16_to_f32(x[curr_x_index]) * f16_to_f32(w[curr_w_index]);
                 } else {
                     y[y_index] += x[curr_x_index] * w[curr_w_index];
@@ -173,11 +190,9 @@ void _conv_cpu(ConvCpuDescriptor_t desc, void *workspace, uint64_t workspace_siz
                Ydata *y, Xdata const *x, Xdata const *w) {
     if (desc->padded_x_size > 0) {
         auto padded_x = reinterpret_cast<Xdata *>(workspace);
-        uint64_t padded_shape[desc->ndim];
         std::fill(padded_x, padded_x + desc->padded_x_size, 0);
-        getPaddedShape(desc->ndim, desc->x_shape, desc->pads, padded_shape);
-        fillPaddedInput<Xdata>(desc, padded_shape, padded_x, x, desc->pads, 0, 0, 0);
-        applyConv<Xdata, Ydata>(desc, y, padded_x, w, padded_shape);
+        fillPaddedInput<Xdata>(desc, desc->padded_shape, padded_x, x, desc->pads, 0, 0, 0);
+        applyConv<Xdata, Ydata>(desc, y, padded_x, w, desc->padded_shape);
     } else {
         applyConv<Xdata, Ydata>(desc, y, x, w, desc->x_shape);
     }
diff --git a/src/ops/conv/cpu/conv_cpu.h b/src/ops/conv/cpu/conv_cpu.h
@@ -13,6 +13,7 @@ struct ConvCpuDescriptor {
     uint64_t ndim;
     uint64_t y_size;
     uint64_t padded_x_size;
+    uint64_t const *padded_shape;
     uint64_t const *x_shape;
     uint64_t const *w_shape;
     uint64_t const *y_shape;
@@ -28,9 +29,9 @@ infiniopStatus_t cpuCreateConvDescriptor(infiniopHandle_t,
                                          infiniopTensorDescriptor_t y,
                                          infiniopTensorDescriptor_t x,
                                          infiniopTensorDescriptor_t w,
-                                         void const *pads,
-                                         void const *strides,
-                                         void const *dilations,
+                                         uint64_t const *pads,
+                                         int64_t const *strides,
+                                         uint64_t const *dilations,
                                          uint64_t n);
 
 infiniopStatus_t cpuGetConvWorkspaceSize(ConvCpuDescriptor_t desc, uint64_t *size);
diff --git a/src/ops/conv/cuda/conv.cc b/src/ops/conv/cuda/conv.cc
@@ -7,9 +7,9 @@ infiniopStatus_t cudaCreateConvDescriptor(CudaHandle_t handle,
                                           infiniopTensorDescriptor_t y,
                                           infiniopTensorDescriptor_t x,
                                           infiniopTensorDescriptor_t w,
-                                          void const *pads,
-                                          void const *strides,
-                                          void const *dilations,
+                                          uint64_t const *pads,
+                                          int64_t const *strides,
+                                          uint64_t const *dilations,
                                           uint64_t n) {
     uint64_t ndim = y->ndim;
     if (ndim < 3 || ndim != x->ndim || ndim != w->ndim) {
@@ -33,13 +33,10 @@ infiniopStatus_t cudaCreateConvDescriptor(CudaHandle_t handle,
     int32_t *x_shape = new int32_t[new_ndim];
     int32_t *w_shape = new int32_t[new_ndim];
     int32_t *y_shape = new int32_t[new_ndim];
-    auto pads_ = reinterpret_cast<uint64_t const *>(pads);
-    auto strides_ = reinterpret_cast<int64_t const *>(strides);
-    auto dilations_ = reinterpret_cast<uint64_t const *>(dilations);
     for (size_t i = 0; i < new_ndim; ++i) {
-        pad[i] = i < ndim - 2 ? static_cast<int32_t>(pads_[i]) : 0;
-        stride[i] = i < ndim - 2 ? static_cast<int32_t>(strides_[i]) : 1;
-        dilation[i] = i < ndim - 2 ? static_cast<int32_t>(dilations_[i]) : 1;
+        pad[i] = i < ndim - 2 ? static_cast<int32_t>(pads[i]) : 0;
+        stride[i] = i < ndim - 2 ? static_cast<int32_t>(strides[i]) : 1;
+        dilation[i] = i < ndim - 2 ? static_cast<int32_t>(dilations[i]) : 1;
         x_shape[i] = i < ndim ? static_cast<int32_t>(x->shape[i]) : 1;
         w_shape[i] = i < ndim ? static_cast<int32_t>(w->shape[i]) : 1;
         y_shape[i] = i < ndim ? static_cast<int32_t>(y->shape[i]) : 1;
@@ -92,6 +89,7 @@ infiniopStatus_t cudaCreateConvDescriptor(CudaHandle_t handle,
     checkCudnnError(cudnnCreateTensorDescriptor(&y_desc));
     checkCudnnError(cudnnSetTensorNdDescriptorEx(y_desc, CUDNN_TENSOR_NCHW, static_cast<cudnnDataType_t>(tensor_dt), new_ndim, y_shape));
 
+    cudnnSetConvolutionMathType(op_desc, CUDNN_TENSOR_OP_MATH_ALLOW_CONVERSION);
 
     // tuning: get the best algorithm
     int requestedAlgoCount = 1;
diff --git a/src/ops/conv/cuda/conv.cuh b/src/ops/conv/cuda/conv.cuh
@@ -28,9 +28,9 @@ infiniopStatus_t cudaCreateConvDescriptor(CudaHandle_t,
                                           infiniopTensorDescriptor_t y,
                                           infiniopTensorDescriptor_t x,
                                           infiniopTensorDescriptor_t w,
-                                          void const *pads,
-                                          void const *strides,
-                                          void const *dilations,
+                                          uint64_t const *pads,
+                                          int64_t const *strides,
+                                          uint64_t const *dilations,
                                           uint64_t n);
 
 infiniopStatus_t cudaGetConvWorkspaceSize(ConvCudaDescriptor_t desc, uint64_t *size);
diff --git a/src/ops/conv/operator.cc b/src/ops/conv/operator.cc
@@ -16,9 +16,9 @@ __C infiniopStatus_t infiniopCreateConvDescriptor(
     infiniopTensorDescriptor_t y,
     infiniopTensorDescriptor_t x,
     infiniopTensorDescriptor_t w,
-    void *pads,
-    void *strides,
-    void *dilations,
+    uint64_t const *pads,
+    int64_t const *strides,
+    uint64_t const *dilations,
     uint64_t n) {
     switch (handle->device) {
 #ifdef ENABLE_CPU