aseaday
diff --git a/‎CMakeLists.txt
Lines changed: 9 additions & 5 deletions b/‎CMakeLists.txt
Lines changed: 9 additions & 5 deletions
diff --git a/‎lightseq/csrc/kernels/CMakeLists.txt
Lines changed: 2 additions & 1 deletion b/‎lightseq/csrc/kernels/CMakeLists.txt
Lines changed: 2 additions & 1 deletion
diff --git a/‎lightseq/csrc/kernels/crf.cu
Lines changed: 18 additions & 11 deletions b/‎lightseq/csrc/kernels/crf.cu
Lines changed: 18 additions & 11 deletions
diff --git a/‎lightseq/csrc/kernels/includes/kernels.h
Lines changed: 1 addition & 1 deletion b/‎lightseq/csrc/kernels/includes/kernels.h
Lines changed: 1 addition & 1 deletion
diff --git a/‎lightseq/csrc/kernels/transform_kernels.cu
Lines changed: 72 additions & 16 deletions b/‎lightseq/csrc/kernels/transform_kernels.cu
Lines changed: 72 additions & 16 deletions
diff --git a/‎lightseq/csrc/kernels/transform_kernels_new.cu
Lines changed: 88 additions & 14 deletions b/‎lightseq/csrc/kernels/transform_kernels_new.cu
Lines changed: 88 additions & 14 deletions
diff --git a/‎lightseq/csrc/layers_new/CMakeLists.txt
Lines changed: 1 addition & 1 deletion b/‎lightseq/csrc/layers_new/CMakeLists.txt
Lines changed: 1 addition & 1 deletion
@@ -40,11 +40,15 @@ if(USE_NEW_ARCH)
   set(CMAKE_CUDA_ARCHITECTURES 70 75 80 86 87)
 
   if(DEBUG_MODE)
-    if(FP16_MODE)
-      add_definitions(-DDEBUG_TYPE=FP16)
-    else()
-      add_definitions(-DDEBUG_TYPE=FP32)
-    endif()
+    add_definitions(-DDEBUG_MODE)
+    message(STATUS "Build using debug mode")
+  endif()
+
+  if(FP16_MODE)
+    add_definitions(-DFP16_MODE)
+    message(STATUS "Build using fp16 precision")
+  else()
+    message(STATUS "Build using fp32 precision")
   endif()
 
   set(COMMON_HEADER_DIRS
 
@@ -13,7 +13,8 @@ set(cuda_kernel_files
     softmax_kernels.cu
     softmax_kernels_new.cu
     transform_kernels.cu
-    transform_kernels_new.cu)
+    transform_kernels_new.cu
+    crf.cu)
 
 add_library(cuda_kernels STATIC ${cuda_kernel_files})
 target_include_directories(cuda_kernels INTERFACE includes)
@@ -41,6 +41,7 @@ transition: [num_tags, num_tags]
 emission: [batch_size, seq_len, num_tags]
 mask: [batch_size, seq_len]
   0 for invalid token
+bias: [num_tags]
 best_score: [batch_size]
 history: [batch_size, seq_len, num_tags]:
   i, j, k store the tag of i-th batch, j-th step when
@@ -50,9 +51,9 @@ best_tag: [batch_size, seq_len]
 template <typename T>
 __global__ void ker_viterbi(const T* start_transition, const T* end_transition,
                             const T* transition, const T* emission,
-                            const uint8_t* mask, float* best_score,
-                            int* history, int* best_tags, int num_tags,
-                            int seq_len) {
+                            const uint8_t* mask, const T* bias,
+                            float* best_score, int* history, int* best_tags,
+                            int num_tags, int seq_len) {
   cg::thread_block b = cg::this_thread_block();
   cg::thread_block_tile<WARP_SIZE> g = cg::tiled_partition<WARP_SIZE>(b);
 
@@ -63,9 +64,11 @@ __global__ void ker_viterbi(const T* start_transition, const T* end_transition,
   // step 1. compute first step's score
   if (threadIdx.y == 0) {
     for (int cur_tag = threadIdx.x; cur_tag < num_tags; cur_tag += blockDim.x) {
+      float linear_bias = bias ? float(bias[cur_tag]) : float(0);
       s_score[cur_tag] =
-          emission[flat_3dim(blockIdx.x, 0, cur_tag, seq_len, num_tags)] +
-          start_transition[cur_tag];
+          float(
+              emission[flat_3dim(blockIdx.x, 0, cur_tag, seq_len, num_tags)]) +
+          linear_bias + float(start_transition[cur_tag]);
     }
   }
   b.sync();
@@ -91,9 +94,12 @@ __global__ void ker_viterbi(const T* start_transition, const T* end_transition,
       g.sync();
       warp_reduce_max(g, &max_score, &idx);
       if (threadIdx.x == 0) {
+        float linear_bias = bias ? float(bias[cur_tag]) : float(0);
         s_next_score[cur_tag] =
-            max_score + (float)emission[flat_3dim(blockIdx.x, seq_idx, cur_tag,
-                                                  seq_len, num_tags)];
+            max_score +
+            float(emission[flat_3dim(blockIdx.x, seq_idx, cur_tag, seq_len,
+                                     num_tags)]) +
+            linear_bias;
         history[flat_3dim(blockIdx.x, seq_idx - 1, cur_tag, seq_len,
                           num_tags)] = idx;
       }
@@ -144,13 +150,14 @@ void launch_viterbi<__half>(const __half* start_transition,
                             const __half* transition, const __half* emission,
                             const uint8_t* mask, float* best_score,
                             int* history, int* best_tags, int num_tags,
-                            int seq_len, int batch_size, cudaStream_t stream) {
+                            int seq_len, int batch_size, cudaStream_t stream,
+                            const __half* bias) {
   dim3 grid_dim(batch_size);
   dim3 block_dim(WARP_SIZE, WARP_SIZE);
 
   ker_viterbi<__half>
       <<<grid_dim, block_dim, 2 * num_tags * sizeof(float), stream>>>(
-          start_transition, end_transition, transition, emission, mask,
+          start_transition, end_transition, transition, emission, mask, bias,
           best_score, history, best_tags, num_tags, seq_len);
 }
 
@@ -160,12 +167,12 @@ void launch_viterbi<float>(const float* start_transition,
                            const float* emission, const uint8_t* mask,
                            float* best_score, int* history, int* best_tags,
                            int num_tags, int seq_len, int batch_size,
-                           cudaStream_t stream) {
+                           cudaStream_t stream, const float* bias) {
   dim3 grid_dim(batch_size);
   dim3 block_dim(WARP_SIZE, WARP_SIZE);
 
   ker_viterbi<float>
       <<<grid_dim, block_dim, 2 * num_tags * sizeof(float), stream>>>(
-          start_transition, end_transition, transition, emission, mask,
+          start_transition, end_transition, transition, emission, mask, bias,
           best_score, history, best_tags, num_tags, seq_len);
 }
@@ -228,7 +228,7 @@ void launch_viterbi(const T *start_transition, const T *end_transition,
                     const T *transition, const T *emission, const uint8_t *mask,
                     float *best_score, int *history, int *best_tags,
                     int num_tags, int seq_len, int batch_size,
-                    cudaStream_t stream);
+                    cudaStream_t stream, const T *bias = nullptr);
 
 template <typename T>
 void launch_quantize(int8_t *q_ptr, uint8_t *clip_mask_ptr, float *alpha_ptr,
 
@@ -471,35 +471,91 @@ __global__ void transform4d_0213(T *output, const T *input, int batch_size,
   res4[trg_offset] = input4[offset];
 }
 
+/**
+@brief: transform4d_0213_slow
+Reshape the input matrix to merge the heads
+Not use float4 for dim % 4 != 0 or dim % 8 != 0
+
+@thread
+gridDim.x = (num_all + max_block_thread - 1) / max_block_thread
+blockDim.x = max_block_thread
+
+@param
+input: [trans_count, batch_size, nhead, seq_len, head_dim]
+output: [batch_size, seq_len, trans_count, nhead, head_dim]
+batch_size: the size of the current batch
+seq_len: the sequence length of the current batch
+hidden_dim: dim of the hidden tensor
+nhead: number of attention heads
+trans_count: 1 or 3, the count of matrice need to be transformed
+*/
+template <typename T>
+__global__ void transform4d_0213_slow(T *output, const T *input, int batch_size,
+                                      int seq_len, int trans_count, int nhead,
+                                      int head_dim, int num_all) {
+  int offset = blockIdx.x * blockDim.x + threadIdx.x;
+  if (offset >= num_all) {
+    return;
+  }
+  int trans_id, batch_id, head_id, token_id, dim_id;
+  decompose_5dim(offset, batch_size, nhead, seq_len, head_dim, &trans_id,
+                 &batch_id, &head_id, &token_id, &dim_id);
+  // [b, s, tc, nh, ad]
+  int trg_offset = flat_5dim(batch_id, token_id, trans_id, head_id, dim_id,
+                             seq_len, trans_count, nhead, head_dim);
+
+  output[trg_offset] = input[offset];
+}
+
 // [tc, b, nh, s, ad] -> [b, s, tc, nh, ad]
 template <>
 void launch_transform4d_0213<float>(float *output, const float *input,
                                     int batch_size, int seq_len, int hidden_dim,
                                     int nhead, int trans_count,
                                     cudaStream_t stream) {
-  hidden_dim >>= 2;
-  int head_dim = hidden_dim / nhead;
-  int num_all = batch_size * seq_len * trans_count * hidden_dim;
-  int nblock = (num_all + MAX_THREADS - 1) / MAX_THREADS;
-
-  transform4d_0213<float><<<nblock, MAX_THREADS, 0, stream>>>(
-      output, input, batch_size, seq_len, trans_count, nhead, head_dim,
-      num_all);
+  if ((hidden_dim / nhead) % 4 == 0) {
+    hidden_dim >>= 2;
+    int head_dim = hidden_dim / nhead;
+    int num_all = batch_size * seq_len * trans_count * hidden_dim;
+    int nblock = (num_all + MAX_THREADS - 1) / MAX_THREADS;
+
+    transform4d_0213<float><<<nblock, MAX_THREADS, 0, stream>>>(
+        output, input, batch_size, seq_len, trans_count, nhead, head_dim,
+        num_all);
+  } else {
+    int head_dim = hidden_dim / nhead;
+    int num_all = batch_size * seq_len * trans_count * hidden_dim;
+    int nblock = (num_all + MAX_THREADS - 1) / MAX_THREADS;
+
+    transform4d_0213_slow<float><<<nblock, MAX_THREADS, 0, stream>>>(
+        output, input, batch_size, seq_len, trans_count, nhead, head_dim,
+        num_all);
+  }
 }
 
 template <>
 void launch_transform4d_0213<__half>(__half *output, const __half *input,
                                      int batch_size, int seq_len,
                                      int hidden_dim, int nhead, int trans_count,
                                      cudaStream_t stream) {
-  hidden_dim >>= 3;
-  int head_dim = hidden_dim / nhead;
-  int num_all = batch_size * seq_len * trans_count * hidden_dim;
-  int nblock = (num_all + MAX_THREADS - 1) / MAX_THREADS;
-
-  transform4d_0213<__half><<<nblock, MAX_THREADS, 0, stream>>>(
-      output, input, batch_size, seq_len, trans_count, nhead, head_dim,
-      num_all);
+  if ((hidden_dim / nhead) % 8 == 0) {
+    hidden_dim >>= 3;
+    int head_dim = hidden_dim / nhead;
+    int num_all = batch_size * seq_len * trans_count * hidden_dim;
+    int nblock = (num_all + MAX_THREADS - 1) / MAX_THREADS;
+
+    transform4d_0213<__half><<<nblock, MAX_THREADS, 0, stream>>>(
+        output, input, batch_size, seq_len, trans_count, nhead, head_dim,
+        num_all);
+  } else {
+    int head_dim = hidden_dim / nhead;
+    int num_all = batch_size * seq_len * trans_count * hidden_dim;
+    int nblock = (num_all + MAX_THREADS - 1) / MAX_THREADS;
+
+    transform4d_0213_slow<__half><<<nblock, MAX_THREADS, 0, stream>>>(
+        output, input, batch_size, seq_len, trans_count, nhead, head_dim,
+        num_all);
+  }
 }
 
 /**
 
@@ -128,36 +128,110 @@ __global__ void bias_add_transform_20314_new<__half>(
   }
 }
 
+/**
+@brief: bias_add_transform_20314_new_slow
+Add bias to input, transform from
+[0, 1, 2, 3, 4] to [2, 0, 3, 1, 4]
+Not use float4 for dim % 4 != 0 or dim % 8 != 0
+
+@thread
+gridDim.x = dim_0
+gridDim.y = dim_1
+gridDim.z = dim_2
+blockDim.x = min(dim_3 * dim_4, MAX_THREADS)
+
+@param
+input: [dim_0, dim_1, dim_2, dim_3, dim_4]
+bias: [dim_2, dim_3, dim_4]
+output: [dim_2, dim_0, dim_3, dim_1, dim_4]
+*/
+template <typename T>
+__global__ void bias_add_transform_20314_new_slow(T *q_out, T *k_out, T *v_out,
+                                                  const T *input, const T *bias,
+                                                  int dim_3, int dim_4,
+                                                  int batch_ele) {
+  int id0 = blockIdx.x;
+  int id1 = blockIdx.y;
+  int id2 = blockIdx.z;
+  int dim_0 = gridDim.x;
+  int dim_1 = gridDim.y;
+  int dim_2 = gridDim.z;
+  int dim_34 = dim_3 * dim_4;
+
+  int src_offset = flat_4dim(id0, id1, id2, 0, dim_1, dim_2, dim_34);
+  int trg_offset = flat_5dim(id2, id0, 0, id1, 0, dim_0, dim_3, dim_1, dim_4);
+  int bias_offset = flat_2dim(id2, 0, dim_34);
+
+  float vres;
+
+  for (std::size_t i = threadIdx.x; i < dim_34; i += blockDim.x) {
+    vres = input[src_offset + i] + bias[bias_offset + i];
+
+    int id3 = i / dim_4;
+    int id4 = i % dim_4;
+    int cur_trg_offset = flat_3dim(id3, 0, id4, dim_1, dim_4);
+    int temp_offset = trg_offset + cur_trg_offset;
+    if (temp_offset >= batch_ele * 2) {
+      v_out[temp_offset - batch_ele * 2] = vres;
+    } else if (temp_offset >= batch_ele) {
+      k_out[temp_offset - batch_ele] = vres;
+    } else {
+      q_out[temp_offset] = vres;
+    }
+  }
+}
+
 // [b, s, 3, h] -> [3, b, nh, s, ad]
 template <>
 void launch_bias_add_transform_20314_new<float>(
     float *q_out, float *k_out, float *v_out, const float *input,
     const float *bias, int dim_0, int dim_1, int dim_2, int dim_3, int dim_4,
     cudaStream_t stream) {
-  dim_4 >>= 2;
-
-  dim3 grid_dim(dim_0, dim_1, dim_2);
-  dim3 block_dim(min(dim_3 * dim_4, MAX_THREADS));
-  int batch_ele = dim_0 * dim_1 * dim_3 * dim_4;
-
-  bias_add_transform_20314_new<float><<<grid_dim, block_dim, 0, stream>>>(
-      q_out, k_out, v_out, input, bias, dim_3, dim_4, batch_ele);
+  if (dim_4 % 4 == 0) {
+    dim_4 >>= 2;
+
+    dim3 grid_dim(dim_0, dim_1, dim_2);
+    dim3 block_dim(min(dim_3 * dim_4, MAX_THREADS));
+    int batch_ele = dim_0 * dim_1 * dim_3 * dim_4;
+
+    bias_add_transform_20314_new<float><<<grid_dim, block_dim, 0, stream>>>(
+        q_out, k_out, v_out, input, bias, dim_3, dim_4, batch_ele);
+  } else {
+    dim3 grid_dim(dim_0, dim_1, dim_2);
+    dim3 block_dim(min(dim_3 * dim_4, MAX_THREADS));
+    int batch_ele = dim_0 * dim_1 * dim_3 * dim_4;
+
+    bias_add_transform_20314_new_slow<float>
+        <<<grid_dim, block_dim, 0, stream>>>(q_out, k_out, v_out, input, bias,
+                                             dim_3, dim_4, batch_ele);
+  }
 }
 
 template <>
 void launch_bias_add_transform_20314_new<__half>(
     __half *q_out, __half *k_out, __half *v_out, const __half *input,
     const __half *bias, int dim_0, int dim_1, int dim_2, int dim_3, int dim_4,
     cudaStream_t stream) {
-  dim_4 >>= 3;
+  if (dim_4 % 8 == 0) {
+    dim_4 >>= 3;
 
-  dim3 grid_dim(dim_0, dim_1, dim_2);
-  dim3 block_dim(min(dim_3 * dim_4, MAX_THREADS));
+    dim3 grid_dim(dim_0, dim_1, dim_2);
+    dim3 block_dim(min(dim_3 * dim_4, MAX_THREADS));
 
-  int batch_ele = dim_0 * dim_1 * dim_3 * dim_4;
+    int batch_ele = dim_0 * dim_1 * dim_3 * dim_4;
 
-  bias_add_transform_20314_new<__half><<<grid_dim, block_dim, 0, stream>>>(
-      q_out, k_out, v_out, input, bias, dim_3, dim_4, batch_ele);
+    bias_add_transform_20314_new<__half><<<grid_dim, block_dim, 0, stream>>>(
+        q_out, k_out, v_out, input, bias, dim_3, dim_4, batch_ele);
+  } else {
+    dim3 grid_dim(dim_0, dim_1, dim_2);
+    dim3 block_dim(min(dim_3 * dim_4, MAX_THREADS));
+
+    int batch_ele = dim_0 * dim_1 * dim_3 * dim_4;
+
+    bias_add_transform_20314_new_slow<__half>
+        <<<grid_dim, block_dim, 0, stream>>>(q_out, k_out, v_out, input, bias,
+                                             dim_3, dim_4, batch_ele);
+  }
 }
 
 /**
 
@@ -1,5 +1,5 @@
 set(layers_files feed_forward_layer.cpp multihead_attention_layer.cpp
-                 transformer_encoder_layer.cpp)
+                 transformer_encoder_layer.cpp linear_layer.cpp crf_layer.cpp)
 
 add_library(lightseq_layers STATIC ${layers_files})
 target_link_libraries(lightseq_layers PUBLIC lightseq_operators lsflow)