Fix get_nvl_buffer_size_hint and get_rdma_buffer_size_hint #434

yuantailing · 2025-09-26T08:40:00Z

If I understand correctly,

L62 is corresponding to

DeepEP/csrc/kernels/internode.cu

Line 416 in e02e4d2

auto rdma_channel_meta = SymBuffer<int>(rdma_buffer_ptr, NUM_MAX_NVL_PEERS * 2 + 2, kNumRDMARanks, channel_id, num_channels);

L67 is corresponding to

Lines 579 to 581 in e02e4d2

    
           auto idx_value = static_cast<int>(ld_nc_global(topk_idx + token_idx * num_topk + copy_idx)); 
        
           auto weight_value = ld_nc_global(topk_weights + token_idx * num_topk + copy_idx); 
        
           st_na_global(reinterpret_cast<int*>(dst_send_buffers[rank_idx]) + copy_idx, idx_value);

, and it is also counted as sizeof(int) in get_num_bytes_per_token

L70 is corresponding to int4 alignment:

DeepEP/csrc/kernels/internode.cu

Lines 45 to 47 in e02e4d2

    
           int get_num_bytes_per_token(int hidden_int4, int num_scales, int num_topk_idx, int num_topk_weights) { 
        
               return static_cast<int>(align_up(hidden_int4 * sizeof(int4) + sizeof(SourceMeta) + num_scales * sizeof(float) + num_topk_idx * sizeof(int) + num_topk_weights * sizeof(float), sizeof(int4))); 
        
           }

L94 is similar to L67

L98 is corresponding to

DeepEP/csrc/kernels/internode.cu

Lines 417 to 418 in e02e4d2

    
           auto rdma_channel_head = SymBuffer<uint64_t, false>(rdma_buffer_ptr, 1, kNumRDMARanks, channel_id, num_channels); 
        
           auto rdma_channel_tail = SymBuffer<uint64_t, false>(rdma_buffer_ptr, 1, kNumRDMARanks, channel_id, num_channels);

Before change:

>>> deep_ep.Config(24, 8, 512, 16, 128).get_nvl_buffer_size_hint(7168, 16)
453380736
>>> deep_ep.Config(24, 8, 512, 16, 128).get_rdma_buffer_size_hint(7168, 16)
56774016

After change:

>>> deep_ep.Config(24, 8, 512, 16, 128).get_nvl_buffer_size_hint(7168, 16)
429000960
>>> deep_ep.Config(24, 8, 512, 16, 128).get_rdma_buffer_size_hint(7168, 16)
53629056

Signed-off-by: Tailing Yuan <[email protected]>

Fix get_nvl_buffer_size_hint and get_rdma_buffer_size_hint

74cfcc2

Signed-off-by: Tailing Yuan <[email protected]>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Fix get_nvl_buffer_size_hint and get_rdma_buffer_size_hint #434

Fix get_nvl_buffer_size_hint and get_rdma_buffer_size_hint #434

Uh oh!

yuantailing commented Sep 26, 2025

Uh oh!

Uh oh!

	auto idx_value = static_cast<int>(ld_nc_global(topk_idx + token_idx * num_topk + copy_idx));
	auto weight_value = ld_nc_global(topk_weights + token_idx * num_topk + copy_idx);
	st_na_global(reinterpret_cast<int*>(dst_send_buffers[rank_idx]) + copy_idx, idx_value);

	int get_num_bytes_per_token(int hidden_int4, int num_scales, int num_topk_idx, int num_topk_weights) {
	return static_cast<int>(align_up(hidden_int4 * sizeof(int4) + sizeof(SourceMeta) + num_scales * sizeof(float) + num_topk_idx * sizeof(int) + num_topk_weights * sizeof(float), sizeof(int4)));
	}

	auto rdma_channel_head = SymBuffer<uint64_t, false>(rdma_buffer_ptr, 1, kNumRDMARanks, channel_id, num_channels);
	auto rdma_channel_tail = SymBuffer<uint64_t, false>(rdma_buffer_ptr, 1, kNumRDMARanks, channel_id, num_channels);

Fix get_nvl_buffer_size_hint and get_rdma_buffer_size_hint #434

Are you sure you want to change the base?

Fix get_nvl_buffer_size_hint and get_rdma_buffer_size_hint #434

Uh oh!

Conversation

yuantailing commented Sep 26, 2025

Uh oh!

Uh oh!