c16/c8/c4 分离编译加快编译速度

PaddlePaddle · Oct 15, 2024 · 4a4a4b4 · 4a4a4b4
1 parent 2ef7c11
commit 4a4a4b4
Show file tree

Hide file tree

Showing 27 changed files with 6,476 additions and 5,625 deletions.
diff --git a/csrc/gpu/append_attention.cu b/csrc/gpu/append_attention.cu
@@ -425,7 +425,8 @@ std::vector<paddle::Tensor> AppendAttention(
  meta_data.token_nums = qkv_dims[0];
  meta_data.kv_num_heads = key_cache_dims[1];
  meta_data.head_dims = key_cache_dims[3];
- const int total_num_head = qkv_dims[qkv_dims.size() - 1] / meta_data.head_dims;
+ const int total_num_head =
+ qkv_dims[qkv_dims.size() - 1] / meta_data.head_dims;
  meta_data.q_num_heads = total_num_head - 2 * meta_data.kv_num_heads;
 
  meta_data.max_blocks_per_seq = block_tables.dims()[1];