[Inference, rename] remove padding_offsets from atten use batch_id_per_token (#2880)

* remove padding_offsets from atten
2025-10-05 08:37:06 +08:00 · 2025-07-17 18:41:31 +08:00
parent d49f8fb30a
commit ddb10ac509
50 changed files with 311 additions and 288 deletions
--- a/custom_ops/gpu_ops/get_padding_offset.cu
+++ b/custom_ops/gpu_ops/get_padding_offset.cu
@@ -46,7 +46,7 @@ __global__ void GetPaddingOffsetKernel(int *padding_offset,
    const int ti = threadIdx.x;
    int cum_offset = bi == 0 ? 0 : cum_offsets[bi - 1];
    for (int i = ti; i < seq_lens[bi]; i += blockDim.x) {
-        padding_offset[bi * max_seq_len - cum_offset + i] = cum_offset;
+        padding_offset[bi * max_seq_len - cum_offset + i] = bi;
    }
    if (ti == 0) {
        cum_offsets_out[bi] = cum_offset;