[Code Simplification] Refactor Post-processing in VL Model Forward Method (#2937)

* rm sth useless * refactor model forward * mv bool index to kernel
2025-10-04 00:06:38 +08:00 · 2025-08-01 17:28:07 +08:00
parent 3a4db15765
commit 94264bbf60
3 changed files with 25 additions and 38 deletions
--- a/custom_ops/gpu_ops/cpp_extensions.cc
+++ b/custom_ops/gpu_ops/cpp_extensions.cc
@@ -323,7 +323,7 @@ std::vector<paddle::Tensor> ExtractTextTokenOutput(
    const paddle::Tensor &max_seq_len, const paddle::Tensor &max_seq_len_index,
    const paddle::Tensor &mm_token_num_len,
    const paddle::Tensor &seq_lens_this_time,
-    const paddle::Tensor &cu_seqlens_q, const paddle::Tensor &score_text);
+    const paddle::Tensor &cu_seqlens_q, const paddle::Tensor &hidden_states);

 std::vector<paddle::Tensor> MoEDeepGEMMPermute(const paddle::Tensor &x,
                                               const paddle::Tensor &topk_idx,