[Serving]support 22.12 (#1974)

support 22.12
2025-10-14 04:44:00 +08:00 · 2023-05-22 22:27:13 +08:00
parent 1ac6e8e614
commit 3e7cb88049
4 changed files with 82 additions and 61 deletions
--- a/serving/src/fastdeploy_runtime.cc
+++ b/serving/src/fastdeploy_runtime.cc
@@ -1145,16 +1145,16 @@ TRITONSERVER_Error* ModelInstanceState::ReadOutputTensors(
    size_t total_batch_size, TRITONBACKEND_Request** requests,
    const uint32_t request_count,
    std::vector<TRITONBACKEND_Response*>* responses) {
-  // r22.03
-  // BackendOutputResponder responder(
-  //     requests, request_count, responses,
-  //     model_state_->TritonMemoryManager(), model_state_->MaxBatchSize() > 0,
-  //     model_state_->EnablePinnedOutput(), CudaStream());
-  // r21.10
+  // r22.12
  BackendOutputResponder responder(
-      requests, request_count, responses, StateForModel()->MaxBatchSize(),
-      StateForModel()->TritonMemoryManager(),
-      StateForModel()->EnablePinnedOutput(), CudaStream());
+      requests, request_count, responses,
+      model_state_->TritonMemoryManager(), model_state_->MaxBatchSize() > 0,
+      model_state_->EnablePinnedOutput(), CudaStream());
+  // r21.10
+  // BackendOutputResponder responder(
+  //     requests, request_count, responses, StateForModel()->MaxBatchSize(),
+  //     StateForModel()->TritonMemoryManager(),
+  //     StateForModel()->EnablePinnedOutput(), CudaStream());

  // Use to hold string output contents
  bool cuda_copy = false;