[Feature] Support Paddle-OCR (#4396)

* init * update code * fix code style & disable thinking * adapt for common_engine.update_mm_requests_chunk_size * use 3d rope * use flash_attn_unpadded * opt siglip * update to be compatible with the latest codebase * fix typo * optim OCR performance * fix bug * fix bug * fix bug * fix bug * normlize name * modify xpu rope * revert logger * fix bug * fix bug * fix bug * support default_v1 * optim performance * fix bug --------- Co-authored-by: root <root@szzj-acg-tge1-fdda9.szzj.baidu.com> Co-authored-by: zhangyue66 <zhangyue66@baidu.com>
2025-12-24 13:28:13 +08:00 · 2025-10-24 23:34:30 +08:00
parent 822dea8d5f
commit e4e3cede7f
21 changed files with 2869 additions and 175 deletions
--- a/fastdeploy/scheduler/global_scheduler.py
+++ b/fastdeploy/scheduler/global_scheduler.py
@@ -24,6 +24,7 @@ from typing import Dict, List, Optional, Tuple
 import crcmod
 from redis import ConnectionPool

+from fastdeploy import envs
 from fastdeploy.engine.request import Request, RequestOutput
 from fastdeploy.scheduler import utils
 from fastdeploy.scheduler.data import ScheduledRequest, ScheduledResponse
@@ -542,22 +543,23 @@ class GlobalScheduler:
                remaining_request.append((request_queue_name, serialized_request))
                continue

-            if self.enable_chunked_prefill:
-                if request.prompt_tokens_ids_len > self.long_prefill_token_threshold:
-                    long_partial_requests += 1
-                    if long_partial_requests > self.max_long_partial_prefills:
+            if not envs.FD_ENABLE_MAX_PREFILL:
+                if self.enable_chunked_prefill:
+                    if request.prompt_tokens_ids_len > self.long_prefill_token_threshold:
+                        long_partial_requests += 1
+                        if long_partial_requests > self.max_long_partial_prefills:
+                            remaining_request.append((request_queue_name, serialized_request))
+                            continue
+                    else:
+                        short_partial_requests += 1
+
+                    if short_partial_requests + long_partial_requests > self.max_num_partial_prefills:
                        remaining_request.append((request_queue_name, serialized_request))
                        continue
                else:
-                    short_partial_requests += 1
-
-                if short_partial_requests + long_partial_requests > self.max_num_partial_prefills:
-                    remaining_request.append((request_queue_name, serialized_request))
-                    continue
-            else:
-                if current_prefill_tokens > max_num_batched_tokens:
-                    remaining_request.append((request_queue_name, serialized_request))
-                    continue
+                    if current_prefill_tokens > max_num_batched_tokens:
+                        remaining_request.append((request_queue_name, serialized_request))
+                        continue

            scheduled_requests.append(request)

--- a/fastdeploy/scheduler/local_scheduler.py
+++ b/fastdeploy/scheduler/local_scheduler.py
@@ -18,6 +18,7 @@ import threading
 import time
 from typing import Dict, List, Optional, Tuple

+from fastdeploy import envs
 from fastdeploy.engine.request import Request, RequestOutput
 from fastdeploy.scheduler.data import ScheduledRequest, ScheduledResponse
 from fastdeploy.utils import scheduler_logger
@@ -258,20 +259,21 @@ class LocalScheduler:
                if required_total_blocks > available_blocks:
                    break

-                if self.enable_chunked_prefill:
-                    if request.prompt_tokens_ids_len > self.long_prefill_token_threshold:
-                        # 长请求
-                        long_partial_requests += 1
-                        if long_partial_requests > self.max_long_partial_prefills:
+                if not envs.FD_ENABLE_MAX_PREFILL:
+                    if self.enable_chunked_prefill:
+                        if request.prompt_tokens_ids_len > self.long_prefill_token_threshold:
+                            # 长请求
+                            long_partial_requests += 1
+                            if long_partial_requests > self.max_long_partial_prefills:
+                                break
+                        else:
+                            short_partial_requests += 1
+
+                        if short_partial_requests + long_partial_requests > self.max_num_partial_prefills:
                            break
                    else:
-                        short_partial_requests += 1
-
-                    if short_partial_requests + long_partial_requests > self.max_num_partial_prefills:
-                        break
-                else:
-                    if current_prefill_tokens > max_num_batched_tokens:
-                        break
+                        if current_prefill_tokens > max_num_batched_tokens:
+                            break

                requests.append(request.raw)
            self.ids_read_cursor += len(requests)