[MISC] Fix misleading batch_size_capture_list when cuda_graph_sizes < 4

billishyahao · billishyahao · commit ef5b9aa5c2ab · 2025-09-28T02:05:04.000-07:00
Signed-off-by: billishyahao &lt;bill.he@amd.com&gt;
diff --git a/vllm/config/__init__.py b/vllm/config/__init__.py
@@ -617,9 +617,10 @@ def _set_cudagraph_sizes(self):
             not self.model_config.enforce_eager:
             cuda_graph_sizes = self.scheduler_config.cuda_graph_sizes
             if len(cuda_graph_sizes) == 1:
-                batch_size_capture_list = [1, 2, 4] + [
-                    i for i in range(8, cuda_graph_sizes[0] + 1, 8)
-                ]
+                max_graph_size = cuda_graph_sizes[0]
+                batch_size_capture_list = [
+                    i for i in [1, 2, 4] if i <= max_graph_size
+                ] + [i for i in range(8, max_graph_size + 1, 8)]
             elif len(cuda_graph_sizes) > 1:
                 batch_size_capture_list = sorted(cuda_graph_sizes)
             else: