try to use default block_size

zhiyuan1i · zhiyuan1i · commit dd7bfc8625f5 · 2025-09-26T09:59:21.000Z
Signed-off-by: lizhiyuan &lt;uniartisan2017@gmail.com&gt;
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
@@ -3695,7 +3695,8 @@ def _select_common_block_size(self, kv_manager_block_size: int,
             attn_groups: List of attention groups
 
         Returns:
-            Largest block size supported by all backends
+            Block size supported by all backends, 
+            prioritizing cache_config.block_size
 
         Raises:
             ValueError: If no common block size found
@@ -3717,6 +3718,9 @@ def _select_common_block_size(self, kv_manager_block_size: int,
                               f"{sorted(supported)}. ")
             raise ValueError(error_msg)
 
+        if self.cache_config.block_size in common_supported_sizes:
+            return self.cache_config.block_size
+
         return max(common_supported_sizes)
 
     def may_reinitialize_input_batch(self,