llamastack
diff --git a/‎.stats.yml
Lines changed: 1 addition & 1 deletion b/‎.stats.yml
Lines changed: 1 addition & 1 deletion
diff --git a/‎api.md
Lines changed: 3 additions & 3 deletions b/‎api.md
Lines changed: 3 additions & 3 deletions
diff --git a/‎src/llama_stack_client/pagination.py
Lines changed: 12 additions & 6 deletions b/‎src/llama_stack_client/pagination.py
Lines changed: 12 additions & 6 deletions
diff --git a/‎src/llama_stack_client/resources/inference.py
Lines changed: 13 additions & 13 deletions b/‎src/llama_stack_client/resources/inference.py
Lines changed: 13 additions & 13 deletions
diff --git a/‎src/llama_stack_client/types/__init__.py
Lines changed: 1 addition & 4 deletions b/‎src/llama_stack_client/types/__init__.py
Lines changed: 1 addition & 4 deletions
diff --git a/‎src/llama_stack_client/types/chat_completion_response_stream_chunk.py
Lines changed: 2 additions & 2 deletions b/‎src/llama_stack_client/types/chat_completion_response_stream_chunk.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/llama_stack_client/types/completion_response.py
Lines changed: 0 additions & 34 deletions b/‎src/llama_stack_client/types/completion_response.py
Lines changed: 0 additions & 34 deletions
diff --git a/‎src/llama_stack_client/types/shared/__init__.py
Lines changed: 1 addition & 0 deletions b/‎src/llama_stack_client/types/shared/__init__.py
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/llama_stack_client/types/shared/agent_config.py
Lines changed: 40 additions & 3 deletions b/‎src/llama_stack_client/types/shared/agent_config.py
Lines changed: 40 additions & 3 deletions
diff --git a/‎src/llama_stack_client/types/shared/batch_completion.py
Lines changed: 30 additions & 4 deletions b/‎src/llama_stack_client/types/shared/batch_completion.py
Lines changed: 30 additions & 4 deletions
@@ -1,4 +1,4 @@
 configured_endpoints: 106
 openapi_spec_url: https://storage.googleapis.com/stainless-sdk-openapi-specs/llamastack%2Fllama-stack-client-4f6633567c1a079df49d0cf58f37251a4bb0ee2f2a496ac83c9fee26eb325f9c.yml
 openapi_spec_hash: af5b3d3bbecf48f15c90b982ccac852e
-config_hash: e67fd054e95c1e82f78f4b834e96bb65
+config_hash: ddcbd66d7ac80290da208232a746e30f
@@ -20,6 +20,7 @@ from llama_stack_client.types import (
     SafetyViolation,
     SamplingParams,
     ScoringResult,
+    SharedTokenLogProbs,
     SystemMessage,
     ToolCall,
     ToolCallOrString,
@@ -62,7 +63,7 @@ Methods:
 Types:
 
 ```python
-from llama_stack_client.types import ToolDef, ToolInvocationResult, ToolRuntimeListToolsResponse
+from llama_stack_client.types import ToolInvocationResult, ToolRuntimeListToolsResponse
 ```
 
 Methods:
@@ -239,7 +240,6 @@ Types:
 ```python
 from llama_stack_client.types import (
     ChatCompletionResponseStreamChunk,
-    CompletionResponse,
     EmbeddingsResponse,
     TokenLogProbs,
     InferenceBatchChatCompletionResponse,
@@ -251,7 +251,7 @@ Methods:
 - <code title="post /v1/inference/batch-chat-completion">client.inference.<a href="./src/llama_stack_client/resources/inference.py">batch_chat_completion</a>(\*\*<a href="src/llama_stack_client/types/inference_batch_chat_completion_params.py">params</a>) -> <a href="./src/llama_stack_client/types/inference_batch_chat_completion_response.py">InferenceBatchChatCompletionResponse</a></code>
 - <code title="post /v1/inference/batch-completion">client.inference.<a href="./src/llama_stack_client/resources/inference.py">batch_completion</a>(\*\*<a href="src/llama_stack_client/types/inference_batch_completion_params.py">params</a>) -> <a href="./src/llama_stack_client/types/shared/batch_completion.py">BatchCompletion</a></code>
 - <code title="post /v1/inference/chat-completion">client.inference.<a href="./src/llama_stack_client/resources/inference.py">chat_completion</a>(\*\*<a href="src/llama_stack_client/types/inference_chat_completion_params.py">params</a>) -> <a href="./src/llama_stack_client/types/shared/chat_completion_response.py">ChatCompletionResponse</a></code>
-- <code title="post /v1/inference/completion">client.inference.<a href="./src/llama_stack_client/resources/inference.py">completion</a>(\*\*<a href="src/llama_stack_client/types/inference_completion_params.py">params</a>) -> <a href="./src/llama_stack_client/types/completion_response.py">CompletionResponse</a></code>
+- <code title="post /v1/inference/completion">client.inference.<a href="./src/llama_stack_client/resources/inference.py">completion</a>(\*\*<a href="src/llama_stack_client/types/inference_completion_params.py">params</a>) -> UnnamedTypeWithNoPropertyInfoOrParent0</code>
 - <code title="post /v1/inference/embeddings">client.inference.<a href="./src/llama_stack_client/resources/inference.py">embeddings</a>(\*\*<a href="src/llama_stack_client/types/inference_embeddings_params.py">params</a>) -> <a href="./src/llama_stack_client/types/embeddings_response.py">EmbeddingsResponse</a></code>
 
 # Embeddings
 
@@ -24,10 +24,13 @@ def _get_page_items(self) -> List[_T]:
     @override
     def next_page_info(self) -> Optional[PageInfo]:
         next_index = self.next_index
-        if not next_index:
-            return None
+        if next_index is None:
+            return None  # type: ignore[unreachable]
+
+        length = len(self._get_page_items())
+        current_count = next_index + length
 
-        return PageInfo(params={"start_index": next_index})
+        return PageInfo(params={"start_index": current_count})
 
 
 class AsyncDatasetsIterrows(BaseAsyncPage[_T], BasePage[_T], Generic[_T]):
@@ -44,10 +47,13 @@ def _get_page_items(self) -> List[_T]:
     @override
     def next_page_info(self) -> Optional[PageInfo]:
         next_index = self.next_index
-        if not next_index:
-            return None
+        if next_index is None:
+            return None  # type: ignore[unreachable]
+
+        length = len(self._get_page_items())
+        current_count = next_index + length
 
-        return PageInfo(params={"start_index": next_index})
+        return PageInfo(params={"start_index": current_count})
 
 
 class SyncOpenAICursorPage(BaseSyncPage[_T], BasePage[_T], Generic[_T]):
 
@@ -27,10 +27,10 @@
 )
 from .._streaming import Stream, AsyncStream
 from .._base_client import make_request_options
-from ..types.completion_response import CompletionResponse
 from ..types.embeddings_response import EmbeddingsResponse
 from ..types.shared_params.message import Message
 from ..types.shared.batch_completion import BatchCompletion
+from ..types.inference_completion_params import UnnamedTypeWithNoPropertyInfoOrParent0
 from ..types.shared_params.response_format import ResponseFormat
 from ..types.shared_params.sampling_params import SamplingParams
 from ..types.shared.chat_completion_response import ChatCompletionResponse
@@ -467,7 +467,7 @@ def completion(
         extra_query: Query | None = None,
         extra_body: Body | None = None,
         timeout: float | httpx.Timeout | None | NotGiven = NOT_GIVEN,
-    ) -> CompletionResponse:
+    ) -> UnnamedTypeWithNoPropertyInfoOrParent0:
         """
         Generate a completion for the given content using the specified model.
 
@@ -514,7 +514,7 @@ def completion(
         extra_query: Query | None = None,
         extra_body: Body | None = None,
         timeout: float | httpx.Timeout | None | NotGiven = NOT_GIVEN,
-    ) -> Stream[CompletionResponse]:
+    ) -> Stream[UnnamedTypeWithNoPropertyInfoOrParent0]:
         """
         Generate a completion for the given content using the specified model.
 
@@ -561,7 +561,7 @@ def completion(
         extra_query: Query | None = None,
         extra_body: Body | None = None,
         timeout: float | httpx.Timeout | None | NotGiven = NOT_GIVEN,
-    ) -> CompletionResponse | Stream[CompletionResponse]:
+    ) -> UnnamedTypeWithNoPropertyInfoOrParent0 | Stream[UnnamedTypeWithNoPropertyInfoOrParent0]:
         """
         Generate a completion for the given content using the specified model.
 
@@ -608,7 +608,7 @@ def completion(
         extra_query: Query | None = None,
         extra_body: Body | None = None,
         timeout: float | httpx.Timeout | None | NotGiven = NOT_GIVEN,
-    ) -> CompletionResponse | Stream[CompletionResponse]:
+    ) -> UnnamedTypeWithNoPropertyInfoOrParent0 | Stream[UnnamedTypeWithNoPropertyInfoOrParent0]:
         if stream:
             extra_headers = {"Accept": "text/event-stream", **(extra_headers or {})}
         return self._post(
@@ -629,9 +629,9 @@ def completion(
             options=make_request_options(
                 extra_headers=extra_headers, extra_query=extra_query, extra_body=extra_body, timeout=timeout
             ),
-            cast_to=CompletionResponse,
+            cast_to=UnnamedTypeWithNoPropertyInfoOrParent0,
             stream=stream or False,
-            stream_cls=Stream[CompletionResponse],
+            stream_cls=Stream[UnnamedTypeWithNoPropertyInfoOrParent0],
         )
 
     @typing_extensions.deprecated("/v1/inference/embeddings is deprecated. Please use /v1/openai/v1/embeddings.")
@@ -1122,7 +1122,7 @@ async def completion(
         extra_query: Query | None = None,
         extra_body: Body | None = None,
         timeout: float | httpx.Timeout | None | NotGiven = NOT_GIVEN,
-    ) -> CompletionResponse:
+    ) -> UnnamedTypeWithNoPropertyInfoOrParent0:
         """
         Generate a completion for the given content using the specified model.
 
@@ -1169,7 +1169,7 @@ async def completion(
         extra_query: Query | None = None,
         extra_body: Body | None = None,
         timeout: float | httpx.Timeout | None | NotGiven = NOT_GIVEN,
-    ) -> AsyncStream[CompletionResponse]:
+    ) -> AsyncStream[UnnamedTypeWithNoPropertyInfoOrParent0]:
         """
         Generate a completion for the given content using the specified model.
 
@@ -1216,7 +1216,7 @@ async def completion(
         extra_query: Query | None = None,
         extra_body: Body | None = None,
         timeout: float | httpx.Timeout | None | NotGiven = NOT_GIVEN,
-    ) -> CompletionResponse | AsyncStream[CompletionResponse]:
+    ) -> UnnamedTypeWithNoPropertyInfoOrParent0 | AsyncStream[UnnamedTypeWithNoPropertyInfoOrParent0]:
         """
         Generate a completion for the given content using the specified model.
 
@@ -1263,7 +1263,7 @@ async def completion(
         extra_query: Query | None = None,
         extra_body: Body | None = None,
         timeout: float | httpx.Timeout | None | NotGiven = NOT_GIVEN,
-    ) -> CompletionResponse | AsyncStream[CompletionResponse]:
+    ) -> UnnamedTypeWithNoPropertyInfoOrParent0 | AsyncStream[UnnamedTypeWithNoPropertyInfoOrParent0]:
         if stream:
             extra_headers = {"Accept": "text/event-stream", **(extra_headers or {})}
         return await self._post(
@@ -1284,9 +1284,9 @@ async def completion(
             options=make_request_options(
                 extra_headers=extra_headers, extra_query=extra_query, extra_body=extra_body, timeout=timeout
             ),
-            cast_to=CompletionResponse,
+            cast_to=UnnamedTypeWithNoPropertyInfoOrParent0,
             stream=stream or False,
-            stream_cls=AsyncStream[CompletionResponse],
+            stream_cls=AsyncStream[UnnamedTypeWithNoPropertyInfoOrParent0],
         )
 
     @typing_extensions.deprecated("/v1/inference/embeddings is deprecated. Please use /v1/openai/v1/embeddings.")
 
@@ -27,14 +27,14 @@
     ToolCallOrString as ToolCallOrString,
     CompletionMessage as CompletionMessage,
     InterleavedContent as InterleavedContent,
+    SharedTokenLogProbs as SharedTokenLogProbs,
     ToolParamDefinition as ToolParamDefinition,
     ToolResponseMessage as ToolResponseMessage,
     QueryGeneratorConfig as QueryGeneratorConfig,
     ChatCompletionResponse as ChatCompletionResponse,
     InterleavedContentItem as InterleavedContentItem,
 )
 from .shield import Shield as Shield
-from .tool_def import ToolDef as ToolDef
 from .benchmark import Benchmark as Benchmark
 from .route_info import RouteInfo as RouteInfo
 from .scoring_fn import ScoringFn as ScoringFn
@@ -46,10 +46,8 @@
 from .provider_info import ProviderInfo as ProviderInfo
 from .tool_response import ToolResponse as ToolResponse
 from .inference_step import InferenceStep as InferenceStep
-from .tool_def_param import ToolDefParam as ToolDefParam
 from .create_response import CreateResponse as CreateResponse
 from .response_object import ResponseObject as ResponseObject
-from .token_log_probs import TokenLogProbs as TokenLogProbs
 from .file_list_params import FileListParams as FileListParams
 from .shield_call_step import ShieldCallStep as ShieldCallStep
 from .span_with_status import SpanWithStatus as SpanWithStatus
@@ -62,7 +60,6 @@
 from .tool_list_response import ToolListResponse as ToolListResponse
 from .agent_create_params import AgentCreateParams as AgentCreateParams
 from .agent_list_response import AgentListResponse as AgentListResponse
-from .completion_response import CompletionResponse as CompletionResponse
 from .embeddings_response import EmbeddingsResponse as EmbeddingsResponse
 from .list_files_response import ListFilesResponse as ListFilesResponse
 from .list_tools_response import ListToolsResponse as ListToolsResponse
 
@@ -4,8 +4,8 @@
 from typing_extensions import Literal
 
 from .._models import BaseModel
-from .token_log_probs import TokenLogProbs
 from .shared.content_delta import ContentDelta
+from .shared.shared_token_log_probs import SharedTokenLogProbs
 
 __all__ = ["ChatCompletionResponseStreamChunk", "Event", "Metric"]
 
@@ -20,7 +20,7 @@ class Event(BaseModel):
     event_type: Literal["start", "complete", "progress"]
     """Type of the event"""
 
-    logprobs: Optional[List[TokenLogProbs]] = None
+    logprobs: Optional[List[SharedTokenLogProbs]] = None
     """Optional log probabilities for generated tokens"""
 
     stop_reason: Optional[Literal["end_of_turn", "end_of_message", "out_of_tokens"]] = None
 
@@ -22,5 +22,6 @@
 from .tool_param_definition import ToolParamDefinition as ToolParamDefinition
 from .tool_response_message import ToolResponseMessage as ToolResponseMessage
 from .query_generator_config import QueryGeneratorConfig as QueryGeneratorConfig
+from .shared_token_log_probs import SharedTokenLogProbs as SharedTokenLogProbs
 from .chat_completion_response import ChatCompletionResponse as ChatCompletionResponse
 from .interleaved_content_item import InterleavedContentItem as InterleavedContentItem
@@ -4,11 +4,48 @@
 from typing_extensions import Literal, TypeAlias
 
 from ..._models import BaseModel
-from ..tool_def import ToolDef
 from .response_format import ResponseFormat
 from .sampling_params import SamplingParams
 
-__all__ = ["AgentConfig", "ToolConfig", "Toolgroup", "ToolgroupAgentToolGroupWithArgs"]
+__all__ = [
+    "AgentConfig",
+    "ClientTool",
+    "ClientToolParameter",
+    "ToolConfig",
+    "Toolgroup",
+    "ToolgroupAgentToolGroupWithArgs",
+]
+
+
+class ClientToolParameter(BaseModel):
+    description: str
+    """Human-readable description of what the parameter does"""
+
+    name: str
+    """Name of the parameter"""
+
+    parameter_type: str
+    """Type of the parameter (e.g., string, integer)"""
+
+    required: bool
+    """Whether this parameter is required for tool invocation"""
+
+    default: Union[bool, float, str, List[object], object, None] = None
+    """(Optional) Default value for the parameter if not provided"""
+
+
+class ClientTool(BaseModel):
+    name: str
+    """Name of the tool"""
+
+    description: Optional[str] = None
+    """(Optional) Human-readable description of what the tool does"""
+
+    metadata: Optional[Dict[str, Union[bool, float, str, List[object], object, None]]] = None
+    """(Optional) Additional metadata about the tool"""
+
+    parameters: Optional[List[ClientToolParameter]] = None
+    """(Optional) List of parameters this tool accepts"""
 
 
 class ToolConfig(BaseModel):
@@ -56,7 +93,7 @@ class AgentConfig(BaseModel):
     model: str
     """The model identifier to use for the agent"""
 
-    client_tools: Optional[List[ToolDef]] = None
+    client_tools: Optional[List[ClientTool]] = None
 
     enable_session_persistence: Optional[bool] = None
     """Optional flag indicating whether session data has to be persisted"""
 
@@ -1,13 +1,39 @@
 # File generated from our OpenAPI spec by Stainless. See CONTRIBUTING.md for details.
 
-from typing import List
+from typing import List, Optional
+from typing_extensions import Literal
 
 from ..._models import BaseModel
-from ..completion_response import CompletionResponse
+from .shared_token_log_probs import SharedTokenLogProbs
 
-__all__ = ["BatchCompletion"]
+__all__ = ["BatchCompletion", "Batch", "BatchMetric"]
+
+
+class BatchMetric(BaseModel):
+    metric: str
+    """The name of the metric"""
+
+    value: float
+    """The numeric value of the metric"""
+
+    unit: Optional[str] = None
+    """(Optional) The unit of measurement for the metric value"""
+
+
+class Batch(BaseModel):
+    content: str
+    """The generated completion text"""
+
+    stop_reason: Literal["end_of_turn", "end_of_message", "out_of_tokens"]
+    """Reason why generation stopped"""
+
+    logprobs: Optional[List[SharedTokenLogProbs]] = None
+    """Optional log probabilities for generated tokens"""
+
+    metrics: Optional[List[BatchMetric]] = None
+    """(Optional) List of metrics associated with the API response"""
 
 
 class BatchCompletion(BaseModel):
-    batch: List[CompletionResponse]
+    batch: List[Batch]
     """List of completion responses, one for each input in the batch"""