基于 NVIDIA GPU 加速端点构建 Kimi K2.5 多模态视觉语言模型

发布时间：2026-02-11 15:16

Kimi K2.5 是 Kimi 模型家族最新推出的开放式视觉语言模型（VLM）。作为通用型多模态模型，Kimi K2.5 在当前高需求任务中表现出色，涵盖代理式 AI 工作流、对话、推理、编程、数学等领域。

该模型基于开源的 Megatron-LM 框架进行训练。Megatron-LM 通过多种并行策略（包括张量并行、数据并行、序列并行）为大规模 Transformer 模型训练提供加速计算支持，实现可扩展性和 GPU 优化。

该模型架构基于当前领先的尖端大型开放模型构建，兼具高效与能力。模型每层有384个专家，从而支持更小规模的专家及针对不同模态的专用路由机制。Kimi K2.5 实现了每 token 3.2% 的参数激活率。

Kimi K2.5模态文本，图像，视频总参数量1T激活参数量32.86B参数激活率3.2%输入上下文长度262K附加配置信息# 专家数量384# 共享专家数量1# 每个 token 的专家数量8# 层数61 (1 dense, 60 MoE)# 注意力头数量64词汇表大小~164K

表1. Kimi K2.5 型号规格与配置详情

在视觉处理能力方面，该模型拥有 16.4 万词的大型训练词汇表，其中包含视觉专属 token。Kimi 为该模型的视觉处理组件设计了 MoonViT3d 视觉塔（vision tower），可将图像和视频帧转换为嵌入向量。

图1. Kimi K2.5视觉管道

基于 NVIDIA GPU 加速的端点进行构建

作为 NVIDIA 开发者计划的一部分，用户可立即使用 Kimi K2.5 开始你构建。用户可在浏览器环境中使用自有数据。用于生产推理的容器 NVIDIA NIM 微服务即将推出。

视频1. 了解如何在 NVIDIA GPU 加速端点上测试 Kimi K2.5

用户还可以通过 API 使用 NVIDIA 托管的模型，注册 NVIDIA 开发者计划即可免费使用。

import requests invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions" headers = { "Authorization": "Bearer $NVIDIA_API_KEY", "Accept": "application/json", } payload = { "messages": [ { "role": "user", "content": "" } ], "model": "moonshotai/kimi-k2.5", "chat_template_kwargs": { "thinking": True }, "frequency_penalty": 0, "max_tokens": 16384, "presence_penalty": 0, "stream": True, "temperature": 1, "top_p": 1 } # re-use connections session = requests.Session() response = session.post(invoke_url, headers=headers, json=payload) response.raise_for_status() response_body = response.json() print(response_body)

要利用工具调用功能，只需定义一个兼容 OpenAI 的工具数组，将其添加到 chat completions 工具参数中即可。

使用vLLM进行部署

使用 vLLM 服务框架部署模型时，请按照以下说明操作。更多信息请参阅 Kimi K2.5 的 vLLM recipe。

$ uv venv $ source .venv/bin/activate $ uv pip install -U vllm --pre \ --extra-index-url https://wheels.vllm.ai/nightly/cu129 \ --extra-index-url https://download.pytorch.org/whl/cu129 \ --index-strategy unsafe-best-match