跳到主要内容

NVIDIA Triton

2026年2月5日 · 阅读需 1 分钟

GoCoding

NVIDIA Triton Inference Server provides an optimized cloud and edge inferencing solution.

NVIDIA Triton 是一个高性能的推理服务器，通过深度优化硬件利用率和并发处理能力，为云端和边缘提供超低延迟、高吞吐的模型推理服务。

它通过 Ensemble Models（模型集成）功能来实现多模型工作流，这是一种“服务器内部、紧密耦合”的流水线编排。支持 KServe 协议。

侧重极致性能和硬件优化，尤其适合生产级高吞吐、低延迟场景。

https://github.com/triton-inference-server/server