跳到主要内容

3 篇博文 含有标签「Cloud」

查看所有标签

BentoML

· 阅读需 1 分钟
GoCoding

BentoML is the easiest way to serve AI apps and models - Build Model Inference APIs, Job queues, LLM apps, Multi-model pipelines, and more!

BentoML 是一个灵活的AI应用服务框架,致力于简化从模型到生产级API服务的打包和部署过程。

侧重易用性和应用构建,适合打包完整AI云端服务。

https://github.com/bentoml/BentoML

KServe

· 阅读需 1 分钟
GoCoding

KServe is a standardized distributed generative and predictive AI inference platform for scalable, multi-framework deployment on Kubernetes.

KServe 是一个专为Kubernetes设计的标准化模型部署平台,支持在云原生环境中大规模、多框架地部署AI模型。

侧重标准化和多框架,是云原生的编排标准。

https://github.com/kserve/kserve

NVIDIA Triton

· 阅读需 1 分钟
GoCoding

NVIDIA Triton Inference Server provides an optimized cloud and edge inferencing solution.

NVIDIA Triton 是一个高性能的推理服务器,通过深度优化硬件利用率和并发处理能力,为云端和边缘提供超低延迟、高吞吐的模型推理服务。

它通过 Ensemble Models(模型集成)功能来实现多模型工作流,这是一种“服务器内部、紧密耦合”的流水线编排。支持 KServe 协议。

侧重极致性能和硬件优化,尤其适合生产级高吞吐、低延迟场景。

https://github.com/triton-inference-server/server