前言
常见的推理引擎有
- Transformers 引擎
- vLLM引擎
- lama.cpp 引擎
- SGLang 引擎
Transformers 引擎
PyTorch(transformers) 引擎支持几乎有所的最新模型,这是 Pytorch 模型默认使用的引擎
vLLM引擎
企业级高并发 API 服务(生产首选)
vLLM 是一个支持高并发的高性能大模型推理引擎。
lama.cpp 引擎
主要用于本地端侧部署、个人实验、边缘设备。
llama-cpp-python 支持 gguf 和 ggml 格式的模型。
SGLang 引擎
复杂 Agent、长 System Prompt、工具调用
SGLang 具有基于 RadixAttention 的高性能推理运行时。它通过在多个调用之间自动重用KV缓存,显著加速了复杂 LLM 程序的执行。它还支持其他常见推理技术,如连续批处理和张量并行处理。
- RadixAttention 前缀复用
- 结构化输出(JSON Schema)
- 多轮对话/Agent 场景优化
Ollama
新手入门、快速验证、非生产环境
- 基于 llama.cpp 封装
- 图形化/命令行一键部署
- 内置模型库
Xinference
Xinference 是一个开源的、统一的推理框架,专为大语言模型(LLM)、多模态模型和嵌入模型(embedding models)等 AI 模型的部署与推理而设计。
它由Xorbits AI团队开发并维护源于阿里核心工程师开源项目,旨在简化各类 AI 模型在本地或云端的部署流程,提供高性能、低延迟、易扩展的推理服务。
主要特点:
- 统一接口支持多种模型类型
Xinference 支持:- 大语言模型(如 Llama、ChatGLM、Qwen 等)
- 多模态模型(如 LLaVA、InternVL )
- 嵌入模型(如 BGE、Sentence Transformers)
- 语音识别/生成模型(部分支持)
- 开箱即用,部署简单
通过pip install xinference即可安装,支持单机部署或分布式集群部署,提供 RESTful API 和 OpenAI 兼容接口,便于集成到现有系统。 - 高性能推理优化
集成 vLLM、GGML、llama.cpp 等后端加速技术,支持量化(如 4-bit、8-bit)、GPU/CPU 混合推理,提升吞吐量并降低资源消耗。 - 模型自动发现与管理
内置模型注册中心,支持从 Hugging Face、ModelScope 等平台自动拉取模型,并提供模型生命周期管理(启动、停止、扩缩容)。 - OpenAI API 兼容
提供与 OpenAI API 高度兼容的接口(如/v1/chat/completions),方便开发者无缝迁移现有应用。 - 社区驱动 & 开源生态
项目托管于 GitHub(https://github.com/xorbitsai/inference),采用 Apache 2.0 许可证,鼓励社区贡献与插件扩展。