前言

常见的推理引擎有

Transformers 引擎

PyTorch(transformers) 引擎支持几乎有所的最新模型，这是 Pytorch 模型默认使用的引擎

企业级高并发 API 服务（生产首选）

vLLM 是一个支持高并发的高性能大模型推理引擎。

主要用于本地端侧部署、个人实验、边缘设备。

llama-cpp-python 支持 gguf 和 ggml 格式的模型。

复杂 Agent、长 System Prompt、工具调用

SGLang 具有基于 RadixAttention 的高性能推理运行时。它通过在多个调用之间自动重用KV缓存，显著加速了复杂 LLM 程序的执行。它还支持其他常见推理技术，如连续批处理和张量并行处理。

新手入门、快速验证、非生产环境

Xinference 是一个开源的、统一的推理框架，专为大语言模型（LLM）、多模态模型和嵌入模型（embedding models）等 AI 模型的部署与推理而设计。

它由Xorbits AI团队开发并维护源于阿里核心工程师开源项目，旨在简化各类 AI 模型在本地或云端的部署流程，提供高性能、低延迟、易扩展的推理服务。

主要特点：

统一接口支持多种模型类型
Xinference 支持：
- 大语言模型（如 Llama、ChatGLM、Qwen 等）
- 多模态模型（如 LLaVA、InternVL ）
- 嵌入模型（如 BGE、Sentence Transformers）
- 语音识别/生成模型（部分支持）
开箱即用，部署简单
通过 pip install xinference 即可安装，支持单机部署或分布式集群部署，提供 RESTful API 和 OpenAI 兼容接口，便于集成到现有系统。
高性能推理优化
集成 vLLM、GGML、llama.cpp 等后端加速技术，支持量化（如 4-bit、8-bit）、GPU/CPU 混合推理，提升吞吐量并降低资源消耗。
模型自动发现与管理
内置模型注册中心，支持从 Hugging Face、ModelScope 等平台自动拉取模型，并提供模型生命周期管理（启动、停止、扩缩容）。
OpenAI API 兼容
提供与 OpenAI API 高度兼容的接口（如 /v1/chat/completions），方便开发者无缝迁移现有应用。
社区驱动 & 开源生态
项目托管于 GitHub（https://github.com/xorbitsai/inference），采用 Apache 2.0 许可证，鼓励社区贡献与插件扩展。