常用的模型推理引擎及统一推理框架Xinference的使用

前言

常见的推理引擎有

  • Transformers 引擎
  • vLLM引擎
  • lama.cpp 引擎
  • SGLang 引擎

Transformers 引擎

PyTorch(transformers) 引擎支持几乎有所的最新模型,这是 Pytorch 模型默认使用的引擎

vLLM引擎

企业级高并发 API 服务(生产首选)

vLLM 是一个支持高并发的高性能大模型推理引擎。

lama.cpp 引擎

主要用于本地端侧部署、个人实验、边缘设备。

llama-cpp-python 支持 ggufggml 格式的模型。

SGLang 引擎

复杂 Agent、长 System Prompt、工具调用

SGLang 具有基于 RadixAttention 的高性能推理运行时。它通过在多个调用之间自动重用KV缓存,显著加速了复杂 LLM 程序的执行。它还支持其他常见推理技术,如连续批处理和张量并行处理。

  • RadixAttention 前缀复用
  • 结构化输出(JSON Schema)
  • 多轮对话/Agent 场景优化

Ollama

新手入门、快速验证、非生产环境

  • 基于 llama.cpp 封装
  • 图形化/命令行一键部署
  • 内置模型库

Xinference

Xinference

Xinference 是一个开源的、统一的推理框架,专为大语言模型(LLM)、多模态模型和嵌入模型(embedding models)等 AI 模型的部署与推理而设计。

它由Xorbits AI团队开发并维护源于阿里核心工程师开源项目,旨在简化各类 AI 模型在本地或云端的部署流程,提供高性能、低延迟、易扩展的推理服务。

主要特点:

  1. 统一接口支持多种模型类型
    Xinference 支持:
    • 大语言模型(如 Llama、ChatGLM、Qwen 等)
    • 多模态模型(如 LLaVA、InternVL )
    • 嵌入模型(如 BGE、Sentence Transformers)
    • 语音识别/生成模型(部分支持)
  2. 开箱即用,部署简单
    通过 pip install xinference 即可安装,支持单机部署或分布式集群部署,提供 RESTful API 和 OpenAI 兼容接口,便于集成到现有系统。
  3. 高性能推理优化
    集成 vLLM、GGML、llama.cpp 等后端加速技术,支持量化(如 4-bit、8-bit)、GPU/CPU 混合推理,提升吞吐量并降低资源消耗。
  4. 模型自动发现与管理
    内置模型注册中心,支持从 Hugging Face、ModelScope 等平台自动拉取模型,并提供模型生命周期管理(启动、停止、扩缩容)。
  5. OpenAI API 兼容
    提供与 OpenAI API 高度兼容的接口(如 /v1/chat/completions),方便开发者无缝迁移现有应用。
  6. 社区驱动 & 开源生态
    项目托管于 GitHub(https://github.com/xorbitsai/inference),采用 Apache 2.0 许可证,鼓励社区贡献与插件扩展。