原生多模态模型Qwen3.5-35B-A3B部署与使用

前言

Qwen3.5 在多个方面实现显著增强:

  1. 多模态融合:通过早期视觉-语言融合,在多项基准上媲美 Qwen3 并超越 Qwen3-VL;
  2. 高效推理架构:采用门控 Delta 网络与稀疏混合专家机制,实现低延迟、低成本、高吞吐;
  3. 强化学习泛化:在百万级智能体环境中训练,逐步提升任务复杂度,增强现实适应力;
  4. 全球语言支持:覆盖 201 种语言及方言,具备文化与区域敏感性;
  5. 先进训练体系:多模态训练效率接近纯文本水平,并集成异步强化学习与大规模环境编排能力。

对比

image-20260303013510209

模型下载

千问3.5-35B-A3B · 模型库

光合开发者社区

1
modelscope download --model Qwen/Qwen3.5-35B-A3B

Docker

Dockerfile

1
2
3
4
5
FROM image.sourcefind.cn:5000/dcu/admin/base/custom:pytorch2.9.1-ubuntu22.04-dtk26.04-0130-py3.10-20260204-qwen3_5
RUN pip install modelscope
ENV MODELSCOPE_CACHE="/data/tools/modelscope"
RUN pip install git+https://gitee.com/psvmc/transformers.git
RUN pip install numpy==1.25.0

模型运行脚本

run_model.sh

1
2
3
4
5
6
7
8
9
10
11
MODEL_PORT=${MODEL_PORT:-8001}
MODEL_NAME=${MODEL_NAME:-Qwen/Qwen3.5-35B-A3B}
GPU_NUM=${GPU_NUM:-1}

VLLM_USE_MODELSCOPE=true vllm serve ${MODEL_NAME} \
--tensor-parallel-size ${GPU_NUM} \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--gpu-memory-utilization 0.9 \
--host 0.0.0.0 \
--port ${MODEL_PORT}

实测

海光DCU 2张 64G可运行

运行方式

标准版本

这种方式海光DCU上正常运行。✔️

以下命令可用于在 8 个 GPU 上使用张量并行创建一个最大上下文长度为 262,144 个 token 的 API 端点。

1
VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3

工具调用

这种方式海光DCU上无法运行。✖️

若要支持工具调用,可使用以下命令。

1
VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder

多 Token 预测(MTP)

这种方式海光DCU上无法运行。✖️

推荐使用以下命令进行 MTP:

1
VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

纯文本模式

这种方式海光DCU上正常运行。✔️

以下命令将跳过视觉编码器和多模态配置,以释放更多内存用于 KV 缓存:

1
VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --language-model-only

测试

文字

1
2
3
4
5
6
7
8
9
10
11
12
13
{
"model": "Qwen/Qwen3.5-35B-A3B",
"messages": [
{
"role": "user",
"content": "你好"
}
],
"stream": true,
"chat_template_kwargs": {
"enable_thinking": false
}
}

图像

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
{
"model": "Qwen/Qwen3.5-35B-A3B",
"messages": [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"
}
},
{
"type": "text",
"text": "请详细描述这张图片的内容。"
}
]
}
],
"max_tokens": 512,
"temperature": 0.7
}