前言
vLLM安装必须在Linux环境或者在Windows下的wsl2中安装。
环境变量
HF环境变量
1 | HF_HUB_CACHE |
MODELSCOPE环境变量
1 | MODELSCOPE_CACHE |
设置
1 | echo 'export MODELSCOPE_CACHE=/mnt/d/AI' >> ~/.bashrc |
注意
两者实际下载的层级结构不一致,不能共用同一个路径
获取
1 | import os |
加载模型可以使用完整路径
1 | model = Qwen3ASRModel.from_pretrained( |
创建虚拟环境
创建环境
1 | uv venv --python 3.12 |
下载模型
安装ModelScope
1 | uv pip install modelscope |
下载模型
1 | modelscope download --model Qwen/Qwen3-ASR-1.7B |
vLLM 后端
安装依赖
1 | uv pip install -U qwen-asr[vllm] |
测试
main01.py
1 | import os |
服务方式
1 | qwen-asr-serve Qwen/Qwen3-ASR-0.6B --gpu-memory-utilization 0.8 --host 0.0.0.0 --port 8000 |
调用
1 | import requests |
流式推理
main.py
1 | import io |