海光GPU及开发平台简介

前言

截至目前(2026 年),海光(Hygon)GPU 主要基于 DCU(Deep Computing Unit)架构,其硬件兼容 AMD 的 CDNA 架构,并通过 ROCm(Radeon Open Compute)平台 提供 AI 加速支持。因此,在海光 GPU 上运行 AI 模型的核心路径是:使用 ROCm 生态 + 兼容框架

ROCm 是 AMD 为自家 GPU(包括 Instinct 加速卡、Radeon 专业卡和部分消费级显卡)打造的 GPU 计算生态系统,对标 NVIDIA 的 CUDA。

PyTorch、TensorFlow、ONNX Runtime 等均有官方或社区 ROCm 适配版

ModelScope

ModelScope 魔搭社区

海光DCU

海光平台 DCU指的是由海光信息(Hygon)自主研发的、基于其 DCU(Deep Computing Unit,深度计算单元)加速芯片构建的高性能计算软硬件平台

架构兼容性

  • 基于 ROCm(Radeon Open Compute)生态开发;
  • ROCm 与 NVIDIA 的 CUDA 高度相似,因此被称为 “类 CUDA” 环境;
  • 这使得大量原本为 CUDA 编写的 AI 框架(如 PyTorch、TensorFlow)可较低成本迁移到海光 DCU 平台

海光开发者社区

光源-光合开发者社区

image-20260206104205196

简介

  • 驱动是显卡驱动。
  • DTK就相当于英伟达平台的CUDA Toolkit,必须要安装,版本要和驱动版本兼容。
  • DAK是AI相关的软件包。
  • 光源 镜像和测试过能使用的模型仓库,里面有模型的调用方式,不包含模型,模型还要从ModelScope上下载。

光源提供了集成相关组件的镜像,我们可以运行镜像在镜像内进行AI模型的调用

例如

下面这个镜像就是Ubuntu22.04的系统安装了DTK25.04.1,安装了vLLM0.8.5和Python3.10

1
2
3
4
5
6
7
8
9
10
11
12
13
docker run -it \
--network=host \
--ipc=host \
--shm-size=16G \
--device=/dev/kfd \
--device=/dev/mkfd \
--device=/dev/dri \
-v /opt/hyhal:/opt/hyhal \
--group-add video \
--cap-add=SYS_PTRACE \
--security-opt seccomp=unconfined \
image.sourcefind.cn:5000/dcu/admin/base/vllm:0.8.5-ubuntu22.04-dtk25.04.1-py3.10 \
/bin/bash

常用镜像

pytorch镜像

https://developer.sourcefind.cn/servicelist/detail?post_id=9f296762-b3c7-11f0-9a0f-acde48001122&active=TagDownload

vllm

https://developer.sourcefind.cn/servicelist/detail?post_id=61036870-b3c7-11f0-9989-acde48001122&active=TagDownload

适配说明

适配说明

驱动安装

查看驱动是否安装

1
lsmod | grep hycu

检查当前 Linux 系统内核中是否已加载名为 hycu 的内核模块(驱动)

在海光(Hygon)GPU 生态中,hycu 通常是 海光计算单元(Hygon Compute Unit)驱动模块的名称。

它是海光自研 GPU(如 P800、W100)在 Linux 系统中的核心内核驱动

查看显卡型号

1
clinfo | grep -A 2 "Device Type"

可以看到Board name

1
2
3
Device Type:                                   CL_DEVICE_TYPE_GPU
Vendor ID: 1d94h
Board name: K100_AI

GPU信息

GPU管理工具

1
/opt/hyhal/bin/hy-smi

hy-smi海光(Hygon)自研 GPU(如 P800、W100 等)配套的系统管理接口工具。

功能类似于 NVIDIA 的 nvidia-smi 或 AMD 的 rocm-smi,用于监控和管理海光 GPU 的状态,

包括:

  • 显存使用情况(总显存、已用、空闲)
  • GPU 利用率
  • 温度、功耗
  • 驱动版本
  • 设备拓扑等

输入

1
hy-smi

信息说明

你提供的 hy-smi(或类似海光 GPU 监控工具)输出信息如下:

1
2
3
HCU     Temp     AvgPwr     Perf     PwrCap     VRAM%      HCU%      Mode     
0 61.0C 108.0W auto 400.0W 0% 0.0% Normal
1 62.0C 112.0W auto 400.0W 0% 0.0% Normal

这是对 两张海光 GPU(HCU = Hygon Compute Unit) 的实时状态监控。下面逐列解释其含义:

各列详细说明

列名 含义 你的值示例 说明
HCU GPU 设备编号 0, 1 表示系统中第 0 号和第 1 号海光 GPU
Temp 温度 61.0°C, 62.0°C GPU 芯片当前温度,正常工作范围通常为 30–85°C
AvgPwr 当前平均功耗 108.0W, 112.0W GPU 实时功耗,远低于上限,说明负载很低
Perf 性能状态 auto 表示 GPU 处于自动频率调节模式(类似 NVIDIA 的 “P2” 或 “P8” 状态)
PwrCap 功耗上限(TDP) 400.0W 该 GPU 最大允许功耗为 400W(典型如 P800/W100 的规格)
VRAM% 显存使用率 0% 当前显存占用比例为 0% —— 注意:这只是使用率,不是总显存大小!
HCU% 计算单元利用率 0.0% GPU 核心计算单元空闲,无任务运行
Mode 运行模式 Normal 正常工作模式(非维护、节能或故障状态)

常用指令

查看剩余显存

1
hy-smi --showmemavailable

显示总显存和已用显存

1
hy-smi --showmeminfo vram

查看是否有进程在使用 GPU

1
hy-smi --showpids

查看显存是否启用 ECC(关键用于稳定性)

1
hy-smi --showmemeccinfo

总结速查表

目标 推荐参数
总显存 / 已用显存 --showmeminfo vram
剩余可用显存 --showmemavailable
GPU 核心频率 -g-c
显存频率 -c--showclkfrq
功耗上限 -M
当前运行的 GPU 进程 --showpids
ECC 错误检查 --showmemeccinfo

前提条件

确认你的海光 GPU 型号和驱动

必须安装 海光官方提供的 ROCm 兼容驱动栈(通常由服务器厂商或海光提供,非公开下载)。

验证命令(需 root 或 sudo):

1
2
rocminfo          # 查看 ROCm 设备信息
clinfo # 查看 OpenCL 支持(部分场景)

推理环境

推理环境要用海光提供的兼容版本

比如PyTorch、vLLM等

海光 GPU 调用 AI 模型路线图

image-20260203151716533