👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>
针对GPU云服务器,火山引擎为您提供了其特有的GPU监控及RDMA监控,可帮助您快速了解实例显卡、RDMA网络信息。
使用说明
暂仅支持GPU云服务器使用,规格详情可查看异构计算。
您还可根据创建告警策略指引,配置GPU卡、RDMA卡指标数据异常告警。
说明
“告警对象”请选择“弹性计算 > 云服务器”。
“维度”请选择“GPU卡”或“RDMA卡”。
操作步骤
登录云服务器控制台。
在顶部导航栏选择目标实例所属的项目和地域。
在左侧导航树,选择“实例与镜像 > 实例”,进入实例列表页。
单击目标实例名称,进入该实例的详情页面。
选择“监控”页签,您可以在“GPU监控”、“RDMA监控”两个数据页签查看实例数据。
GPU监控
您可以在本页面查看显存使用量、GPU使用率、GPU温度等指标信息。
说明
仅显卡类型为A100/A800且显卡数量≥2的规格实例,可查看“NVLINK出/入方向总带宽”指标。

RDMA监控
您可以在本页面查看“RDMA网络流入/流出速率”、“接收/发送的RDMA数据包数量”、“RDMA网络出/入方向暂停包数量”等指标信息。
说明
仅高性能计算GPU型及显卡类型为A100/A800的规格实例,可查看“RDMA网络发送/接收包数量”、“RDMA网络出/入方向暂停包数量”、“RDMA网络出/入方向流量暂停时间”指标。
相关步骤
您还可以为GPU监控和RDMA监控创建告警策略,以便及时获取实例异常状态,确保其正常运行。