火山引擎云服务器怎么查看实例GPU/RDMA监控数据?

axin 2025-04-02 7人围观 ,发现0个评论 火山引擎云服务器云服务器云服务器教程

👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>


针对GPU云服务器,火山引擎为您提供了其特有的GPU监控及RDMA监控,可帮助您快速了解实例显卡、RDMA网络信息。

使用说明

  • 暂仅支持GPU云服务器使用,规格详情可查看异构计算。

  • 您还可根据创建告警策略指引,配置GPU卡、RDMA卡指标数据异常告警。

说明
  • “告警对象”请选择“弹性计算 > 云服务器”。

  • “维度”请选择“GPU卡”或“RDMA卡”。

操作步骤

  1. 登录云服务器控制台。

  1. 在顶部导航栏选择目标实例所属的项目和地域。

  1. 在左侧导航树,选择“实例与镜像 > 实例”,进入实例列表页。

  1. 单击目标实例名称,进入该实例的详情页面。

  1. 选择“监控”页签,您可以在“GPU监控”、“RDMA监控”两个数据页签查看实例数据。

    • GPU监控

您可以在本页面查看显存使用量、GPU使用率、GPU温度等指标信息。
说明
仅显卡类型为A100/A800且显卡数量≥2的规格实例,可查看“NVLINK出/入方向总带宽”指标。
    • RDMA监控

您可以在本页面查看“RDMA网络流入/流出速率”、“接收/发送的RDMA数据包数量”、“RDMA网络出/入方向暂停包数量”等指标信息。
说明
仅高性能计算GPU型及显卡类型为A100/A800的规格实例,可查看“RDMA网络发送/接收包数量”、“RDMA网络出/入方向暂停包数量”、“RDMA网络出/入方向流量暂停时间”指标。

相关步骤

您还可以为GPU监控和RDMA监控创建告警策略,以便及时获取实例异常状态,确保其正常运行。


请关注微信公众号
微信二维码
不容错过
Powered By TOPYUN 云产品资讯