火山引擎GPU云服务器指南-RDMA网络监控(hpcpni2)

axin 2025-04-22 10人围观 ,发现0个评论 显卡服务器租用GPU服务器租用远程电脑租用独立显卡服务器GPU云服务器租用火山引擎GPU云服务器GPU云服务器教程

👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>

创建 高性能计算GPU型hpcpni2 实例后,您可在实例内部手动安装RDMA网络观测性增强插件,用于监控RDMA网络的健康状况。

操作场景

  • 使用公共镜像创建的未开启“RDMA网络观测性增强”的 高性能计算GPU型hpcpni2 实例,“RDMA网络观测性增强”相关信息请参见创建高性能计算GPU型实例。

  • 使用自定义镜像创建的 高性能计算GPU型hpcpni2 实例。

安装RDMA网络增强

  1. 登录云服务器控制台。

  1. 在左侧导航树中选择“实例与镜像 > 实例”。

  1. 在顶部导航栏,选择目标实例的地域。

  1. 在实例列表页,使用root账号登录Linux实例。

  1. 登录成功后,按地域粘贴以下安装命令,并按回车键开始执行。

    • 华北2(北京):

bash -c "$(wget -q -O -  wget https://rdma-tool-beijing.tos-cn-beijing.volces.com/install_rdma_monitor.sh)"
    • 华东2(上海):

bash -c "$(wget -q -O -  wget https://rdma-tool-shanghai.tos-cn-shanghai.volces.com/install_rdma_monitor.sh)"
    • 华南1(广州):

bash -c "$(wget -q -O -  wget https://rdma-tool-guangzhou.tos-cn-guangzhou.volces.com/install_rdma_monitor.sh)"
  1. 查看安装结果。

反馈如下信息则安装成功,等待3-5分钟后插件即可正常采集监控数据。
rdma-monitor        installedrdma-monitor.service        start

卸载RDMA网络增强

如果您不再需要RDMA网络观测性增强功能,可以卸载RDMA网络增强插件。
  1. 登录实例。

  1. 执行以下命令完成卸载。

bash        /usr/local/rdma-monitor/uninstall.sh


火山引擎GPU云服务器使用指南-HPC搭建Slurm计算集群

  • 火山引擎GPU云服务器使用指南-HPC配置NCCL

    火山引擎GPU云服务器使用指南-HPC配置NCCL

  • 火山引擎GPU云服务器指南-搭建AIGC能力(Windows)

    火山引擎GPU云服务器指南-搭建AIGC能力(Windows)

  • 火山引擎GPU云服务器指南-搭建AIGC能力(Linux)

    火山引擎GPU云服务器指南-搭建AIGC能力(Linux)

  • 火山引擎GPU云服务器指南-部署Pytorch应用

    火山引擎GPU云服务器指南-部署Pytorch应用

  • 794文章数 0评论数
    热门文章
    最近发表

    火山引擎GPU云服务器使用指南-HPC搭建Slurm计算集群

    2025-04-23
  • 火山引擎GPU云服务器使用指南-HPC配置NCCL
  • 标签列表
    请关注微信公众号
    微信二维码
    不容错过
    Powered By TOPYUN 云产品资讯