火山引擎GPU云服务器指南-管理集群事件

axin 2025-04-22 9人围观 ,发现0个评论 显卡服务器租用GPU服务器租用远程电脑租用独立显卡服务器GPU云服务器租用火山引擎GPU云服务器GPU云服务器教程

👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>

集群事件监控用于记录和通知高性能计算集群内GPU型实例事件信息,当实例触发系统事件(例如:系统故障,导致实例重新部署)时,您可以及时查看事件详情并进行处理。

事件概述

  • 事件状态:展示事件在其生命周期中所处的不同阶段或情况,详情请参见事件概述。

  • 事件类型与事件名称命名规则:事件类型与事件名称,遵循固定规则命名。了解命名规则后,您可以通过事件名称快速理解事件含义,详情请参见事件类型与事件名称命名规则。

事件汇总

介绍支持的事件类型、状态、名称及推荐操作等信息。

类别事件类型事件名称说明
计划内运维事件SystemMaintenance.Redeploy系统维护,实例重新部署事件说明、影响、用户侧建议操作等请参见计划内运维事件。
InfrastructureUpgrade.Redeploy基础设施升级,实例重新部署
非预期运维事件SystemFailure.Redeploy系统故障,导致实例重新部署事件说明、影响、用户侧建议操作等请参见非预期运维事件。
GpuRiskDetectedGPU运行存在风险
DiskErrorDetected硬盘异常

查询并处理事件

您可以通过云服务器控制台查询并处理事件,为避免业务受到影响,收到事件通知后,请您及时查看并处理。

  1. 登录云服务器控制台。

  2. 在左侧导航树,选择“实例与镜像 > 高性能计算集群”。

  3. 在顶部导航栏,选择触发事件资源所属的项目和地域。

  4. 单击目标实例后,单击“事件列表”页签。

  5. 您可以在“待处理”或“全部”页面查看并处理事件,也可以通过时间段、事件ID等筛选事件信息并进行处理。关于更多操作说明请参见查询并处理事件。

    alt

    • 待处理(默认):仅展示该集群所有待响应事件。

    • 全部:展示该集群当前全部运维类事件,包括已处理和待处理事件。

配置事件监控通知

当高性能计算集群内的GPU型实例触发监控事件时,您可以通过订阅消息中心通知与配置云监控通知接收事件通知。

  • 您是否配置“接收事件通知”,都不影响事件在云服务器控制台展示,关于在控制台查询并处理事件。

  • 配置消息中心与云监控接收事件通知,相比从控制台获取事件信息更加及时和便捷。


火山引擎GPU云服务器使用指南-HPC搭建Slurm计算集群

  • 火山引擎GPU云服务器使用指南-HPC配置NCCL

    火山引擎GPU云服务器使用指南-HPC配置NCCL

  • 火山引擎GPU云服务器指南-搭建AIGC能力(Windows)

    火山引擎GPU云服务器指南-搭建AIGC能力(Windows)

  • 火山引擎GPU云服务器指南-搭建AIGC能力(Linux)

    火山引擎GPU云服务器指南-搭建AIGC能力(Linux)

  • 火山引擎GPU云服务器指南-部署Pytorch应用

    火山引擎GPU云服务器指南-部署Pytorch应用

  • 794文章数 0评论数
    热门文章
    最近发表

    火山引擎GPU云服务器使用指南-HPC搭建Slurm计算集群

    2025-04-23
  • 火山引擎GPU云服务器使用指南-HPC配置NCCL
  • 标签列表
    请关注微信公众号
    微信二维码
    不容错过
    Powered By TOPYUN 云产品资讯