👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>
集群事件监控用于记录和通知高性能计算集群内GPU型实例事件信息,当实例触发系统事件(例如:系统故障,导致实例重新部署)时,您可以及时查看事件详情并进行处理。
事件概述
事件状态:展示事件在其生命周期中所处的不同阶段或情况,详情请参见事件概述。
事件类型与事件名称命名规则:事件类型与事件名称,遵循固定规则命名。了解命名规则后,您可以通过事件名称快速理解事件含义,详情请参见事件类型与事件名称命名规则。
事件汇总
介绍支持的事件类型、状态、名称及推荐操作等信息。
类别 | 事件类型 | 事件名称 | 说明 |
---|---|---|---|
计划内运维事件 | SystemMaintenance.Redeploy | 系统维护,实例重新部署 | 事件说明、影响、用户侧建议操作等请参见计划内运维事件。 |
InfrastructureUpgrade.Redeploy | 基础设施升级,实例重新部署 | ||
非预期运维事件 | SystemFailure.Redeploy | 系统故障,导致实例重新部署 | 事件说明、影响、用户侧建议操作等请参见非预期运维事件。 |
GpuRiskDetected | GPU运行存在风险 | ||
DiskErrorDetected | 硬盘异常 |
查询并处理事件
您可以通过云服务器控制台查询并处理事件,为避免业务受到影响,收到事件通知后,请您及时查看并处理。
登录云服务器控制台。
在左侧导航树,选择“实例与镜像 > 高性能计算集群”。
在顶部导航栏,选择触发事件资源所属的项目和地域。
单击目标实例后,单击“事件列表”页签。
您可以在“待处理”或“全部”页面查看并处理事件,也可以通过时间段、事件ID等筛选事件信息并进行处理。关于更多操作说明请参见查询并处理事件。
待处理(默认):仅展示该集群所有待响应事件。
全部:展示该集群当前全部运维类事件,包括已处理和待处理事件。
配置事件监控通知
当高性能计算集群内的GPU型实例触发监控事件时,您可以通过订阅消息中心通知与配置云监控通知接收事件通知。
您是否配置“接收事件通知”,都不影响事件在云服务器控制台展示,关于在控制台查询并处理事件。
配置消息中心与云监控接收事件通知,相比从控制台获取事件信息更加及时和便捷。