火山引擎云服务器运维指南-诊断实例健康状态

axin 2025-04-02 8人围观 ,发现0个评论 火山引擎云服务器云服务器云服务器教程

👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>


您可以通过诊断实例健康状态,了解实例当前健康情况,并对其故障或性能指标不达预期进行定位,支持对实例性能问题、实例无法登录问题、操作行为审计、安全风险检测、实例设备检测问题等进行诊断。

前提条件

批量作业客户端

检查待诊断实例是否已安装批量作业客户端,如果当前实例内未安装批量作业客户端,请安装批量作业客户端,否则可能出现如下问题:
诊断问题类型/场景
影响
实例性能问题
未安装批量作业,可能导致部分诊断项无法检测。
实例无法登录问题
操作行为审计
安全风险检测
实例设备检测问题
说明
该类型问题正在邀测中,如需试用,请联系客户经理申请。
未安装批量作业,则无法进行实例设备检测。

操作系统

若您选择的问题场景需要同时检测操作系统内部配置,请确保您的实例操作系统为如下版本:
操作系统类型
操作系统版本
CentOS
  • CentOS Stream 9 64 bit

  • CentOS Stream 8 64 bit

  • CentOS 7.1 ~ 7.9 64 bit

  • CentOS 6.9 64 bit

Ubuntu
  • Ubuntu 16.04 64 bit

  • Ubuntu 18.04 64 bit

  • Ubuntu 20.04 64 bit

  • Ubuntu 22.04 64 bit

Debian
  • Debian 12 64 bit

  • Debian 11 64 bit

  • Debian 10 64 bit

  • Debian 9 64 bit

veLinux
  • veLinux 1.0 64 bit

  • veLinux 1.0 Quick Boot 64 bit

  • veLinux 1.0 MLPS(Dengbao) 64 bit

  • veLinux 1.0 CentOS Compatible with 5.10 kernel 64 bit

  • veLinux 1.0 CentOS Compatible 64 bit

  • veLinux 1.0 with 5.10 kernel 64 bit

Windows Server
  • Windows Server 2022

  • Windows Server 2019

  • Windows Server 2016

  • Windows Server 2012 R2

说明
对于不支持的操作系统诊断运行效果不做保证。

使用限制

诊断问题类型/场景
诊断次数
诊断时间间隔
单次执行实例台数
实例性能问题
同一账号当天最多支持诊断100次。
前后2次的诊断时间间隔需要超过5分钟,否则将返回本次诊断的上一次诊断报告。
说明
同一台实例不能同时存在一个进行中的诊断任务,即目标实例已处于正在诊断分析中时,请等待诊断结束后,再选择该实例进行新的诊断。
1
实例无法登录问题
操作行为审计
安全风险检测
实例设备检测问题
说明
该类型问题正在邀测中,如需试用,请联系客户经理申请。
不限诊断次数。
不限诊断时间间隔,但目标实例已处于正在诊断分析 中时,请等待诊断结束后,再选择该实例进行新的诊断。
  • GPU设备健康检查:不超过100。

  • 高性能计算集群连通性检查:不超过2000。

操作说明

若为首次使用实例诊断服务,您需要单击“立即创建”按钮触发角色请求,即为您的账号授权一个拥有云服务器资源读写授信的角色(CustomRoleForDiagnose),实例诊断将扮演该角色访问您诊断任务涉及的云资源。

alt

说明
  • 单击“立即创建”按钮后,系统将会自动完成授权。

  • 跨服务访问属于IAM角色实现,该角色将您的云资源权限授予当前云服务,当前服务将通过角色扮演来访问其他云服务资源。关于访问控制。

操作步骤

  1. 登录实例控制台。

  1. 在左侧导航栏选择“运维与监控 > 实例诊断”。

  1. 在顶部导航栏选择目标实例所在项目与地域。

  1. 单击“实例诊断”按钮或“实例诊断”页签,根据实例待诊断的当前问题,配置对应信息。

参数
说明
取值样例
当前问题
选择实例使用过程中遇上的问题。取值:
  • 实例性能问题:指实例的CPU、内存、硬盘等使用率较高。

  • 实例无法登录场景:指运行中的实例无法远程访问或实例启动异常。

  • 操作行为审计:指实例费用变更、非预期实例状态变化、实例的安全组配置被修改等行为的审计。

  • 安全风险检测:指实例的安全风险检测。

  • 实例设备检测:指实例GPU健康、高性能计算集群连通性等设备检测,主要用于对GPU故障或性能指标不达预期进行定位。

说明
  • 该功能正在邀测中,如需试用,请联系客户经理。

  • 该检测对实例上运行的业务有损,可能导致业务中断,检测前,请确认实例的业务状态,并选择合适的时间进行检测,例如在业务空闲时进行检测。

  • 诊断前将在实例内自动安装相关包和依赖,自定义镜像环境中,相关包和依赖有安装失败的风险,未安装成功会导致相关检测项诊断失败。

    • GPU设备健康检查:为实例级别检测,支持对所有GPU计算型实例进行检测,包括检测GPU实例单机内的设备健康(驱动配置、GPU卡和网卡配置是否正常等)、NCCL Test、机内带宽等。

    • 高性能计算集群连通性检查:为集群级别检测,支持对所有高性能计算GPU型实例进行检测,包括检测集群中RDMA网卡和交换机的连通性,以及所选实例是否在同一个高性能计算集群。

实例性能问题
排查日期
指定诊断的开始、结束日期。
说明
  • 当前问题为“实例设备检测”时,不支持设置排查日期,默认以实例诊断请求提交时间为准。

  • 当前问题为“网络问题诊断”时,无需设置排查日期。

  • 除“实例设备检测”外,其他问题支持选择7天内实例运行历史进行诊断,且诊断周期最长不能超过12小时。 假设当前日期为2024年03月12日,您可以选择2024年03月06日到当前日期内,不超过12小时的周期进行诊断。例如:

    • 2024-03-06 00:00 - 2024-03-06 12:00

    • 2024-03-07 00:00 - 2024-03-07 08:00

    • 2024-03-09 23:00 - 2024-03-10 09:00

2024-03-06 00:00 - 2024-03-06 12:00
实例选择
选择待诊断的目标实例。
  • 单个诊断:当前所有问题均支持单个诊断,即一次只能选择一个目标实例进行诊断。

  • 批量诊断:暂仅“实例设备检测”问题支持批量诊断,即一次可以选择多台目标实例进行诊断。

注意
  • 若目标实例已经处于正在诊断分析 的流程中,请等待诊断结束后,再选择该实例进行新的诊断。

  • 当前问题为“网络问题诊断”时,无需选择待诊断的实例。

-
  1. 完成配置后,单击“开始诊断”按钮,进入诊断流程。

  1. 等待诊断结束后,即可查看本次实例诊断结果。

    • 建议修复

若存在建议修复的项,请根据修复建议指引或诊断项修复建议完成修复,并单击“重新诊断”按钮,再次进行诊断,确认异常是否已被修复。

说明
当为“同一个VPC下实例的ICMP连通性”诊断项时,“重新诊断”按钮为置灰状态,即不支持重新诊断。
    • 诊断分析下载

诊断分析包含本次诊断的详细数据,例如GDR性能实际值和GDR性能预期值等性能数据。
单击“诊断分析下载”按钮,即可将本次检测的诊断分析报告以txt文件格式下载到本地,名称为“dr-$文件自动生成的编号$-detail”。
说明
暂仅实例设备检测中的“GPU设备健康检查”问题支持下载诊断分析报告,且仅支持下载最近7天的诊断报告。

    • 诊断结果反馈

您可以对诊断结果进行反馈,便于火山引擎对您的问题进行评估、校准或提供技术支持等。
说明
支持重复反馈,将会以最新一次反馈结果为准。
      • 问题已解决:若问题已解决,您可以单击“问题已解决”按钮,此时,您的反馈已收到,感谢您的评价。

      • 问题未解决:若问题未解决,请单击“问题未解决”按钮,并提交工单获取技术支持。


请关注微信公众号
微信二维码
不容错过
Powered By TOPYUN 云产品资讯