火山引擎云服务器运维指南-诊断实例健康状态

axin 2025-04-02 共177人围观，发现0个评论火山引擎云服务器云服务器云服务器教程

您可以通过诊断实例健康状态，了解实例当前健康情况，并对其故障或性能指标不达预期进行定位，支持对实例性能问题、实例无法登录问题、操作行为审计、安全风险检测、实例设备检测问题等进行诊断。

前提条件

批量作业客户端

检查待诊断实例是否已安装批量作业客户端，如果当前实例内未安装批量作业客户端，请安装批量作业客户端，否则可能出现如下问题：

诊断问题类型/场景
影响
实例性能问题
未安装批量作业，可能导致部分诊断项无法检测。
实例无法登录问题
操作行为审计
安全风险检测
实例设备检测问题
说明
该类型问题正在邀测中，如需试用，请联系客户经理申请。
未安装批量作业，则无法进行实例设备检测。

操作系统

若您选择的问题场景需要同时检测操作系统内部配置，请确保您的实例操作系统为如下版本：

操作系统类型
操作系统版本
CentOS
CentOS Stream 9 64 bit
CentOS Stream 8 64 bit
CentOS 7.1 ~ 7.9 64 bit
CentOS 6.9 64 bit
Ubuntu
Ubuntu 16.04 64 bit
Ubuntu 18.04 64 bit
Ubuntu 20.04 64 bit
Ubuntu 22.04 64 bit
Debian
Debian 12 64 bit
Debian 11 64 bit
Debian 10 64 bit
Debian 9 64 bit
veLinux
veLinux 1.0 64 bit
veLinux 1.0 Quick Boot 64 bit
veLinux 1.0 MLPS(Dengbao) 64 bit
veLinux 1.0 CentOS Compatible with 5.10 kernel 64 bit
veLinux 1.0 CentOS Compatible 64 bit
veLinux 1.0 with 5.10 kernel 64 bit
Windows Server
Windows Server 2022
Windows Server 2019
Windows Server 2016
Windows Server 2012 R2

说明

对于不支持的操作系统诊断运行效果不做保证。

使用限制

诊断问题类型/场景
诊断次数
诊断时间间隔
单次执行实例台数
实例性能问题
同一账号当天最多支持诊断100次。
前后2次的诊断时间间隔需要超过5分钟，否则将返回本次诊断的上一次诊断报告。
说明
同一台实例不能同时存在一个进行中的诊断任务，即目标实例已处于正在诊断分析中时，请等待诊断结束后，再选择该实例进行新的诊断。
1
实例无法登录问题
操作行为审计
安全风险检测
实例设备检测问题
说明
该类型问题正在邀测中，如需试用，请联系客户经理申请。
不限诊断次数。
不限诊断时间间隔，但目标实例已处于正在诊断分析 中时，请等待诊断结束后，再选择该实例进行新的诊断。
GPU设备健康检查：不超过100。
高性能计算集群连通性检查：不超过2000。

操作说明

若为首次使用实例诊断服务，您需要单击“立即创建”按钮触发角色请求，即为您的账号授权一个拥有云服务器资源读写授信的角色（CustomRoleForDiagnose），实例诊断将扮演该角色访问您诊断任务涉及的云资源。

alt

说明

单击“立即创建”按钮后，系统将会自动完成授权。

跨服务访问属于IAM角色实现，该角色将您的云资源权限授予当前云服务，当前服务将通过角色扮演来访问其他云服务资源。关于访问控制。

操作步骤

登录实例控制台。

在左侧导航栏选择“运维与监控 > 实例诊断”。

在顶部导航栏选择目标实例所在项目与地域。

单击“实例诊断”按钮或“实例诊断”页签，根据实例待诊断的当前问题，配置对应信息。

参数	说明	取值样例
当前问题	选择实例使用过程中遇上的问题。取值：实例性能问题：指实例的CPU、内存、硬盘等使用率较高。实例无法登录场景：指运行中的实例无法远程访问或实例启动异常。操作行为审计：指实例费用变更、非预期实例状态变化、实例的安全组配置被修改等行为的审计。安全风险检测：指实例的安全风险检测。实例设备检测：指实例GPU健康、高性能计算集群连通性等设备检测，主要用于对GPU故障或性能指标不达预期进行定位。说明该功能正在邀测中，如需试用，请联系客户经理。该检测对实例上运行的业务有损，可能导致业务中断，检测前，请确认实例的业务状态，并选择合适的时间进行检测，例如在业务空闲时进行检测。诊断前将在实例内自动安装相关包和依赖，自定义镜像环境中，相关包和依赖有安装失败的风险，未安装成功会导致相关检测项诊断失败。 GPU设备健康检查：为实例级别检测，支持对所有GPU计算型实例进行检测，包括检测GPU实例单机内的设备健康（驱动配置、GPU卡和网卡配置是否正常等）、NCCL Test、机内带宽等。高性能计算集群连通性检查：为集群级别检测，支持对所有高性能计算GPU型实例进行检测，包括检测集群中RDMA网卡和交换机的连通性，以及所选实例是否在同一个高性能计算集群。	实例性能问题
排查日期	指定诊断的开始、结束日期。说明当前问题为“实例设备检测”时，不支持设置排查日期，默认以实例诊断请求提交时间为准。当前问题为“网络问题诊断”时，无需设置排查日期。除“实例设备检测”外，其他问题支持选择7天内实例运行历史进行诊断，且诊断周期最长不能超过12小时。假设当前日期为2024年03月12日，您可以选择2024年03月06日到当前日期内，不超过12小时的周期进行诊断。例如： 2024-03-06 00:00 - 2024-03-06 12:00 2024-03-07 00:00 - 2024-03-07 08:00 2024-03-09 23:00 - 2024-03-10 09:00	2024-03-06 00:00 - 2024-03-06 12:00
实例选择	选择待诊断的目标实例。单个诊断：当前所有问题均支持单个诊断，即一次只能选择一个目标实例进行诊断。批量诊断：暂仅“实例设备检测”问题支持批量诊断，即一次可以选择多台目标实例进行诊断。注意若目标实例已经处于正在诊断分析的流程中，请等待诊断结束后，再选择该实例进行新的诊断。当前问题为“网络问题诊断”时，无需选择待诊断的实例。	-

完成配置后，单击“开始诊断”按钮，进入诊断流程。

等待诊断结束后，即可查看本次实例诊断结果。

建议修复

若存在建议修复的项，请根据修复建议指引或诊断项修复建议完成修复，并单击“重新诊断”按钮，再次进行诊断，确认异常是否已被修复。

说明

当为“同一个VPC下实例的ICMP连通性”诊断项时，“重新诊断”按钮为置灰状态，即不支持重新诊断。

诊断分析下载

诊断分析包含本次诊断的详细数据，例如GDR性能实际值和GDR性能预期值等性能数据。

单击“诊断分析下载”按钮，即可将本次检测的诊断分析报告以txt文件格式下载到本地，名称为“dr-$文件自动生成的编号$-detail”。

说明

暂仅实例设备检测中的“GPU设备健康检查”问题支持下载诊断分析报告，且仅支持下载最近7天的诊断报告。

诊断结果反馈

您可以对诊断结果进行反馈，便于火山引擎对您的问题进行评估、校准或提供技术支持等。

说明

支持重复反馈，将会以最新一次反馈结果为准。

问题已解决：若问题已解决，您可以单击“问题已解决”按钮，此时，您的反馈已收到，感谢您的评价。

问题未解决：若问题未解决，请单击“问题未解决”按钮，并提交工单获取技术支持。

上一篇：火山引擎云服务器运维指南-实例诊断概述下一篇：火山引擎云服务器运维指南-查看历史诊断报告

火山引擎云服务器运维指南-诊断实例健康状态

前提条件

批量作业客户端

操作系统

使用限制

操作说明

操作步骤

最近文章

游戏辅助工具部署，2 核 4G10M 云服务器低延迟响应快

2 核 4G10M 云服务器租用送备案服务，合法合规运营网站

教育机构小程序部署，2 核 4G10M 云服务器流畅承载用户访问

租用i9-14900K云服务器的跨区域数据同步功能是否可用？

火山引擎私有网络使用指南-管理镜像目的

个人网站云服务器租用百问-是否有专属客户经理对接大客户？

android云主机哪里有租用的？

关于我们

广告服务

关注我们

赞助商

诊断问题类型/场景	影响
实例性能问题	未安装批量作业，可能导致部分诊断项无法检测。
实例无法登录问题
操作行为审计
安全风险检测
实例设备检测问题说明该类型问题正在邀测中，如需试用，请联系客户经理申请。	未安装批量作业，则无法进行实例设备检测。

操作系统类型	操作系统版本
CentOS	CentOS Stream 9 64 bit CentOS Stream 8 64 bit CentOS 7.1 ~ 7.9 64 bit CentOS 6.9 64 bit
Ubuntu	Ubuntu 16.04 64 bit Ubuntu 18.04 64 bit Ubuntu 20.04 64 bit Ubuntu 22.04 64 bit
Debian	Debian 12 64 bit Debian 11 64 bit Debian 10 64 bit Debian 9 64 bit
veLinux	veLinux 1.0 64 bit veLinux 1.0 Quick Boot 64 bit veLinux 1.0 MLPS(Dengbao) 64 bit veLinux 1.0 CentOS Compatible with 5.10 kernel 64 bit veLinux 1.0 CentOS Compatible 64 bit veLinux 1.0 with 5.10 kernel 64 bit
Windows Server	Windows Server 2022 Windows Server 2019 Windows Server 2016 Windows Server 2012 R2
Windows Server

诊断问题类型/场景	诊断次数	诊断时间间隔	单次执行实例台数
实例性能问题	同一账号当天最多支持诊断100次。	前后2次的诊断时间间隔需要超过5分钟，否则将返回本次诊断的上一次诊断报告。说明同一台实例不能同时存在一个进行中的诊断任务，即目标实例已处于正在诊断分析中时，请等待诊断结束后，再选择该实例进行新的诊断。	1
实例无法登录问题
操作行为审计
安全风险检测
实例设备检测问题说明该类型问题正在邀测中，如需试用，请联系客户经理申请。	不限诊断次数。	不限诊断时间间隔，但目标实例已处于正在诊断分析中时，请等待诊断结束后，再选择该实例进行新的诊断。	GPU设备健康检查：不超过100。高性能计算集群连通性检查：不超过2000。

火山引擎云服务器运维指南-诊断实例健康状态

前提条件

批量作业客户端

操作系统

使用限制

操作说明

操作步骤

最近文章

游戏辅助工具部署，2 核 4G10M 云服务器低延迟响应快​

2 核 4G10M 云服务器租用送备案服务，合法合规运营网站​

教育机构小程序部署，2 核 4G10M 云服务器流畅承载用户访问​

​​租用i9-14900K​​云服务器的跨区域数据同步功能是否可用？

火山引擎私有网络使用指南-管理镜像目的

个人网站云服务器租用百问-是否有专属客户经理对接大客户？

android云主机哪里有租用的？

关于我们

广告服务

关注我们

赞助商

游戏辅助工具部署，2 核 4G10M 云服务器低延迟响应快

2 核 4G10M 云服务器租用送备案服务，合法合规运营网站

教育机构小程序部署，2 核 4G10M 云服务器流畅承载用户访问

租用i9-14900K云服务器的跨区域数据同步功能是否可用？