火山引擎云服务器运维指南-实例诊断项汇总

axin 2025-04-02 7人围观 ,发现0个评论 火山引擎云服务器云服务器云服务器教程

👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>


本文汇总了实例自助诊断功能支持的所有诊断项、检测项、修复建议等详情。

计算服务健康诊断

诊断指标ID
诊断项说明
影响
修复建议
Instance.UtilizationHigh.CPU
检测CPU平均使用率、单个CPU使用率或单个进程使用率是否过高。
可能会导致系统响应速度减慢,引发实例卡顿、程序无响应等。
Linux系统的ECS实例CPU使用率或CPU负载较高问题的排查及解决方案
Instance.HighUtilization.Memory
检测实例内存使用率是否过高。
内存使用率过高,可能会导致:
  • 系统频繁进行内存交换,导致程序响应变慢、性能显著下降等。

  • 内存资源耗尽,无法分配足够的内存给新的进程或任务,引起程序无响应、系统崩溃等。

Linux系统的ECS实例内存使用率较高问题的排查及解决方案
Instance.SystemLockUp
检测是否存在Soft Lockup异常。
Soft Lockup异常,可能会导致系统完全停止响应(不响应、卡死),无法处理任何输入或输出、无法登录等。
虚拟机Softlock up问题解决方案
检测是否存在Hard Lockup异常。
Hard Lockup异常,可能会导致系统完全停止响应,无法处理任何输入或输出。
提交工单
Instance.LoginAuth
检测实例登录授权。
用户登录时输入密码/密钥错误,导致实例无法登录。
重置登录密码
Instance.HostCheck
检测实例宿主机(物理机)是否存在异常事件。
实例所在宿主机历史存在异常事件,可能造成实例运行风险。
运维事件解决与处理
Instance.DependenceCheck
检测实例依赖关键组件的连通性、组件是否正常。
实例组件和组件依赖组件的连通性异常,可能会导致实例产生带内Crash事件。
提交工单
Instance.RecentUtilHigh
检测IOPS负载是否达到过上限的85%。
实例内IOPS负载达到上限的85%,将会影响系统的整体响应时间和效率。
Linux系统的ECS实例磁盘BPS/IOPS负载高问题的排查及解决方案
检测BPS是否达到过上限的85%。
实例内BPS达到上限的85%,将会影响数据传输的速度。
Linux系统的ECS实例磁盘BPS/IOPS负载高问题的排查及解决方案
检测实例CPU负载占用是否过高。
实例内CPU负载过高,可能存在计算资源不足、僵尸进程过多,导致实例卡顿的情况。
Linux系统的ECS实例CPU使用率或CPU负载较高问题的排查及解决方案

实例配置管理诊断

诊断指标ID
诊断项说明
影响
修复建议
Instance.BootFailure
检测文件系统损坏。
文件系统损坏,可能会导致实例无法启动/登录。
Linux实例文件系统损坏修复方案
检测第三代云服务器实例Virtio版本过低。
Virtio版本过低,可能会导致实例无法启动。
三代实例因Virtio驱动问题无法启动的修复方案
检测实例fstab挂载设备异常。
fstab挂载设备异常,可能会导致实例无法启动。
Linux实例fstab配置修复方案

存储服务健康诊断

诊断指标ID
诊断项说明
影响
修复建议
Instance.HighUtilization.Disk
检测实例挂载的磁盘,磁盘空间使用率、磁盘Inode使用率是否过高。
使用率过高,可能会造成实例内的应用无法继续新建目录或者文件等。
  • Linux系统的ECS实例磁盘负载较高问题的排查及解决方案

  • Windows系统的ECS实例磁盘负载较高问题的排查及解决方案

Instance.IOHang
检测实例的系统盘是否存在IO延迟、IOHang的情况。
磁盘IO延迟升高、发生IOHang,可能会导致云盘无法进行读写操作。
为避免该情况再次发生,请您降低磁盘的读写频率或升级为更高性能的云盘类型。各类云盘的读写性能指标请参考块存储规格。

网络服务健康诊断

诊断指标ID
诊断项说明
影响
修复建议
Instance.NetworkPort
检测实例网络安全组关键端口是否放行。
实例运行期间安全组未放行常见端口,可能会导致实例无法正常连接。
放行实例网络安全组常见关键端口
检测实例网络ACL关键规则是否放行。
实例运行期间网络ACL规则未放行常见端口,可能会导致实例无法正常连接。
放行实例网络ACL规则关键端口
Instance.DDoSStatus
检测实例的公网IP是否受到DDos攻击。
实例的公网IP受到DDos攻击,实例将会无法正常访问。
购买防护产品抵御DDoS攻击

操作行为审计诊断

诊断指标ID
诊断项说明
影响
修复建议
Instance.UnexpectedFee
检测实例计费相关的操作行为审计,即实例在指定时间内是否存在计费变更。
实例在指定时间内存在计费变更,请判断是否符合预期,避免影响您的业务。
查看事件记录
Instance.UnexpectedStatus
检测非预期运维导致的实例状态变更,例如不符合操作预期的实例启动、停止等行为。
实例在指定时间内发生非预期运维事件导致的状态变更,请判断是否符合预期,避免影响您的业务。
查询并处理事件
Instance.UnexpectedSG
检测实例绑定的安全组或安全组规则更改审计。
  • 实例在指定时间内加入安全组,可能导致实例存在安全风险。

  • 实例在指定时间内离开安全组,可能导致实例无法正常连接。

查看事件记录
实例加入的安全组规则在指定时间内发生变更,可能导致实例无法正常连接或存在安全风险。

安全风险诊断

诊断指标ID
诊断项说明
影响
修复建议
Instance.SecurityRisk
检测实例是否存在安全风险。
实例存在安全风险,可能导致实例无法正常使用。
  • 查看安全状态

  • 开启安全加固

费用管理诊断

诊断指标ID
诊断项说明
影响
修复建议
Instance.Fee
检测包年包月实例是否已到期。
包年包月实例到期,实例将被关机停服,无法访问。
  • 包年包月到期后资源状态说明

  • 续费和退订说明

检测按量计费实例是否因为欠费导致停服。
账号已欠费,欠费后该实例将被关机停服,无法访问。
  • 按量计费实例欠费后资源状态说明

  • 结清账单

检查实例的组件是否已欠费。
欠费后实例关联的对应组件将被停服,实例的访问也将受到影响。
结清账单

实例操作系统内相关配置诊断(Linux)

诊断指标ID
诊断项说明
影响
修复建议
GuestOS.CPUUtil
检测实例CPU使用率是否过高。
实例CPU使用率过高,可能会导致系统响应速度减慢,引发实例卡顿、程序无响应等。
Linux系统的ECS实例CPU使用率或CPU负载较高问题的排查及解决方案
GuestOS.MemUtil
检测实例内存使用率是否过高。
内存使用率过高,可能会导致:
  • 系统频繁进行内存交换,导致程序响应变慢、性能显著下降等。

  • 内存资源耗尽,无法分配足够的内存给新的进程或任务,引起程序无响应、系统崩溃等。

Linux系统的ECS实例内存使用率较高问题的排查及解决方案
GuestOS.OSOOM
检测实例系统是否发生OOM。
实例系统内发生OOM,可能会造成内存分配失败。
Linux实例存在OOM处理方法
GuestOS.DiskUtil
检测实例磁盘相关配置、使用是否存在异常。
实例操作系统版本过低(异常),可能会引发IOHang现象。
如何规避由于操作系统内核版本过低出现IOHang问题
GuestOS.FileSystems
检测fstab中的设备是否存在。
实例/etc/fstab文件中配置的某个设备不存在,可能会导致实例无法启动。
Linux实例fstab配置修复方案
检测fstab是否正确挂载。
实例存在未在/etc/fstab中正确挂载的磁盘,可能会导致实例无法启动。
检测是否格式正确。
实例/etc/fstab文件中存在格式错误,可能会导致实例无法启动。
GuestOS.SSHServiceStatus
检测SSH的访问权限配置是否开启了多因素认证。
实例SSH访问权限开启了多因素认证,登录时同时需要密码和密钥,可能会导致ECS Terminal无法登录。
SSH配置问题导致无法登录解决方案
检测SSH是否允许root用户登录。
实例SSH服务当前禁止root账号登录,可能会导致实例root账号无法通过SSH访问。
检测SSH访问所需要的关键文件或目录是否存在。
实例SSH服务对应的关键文件或目录缺失,可能会导致实例无法通过SSH访问。
检测SSH访问所需要的关键文件格式是否异常。
实例SSH服务对应的关键文件格式错误,可能会导致实例无法通过SSH访问。
GuestOS.DriverStatus
检测系统Virtio版本是否异常。
实例系统Virtio驱动版本较低(异常),可能会造成实例无法正常运行、实例磁盘无法在线扩容等。
三代实例因Virtio驱动问题无法启动的修复方案
GuestOS.CloudInitService
检测Cloud Init服务状态。
实例的Cloud Init驱动处于异常状态,可能会导致实例在系统初始化阶段的相关系统配置无法正确执行,进而导致实例无法正常访问。
Linux系统中安装Cloud Init
检测Metaserver服务状态。
实例的Metaserver服务无法正常连接或连接超时,可能会导致实例的元数据无法正常访问。
网络建议配置解决方案
GuestOS.SystemConfig
检测SELinux是否开启。
实例当前SELinux服务开启,可能会导致SSH远程连接实例时无法登录。
网络建议配置解决方案
检测limits设置是否正确。
实例系统文件/etc/security/limits.conf中部分配置大于系统默认值,可能会导致实例无法远程登录。
调整Linux实例中limits系统参数的方法
检测大页内存设置是否过大。
实例的大页内存设置过大,可能会导致实例内存不足,无法远程登录。
调整Linux实例大页内存的方法
GuestOS.SystemUserPwd
检查关键系统用户密码是否存在。
实例的系统账号不存在,可能会导致实例无法登录、关键进程无法启动等。
Linux实例中系统用户不存在解决方案
GuestOS.Firewall
检测实例系统防火墙状态。
实例系统开启防火墙,并设置了屏蔽外界访问的规则,可能会导致远程访问实例失败。
开启或关闭Linux实例中的系统防火墙
GuestOS.NetworkStatus
检测实例带内访问OpenAPI 网关是否正常。
实例带内访问OpenAPI 网关异常,可能会造成带内监控丢失、无法访问OpenAPI等。
网络建议配置解决方案
检测DHCP配置情况下,网络相关进程是否存在。
实例网卡的DHCP服务进程处于关闭/不存在,可能会导致实例的IP地址在租约到期后无法续租,进而产生网络中断。
Linux系统网络不存在处理方法
检测网络相关端口80、443端口是否处于监听状态。
实例网络相关端口可能会正在被监听。
建议确认监听端口的进程是否符合预期,防止被恶意进程监听。
检测关键服务sshd是否处于监听状态。
实例sshd服务未启动,可能会造成实例无法远程登录。
SSHD未启动处理方法
检测网卡多队列是否开启。
实例未开启网卡多队列,可能会影响实例网络性能。
网络建议配置解决方案

实例操作系统内相关配置诊断(Windows)

诊断指标ID
诊断项说明
影响
修复建议
GuestOS.WinCPUUtil
检测实例CPU使用率是否过高。
实例CPU使用率过高,可能会导致系统响应速度减慢,引发实例卡顿、程序无响应等。
Windows系统的ECS实例CPU使用率或负载较高问题的排查及解决方案
GuestOS.WinMemoryUtil
检测内存相关配置、使用是否存在异常。
内存使用率过高,可能会导致:
  • 系统频繁进行内存交换,导致程序响应变慢、性能显著下降等。

  • 内存资源耗尽,无法分配足够的内存给新的进程或任务,引起程序无响应、系统崩溃等。

Windows系统的ECS实例内存使用率较高问题的排查及解决方案
实例为硬件保留内存过多时,可能造成内存的负载增高,导致实例卡顿。
Windows实例为硬件保留内存过多导致实例卡顿解决方案
GuestOS.WinDiskUtil
检测系统盘容量使用率是否过高。
实例系统盘(C盘)当前的剩余空间过小,可能导致系统运行缓慢甚至实例无法启动。
扩容云盘(Windows)
检测系统盘是否处于异常状态。
若实例的系统盘(C盘)若处于异常状态,可能会导致实例重启后无法启动,或实例驱动无法正常安装等情况。
  • Windows实例系统盘异常如何解决

  • 使用快照回滚云盘

说明
您还可以通过chkdsk命令检查所有磁盘的状态,发现并定位异常磁盘,通过sfc命令进行手动修复或替换。
检测virtIO驱动版本是否过低。
若实例因virtIO驱动版本过低导致出现重复的磁盘uniqueID,在进行磁盘重置操作时可能会导致实例上磁盘数据丢失。
Windows实例中更新Virtio驱动方法。
GuestOS.WinSystemConfig
检测关键系统文件是否缺失。
若实例系统目录(C:\Windows\)中的部分关键系统文件缺失,可能导致实例登录后出现黑屏或运行异常。
Windows系统的ECS实例无法远程登录(黑屏)解决方案
检测系统激活状态是否正常。
若实例使用的Windows系统处于未激活状态,可能导致Windows的部分服务无法正常使用。
Windows系统的ECS实例激活方法
检测系统补丁是否正确。
若实例安装了不正确的系统补丁,可能导致系统异常重启或夯机。
Windows实例中的系统补丁卸载方法
检测软件保护平台服务是否正确运行或启动。
若实例的软件保护平台服务(SPPSVC)未正常启动或运行,可能导致Windows系统无法激活和无法进入激活设置项。
Windows系统的ECS实例激活方法
检测是否正确连接到密钥管理服务的激活服务器。
若实例当前无法正常连接到密钥管理服务(KMS)的激活服务器,可能导致实例激活失败。
Windows系统ECS实例激活失败解决方案
检测密钥管理服务与Windows版本匹配情况。
若实例采用密钥管理服务(KMS)激活Windows系统时,KMS客户机所使用的激活密钥与Windows版本不一致,将会导致Windows系统激活失败。
检测crash dump配置状态。
若实例的crash dump配置为关闭状态,当系统出现异常重启或蓝屏时,系统无法保存相关信息进行故障排查。
Windows系统异常重启以及蓝屏的处理方法
检测操作系统版本是否过低。
若实例的操作系统版本过低,火山引擎及微软已不再维护,可能影响您的正常使用,建议升级操作系统。
更换操作系统
GuestOS.WinDriverStatus
检测驱动是否存在残留。
实例的磁盘过滤驱动存在残留文件,可能导致实例无法识别新挂载的磁盘。
Windows系统的ECS实例的磁盘驱动残留项检查方法
检测VirtIO驱动版本是否过低。
若实例的Virtio驱动版本过低低,可能影响实例出现蓝屏、网络丢包、磁盘数据丢失等风险。
Windows实例中更新Virtio驱动方法。
GuestOS.WinSystemProcess
检测系统关键进程状态(远程桌面服务状态)。
若实例的远程桌面连接服务(RDP)被禁用或被破坏,可能导致实例无法通过远程桌面进行访问。
建议重启或重新安装远程桌面连接服务(RDP),重新安装远程桌面服务执行命令:
说明
请在cmd或PowerShell中执行下述命令。
  • net stop TermService

  • net start TermService

检测系统关键进程状态(远程桌面服务防火墙状态)。
若实例的远程桌面连接服务(RDP)的访问被防火墙拦截,可能导致实例无法通过RDP进行访问。
Windows Server系统的ECS实例防火墙策略的配置方法
检测系统关键进程状态(远程桌面服务许可证状态)。
若实例的多人远程桌面服务的许可证已到期,可能导致RDP服务无法正常使用,进而导致实例无法通过远程桌面进行访问。
Windows系统的ECS实例远程登录失败(服务认证到期导致)的解决方案
检测系统关键进程状态(服务器元数据服务状态)。
若实例的元数据服务(metaserver)目前无法正常连接或连接超时,可能导致实例的元数据无法正常访问。
实例元数据概述
说明
请检查实例的防火墙配置是否拦截了IP地址100.96.0.96,如果该IP地址被拦截,请在防火墙设置中放行该IP地址后再访问元数据服务。关于防火墙策略配置。
GuestOS.WinSystemInit
检测系统初始化状态。
实例因创建时过早重启实例导致系统准备服务(SysPrep)的初始化过程中断,操作系统的部分关键配置未能正确完成,可能导致实例无法正常启动。
更换操作系统
GuestOS.WinSystemUser
检测系统账号和密码是否存在。
实例的Administrator账号不存在,可能会导致实例无法登录、关键进程无法启动等。
Windows系统实例中系统用户不存在的解决方案
GuestOS.WinNetworkStatus
检测系统端口状态。
若实例系统内端口目前处于未开放状态,或者防火墙处于开启状态,可能导致无法使用远程桌面连接RDP服务来访问该实例。
Windows系统实例启动远程桌面连接RDP服务的方法
检测远端桌面协议服务端口状态。
若实例的远程桌面协议(RDP)服务所使用的端口被其他进程占用,出现端口冲突,可能导致实例无法通过远程桌面进行访问。
Windows系统的实例远程登录时发生端口冲突的解决方案
检测实例网卡状态。
若实例的网卡目前处于不可用状态,可能导致实例无法远程连接。
Windows实例中系统网卡处于不可用状态修复方法
检测DHCP配置情况下,网络相关进程是否存在。
若实例网卡的DHCP服务进程处于关闭状态,可能导致实例的IP地址在租约到期后无法续租,进而产生网络中断的问题。
Windows实例中安装和配置DHCP服务器方法
检测网卡IP地址是否获取。
若实例的某个网卡未获取到IPv4地址,可能会导致服务无法访问的情况。
检测网络代理状态。
若实例配置了网络代理,可能会导致服务无法正常访问的情况。
Windows实例中重置代理的方法
GuestOS.WinLogin
检查登录状态。
实例由于多次输入错误密码导致被锁定用户账号,无法登录。
Windows实例账户锁定策略阈值调整方法
GuestOS.WinThirdPartSoftware
检测第三方软件安装状态。
若实例安装了第三方杀毒软件,可能导致实例的某些管理操作(比如重置密码、无法远程连接等)无法正常工作,进而造成实例异常。
Windows实例中卸载或删除应用和程序的方法

异构计算(GPU)诊断

诊断指标ID
诊断项说明
影响
修复建议
GuestOS.RdmaAgentService
检测RDMA网络配置器状态。
实例内rdma-agent.service服务未正常运行,可能引起RDMA网络无法正常使用、RDMA网络性能不达预期等情况。
RDMA网络配置器未正常执行解决方案
GuestOS.Nvidia.DriverStatus
检测GPU驱动版本。
实例内未检测到GPU驱动或驱动无响应,可能导致GPU无法正确使用。
安装GPU驱动
GuestOS.Nvidia.FabricmanagerService
检测实例上nvidia-fabricmanager.service服务状态。
实例内nvidia-fabricmanager.service服务状态异常,GPU将无法正确使用。
nvidia-fabricmanager.service状态异常解决方案
GuestOS.Nvidia.ModStatus
检测实例上GPU所需内核模块是否加载。
实例内GPU所需内核模块未加载,可能导致GPU部分功能无法正确使用、GPU性能下降等。
NVIDIA所需内核模块未加载解决方案
GuestOS.Nvidia.NicConfig
检测实例中RDMA网卡的片上配置是否正常。
实例内RDMA网卡的片上配置错误,可能导致RDMA网卡无法正确使用、RDMA网卡性能下降等。
提交工单
GuestOS.Nvidia.RailOptimized
检测实例中RDMA网卡是否进行多轨道组网。
实例内RDMA网卡未多轨道组网,可能导致RDMA网络性能下降。
提交工单
GuestOS.MonitorStatus
检测实例中火山引擎监控服务是否正常运行。
实例内监控服务未安装或状态异常,可能导致实例异常发现不及时。
安装插件
GuestOS.Nvidia.NvmlStatus
检测实例中nvidia NVML链接库是否正常。
实例内NVIDIA NVML链接库无法正常链接,可能导致实例中GPU异常发现不及时。
NVML链接库链接异常解决方案
GuestOS.Nvidia.OfedStatus
检测实例中是否正确安装RDMA网卡驱动,是否能正确获取RDMA网卡驱动版本。
实例内未检测到RDMA网卡驱动,可能导致RDMA网卡无法正确使用。
提交工单
GuestOS.Nvidia.Gdr
检测实例中GPU的GDR性能。
  • 若性能异常,可能导致实例内RDMA网卡到GPU之间GDR性能偏低。

  • 若性能测试无法启动,可能导致实例内RDMA网卡与GPU之间无法建立GDR连接。

提交工单
GuestOS.Nvidia.RdmaNic
检测RDMA网卡性能和连通性。
实例内RDMA网卡性能偏低或实例内RDMA网卡之间无法连通。
提交工单
GuestOS.Nvidia.NcclTest
检测实例中nvidia nccl-tests单机性能是否异常。
实例上NVIDIA nccl-tests检测结果性能偏低。
提交工单
GuestOS.Nvidia.H2dBandwidthTest
检测实例中GPU与主机间带宽性能是否异常。
实例上GPU与主机间带宽性能偏低。
提交工单
GuestOS.Nvidia.P2PBandwidthTest
检测实例中GPU与GPU间带宽性能和连通性是否异常。
实例上GPU与GPU之间的带宽性能偏低或无法连通。
提交工单
GuestOS.Nvidia.DcgmTest
检测NVIDIA DCGM是否全部通过。
可能导致其他NVIDIA GPU异常等。
提交工单
GuestOS.Hpc.ConnectivityTest
检测集群中RDMA网卡与交换机连通性,以及交换机的连通性。
实例中存在未与集群连通的RDMA网卡。
提交工单
GuestOS.Hpc.HpcEnvironmentTest
检测高性能计算GPU型实例是否在同一高性能计算集群中。
存在所选实例与其他实例不在同一个高性能计算集群中,将会导致资源利用不充分或不均衡等。
提交工单
GuestOS.Hpc.NcclTests
检测集群内实例之间的nccl-tests建连情况。
若集群NVIDIA nccl-tests建连失败,请结合异构机型性能异常诊断项的检测结果进行排查和分析。
提交工单
检测集群内实例之间的nccl-tests性能。
若集群内NVIDIA nccl-tests检查结果性能偏低,请结合异构机型性能异常诊断项的检测结果进行排查和分析;若检查过程中,GPU上有其他负载存在,请忽略此错误,如存在其他GPU问题,请修复后重试。
提交工单


请关注微信公众号
微信二维码
不容错过
Powered By TOPYUN 云产品资讯