火山引擎云服务器怎么通过更换故障盘解决本地盘故障-更换故障盘(弹性裸金属实例)

axin 2025-04-02 37人围观 ,发现0个评论 火山引擎云服务器云服务器云服务器教程

👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>


本文介绍出现裸金属型实例的本地盘故障时,如何完成更换故障硬盘授权操作。
本功能正在邀测中,如需试用,请联系客户经理申请。
注意
您需认真阅读和使用本文档,本文档视为火山引擎为您提供的云服务器服务规则的组成部分。如果您未按本文档指引进行操作,可能造成您业务损失,您理解并同意您将对此承担全部责任。

操作场景

收到DiskErrorDetected(硬盘异常)事件时,您可以授权火山引擎更换故障硬盘,避免由于硬盘故障导致实例宕机等更严重的故障。

注意事项

  • 暂仅支持本地SSD型弹性裸金属ebmi3s规格的实例使用本功能。

  • 请确保根据操作步骤指引,修改本地盘配置后,再进行运维授权,否则可能无法正常识别更换的新本地盘。

  • 更换故障盘可能导致数据丢失,请提前备份数据,以防数据丢失,例如通过硬盘、U盘等将重要数据拷贝到外部存储设备。

操作步骤

步骤一:获取故障硬盘序列号

当实例挂载的本地盘出现故障时,火山引擎将向您同步故障硬盘SN(Serial Number,序列号),方便您在实例内快速定位故障硬盘。
您可以调用DescribeSystemEvents接口,传入DiskErrorDetected(硬盘异常)事件ID。此时,返回数据中的SystemEvents.ExtraInfo.Serial参数值即为故障硬盘SN。

步骤二:修改硬盘配置

  1. 登录挂载故障盘的ECS实例,操作详情可查看登录实例。

  1. 执行如下命令,查看故障本地盘盘符。

请将$SN$替换为实际硬盘SN。
lsblk -oNAME,SERIAL | grep $SN$
  1. 执行如下命令,查看故障本地盘文件系统与其UUID。

请将/dev/vda2替换上一步中获取的实际故障盘盘符。
blkid /dev/vda2
  1. 执行如下命令,编辑/etc/fstab文件。

    1. 打开/etc/fstab文件。

vim /etc/fstab
    1. 按i键进入编辑模式,在文件中目标本地盘后添加nofail参数。

仅需加入nofail参数,无需调整其它内容。
fstab文件参数说明
参数
说明
24fd1325-bbf3-4814-b7e9-041deba*****
故障本地盘的UUID。
/
故障本地盘挂载点。
ext4
故障本地盘文件系统类型。
nofail
本地盘出现在文件系统中但实际缺失时,不会中断ECS实例的启动流程。
    1. 按esc键,输入:wq保存修改并退出。

  1. 执行如下命令,取消故障本地盘挂载。

umount /dev/vda2

步骤三:授权运维

  1. 登录云服务器控制台。

  1. 在左侧导航树,选择“运维与监控 > 事件监控”,进入事件监控页面。

  1. 在顶部导航栏选择业务所在地域与项目。

  1. 在事件监控页面,可以通过时间段或事件ID、实例ID搜索目标事件。

  1. 单击目标事件“操作”列的“运维操作”按钮,进入运维配置页面。

    1. “运维方式”请选择“更换故障盘”。

    1. 单击“授权运维”按钮,并单击确认弹窗中的“确定”按钮,授权火山引擎运维人员更换故障硬盘。

注意
  • 授权后,将生成DiskError.ReplaceDisk(因硬盘异常更换硬盘)事件,提示您更换故障盘进度。

  • 授权后,请勿对实例生命周期进行操作(例如重启、关机)。

  1. 更换故障盘流程出现异常时,将向您发送DiskError.ReplaceDisk:Pending事件通知。收到通知后,您需要根据提示重启实例或提交工单解决异常问题。

    • 通过重启实例解决问题

如下图所示,请您根据指引,单击“重启实例”按钮,重启实例解决异常。
    • 通过工单解决问题

如下图所示,请根据指引,单击“提交工单”按钮,联系火山引擎运维人员协助您解决异常。
  1. 更换故障盘成功,将向您发送DiskError.ReplaceDisk:Succeeded事件通知。

步骤四:进行硬件检测

  1. 登录实例。

  1. 在实例中执行如下命令,进行在位检测,确认本地盘是否连接到系统、是否可用。

nvme list
回显示例
本文以故障盘为/dev/nvme0n1为例,回显如下所示,正常展示磁盘的相关指标时,表示/dev/nvme0n1磁盘在位。
  1. 执行如下命令,检查目标磁盘的健康状态、坏道情况等SMART信息。

请将/dev/nvme0替换为实际磁盘名。
smartctl -d nvme -a /dev/nvme0
    • 回显示例

    • 参数说明

您需要关注回显信息中如下内容。
参数
无异常
异常说明
Critical Warning
0x00
  • 0x01 = available spare has fallen below threshold

  • 0x02 = temperature is above or below threshold

  • 0x04 = NVM subsystem reliability has been degraded

  • 0x08 = media has been placed in read only mode

  • 0x10 = volatile memory backup device has failed

  • 0x1f = unknown critical warning(s)

Error Information
No Errors Logged
error级别错误为可自修复性错误,您可以忽略。
Error Information Log Entries
0
大于 0 条信息表示设备存在异常,异常详情可查看Error Information参数的回显信息。
  1. 硬件检测均无异常后,即可挂载硬盘。

步骤五:挂载硬盘

  1. 通过硬件检测后,您需要登录实例挂载本地盘。

说明
  • 若更换故障盘后,实例未识别到本地盘,请提交工单获取技术支持。

  • 推荐您使用UUID而非设备名(如/dev/data1)进行挂载。

    1. 登录实例。

    1. 执行如下命令,查看未挂载(新本地盘)的数据盘信息。

lsblk -l
    1. 执行如下命令,为待挂载的数据盘制作文件系统。

mkfs -t <文件系统> <UUID>
    1. 执行如下命令,挂载数据盘。

mount -U <UUID> <挂载点>
  1. 执行如下命令,确认数据盘是否挂载成功。

df -h


  • 火山引擎GPU云服务器使用指南-HPC配置NCCL
  • 标签列表
    请关注微信公众号
    微信二维码
    不容错过
    Powered By TOPYUN 云产品资讯