👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>
进入系统的syslog或dmesg中查看在出错时间附近是否有“xid”错误,“xid”错误信息包含NVRM: Xid,例如“xid”错误值为63:
[Mon Jan 9 13:49:48 2023] NVRM: Xid (PCI:0000:6b:01): 63, pid=4881, Row Remapper: New row marked for remapping, reset gpu to activate.
说明
如果“xid”为13,31,43,45,68的错误,通常GPU可以自行修复。
如果出现其他“xid”错误,请提交工单处理,本文为您介绍如何手动修复“xid”为63的问题。
当出现以上“xid”错误63并提示“reset gpu”问题时,可以使用以下命令查看问题GPU.
nvidia-smi -q | grep -Ei "ECC Errors|Correctable|Volatile|Aggregate|Remap|^GPU|Bit ECC|Retired Pages"
例如下图GPU 6在remmap rows出现了不可修复的错误:
执行以下命令,查看nvidia-fabricmanager运行状态是否正常,回显Active: active (running)则表示正常。
systemctl status nvidia-fabricmanager执行nvidia-smi -r命令进行修复。