本文主要介绍如何排查和解决GPU实例在使用过程中,出现“nvidia-fabricmanager.service”的异常问题。
操作步骤
登录目标实例,操作详情可参考登录Linux实例。
请执行如下命令,确认nvidia-fabricmanager状态是否为active (running)。
systemctl status nvidia-fabricmanager.service
正常运行示例如下
若不是active (running)状态,请进行如下操作:
若版本不一致,请保持一致,服务才能正常启动。
若版本一致,执行如下命令,重启并检查服务状态。
systemctl restart nvidia-fabricmanager.service
执行如下命令,查看服务版本。
/usr/bin/nv-fabricmanager -v
执行如下命令,查看驱动版本。
nvidia-smi
对比两者的版本是否一致。
若还未解决您的问题,请提交工单获取技术支持。
请确认实例是否需要nvidia-fabricmanager.service服务。
仅高性能计算GPU型实例需要nvidia-fabricmanager.service服务,其他实例中的nvidia-fabricmanager服务状态异常或不存在,视为正常情况。关于高性能计算GPU型。请确认实例上的nvidia-fabricmanager.service服务版本和驱动版本是否配套。