nvidia-fabricmanager.service状态异常解决方案

axin 2025-04-02 10人围观 ,发现0个评论 火山引擎云服务器云服务器云服务器教程


本文主要介绍如何排查和解决GPU实例在使用过程中,出现“nvidia-fabricmanager.service”的异常问题。

操作步骤

  1. 登录目标实例,操作详情可参考登录Linux实例。

  2. 请执行如下命令,确认nvidia-fabricmanager状态是否为active (running)。

    systemctl status nvidia-fabricmanager.service

    正常运行示例如下

    alt

  3. 若不是active (running)状态,请进行如下操作:

    • 若版本不一致,请保持一致,服务才能正常启动。

    • 若版本一致,执行如下命令,重启并检查服务状态。

      systemctl restart nvidia-fabricmanager.service
    1. 执行如下命令,查看服务版本。

      /usr/bin/nv-fabricmanager -v

      alt

    2. 执行如下命令,查看驱动版本。

      nvidia-smi
    3. 对比两者的版本是否一致。

    4. 若还未解决您的问题,请提交工单获取技术支持。

    5. 请确认实例是否需要nvidia-fabricmanager.service服务。
      仅高性能计算GPU型实例需要nvidia-fabricmanager.service服务,其他实例中的nvidia-fabricmanager服务状态异常或不存在,视为正常情况。关于高性能计算GPU型。

    6. 请确认实例上的nvidia-fabricmanager.service服务版本和驱动版本是否配套。


    请关注微信公众号
    微信二维码
    不容错过
    Powered By TOPYUN 云产品资讯