👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>NVIDIA Tesla驱动问题哪些实例需要安装NVIDIA Tesla驱动?GPU计算型和高性能计算GPU型实例推荐安装NVIDIA Tesla驱动(GPU驱动、CUDA工具包等),具体规格族请参见实例规格介绍。实例如何安装GPU驱动?方式一:创建GPU实例时同时安装Tesla驱...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>何时应选择使用GPU的实例?GPU作为一种计算芯片,其优势非常明显,具有实时高速、强并行计算能力和强浮点计算能力等特点,尤其适用于并行度极高的应用程序,例如:使用数千个线程的工作负载。图形处理时有大量的计算要求,但其中每个任务都相对较小,执行的一组操作形成了一个管道,而此管道的吞吐...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>操作场景重置GPU可用于清除GPU硬件和软件状态,当GPU实例发生Xid错误或双位ECC错误时,重置GPU是有效的处理方式,有关Xid和ECC的错误详情及处理建议请参见如何判断和处理GPU硬件相关故障。注意GPU重置操作不能保证在所有情况下都有效,应谨慎使用。操作步骤终止GPU使用...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>如何判断和处理硬件相关故障?GPU实例相比普通云服务器实例,增加了较多的外设,包括GPU、RDMA网络直通网卡、本地盘等。因此,除普通云服务器可能发生的常见问题外,还有如GPU、直通网卡以及PCIe链路上发生的亚健康或故障。针对GPU实例的常见故障和处理建议具体如图1所示。图1 常...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>进入系统的syslog或dmesg中查看在出错时间附近是否有“xid”错误,“xid”错误信息包含NVRM: Xid,例如“xid”错误值为63:[Mon Jan 9 13:49:48 2023] NVRM: ...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>问题描述centos7.9系统中部署k8s,然后通过Nvidia GPU operator的方式运行Nvidia驱动,发现pod一直不能处于ready状态。问题分析查看Nvidia driver pod event无法获取有用信息,通过查看pod日志收集到以下信息。 问题...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>本文介绍如何配置、使用火山引擎提供的秒级监控功能。说明本功能正在邀测中,如需试用,请联系客户经理申请。操作场景在LLM(Large Language Model,大规模语言模型)训练场景中,常使用TP(Tensor Parallelism)/PP(Pipeline Parallel...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>搭建训练环境时,可能需要使用容器镜像,本文介绍如何在高性能计算GPU实例(即HPC实例)搭建容器镜像。您也可以参考本文检查您现有的容器镜像是否符合要求。前提条件本文HPC实例的镜像以 Ubuntu 20.04 64位(RDMA) 为例,您也可以任选其他RDMA镜...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>一个网卡只能绑定一个IP,但是可以为其设置多个IP地址用于连接多个网段,本文介绍如何为单网卡分配多个IP进行RDMA通信。前提条件您已购买高性能计算GPU型hpcpni2实例,具体操作请参见购买高性能计算GPU型实例。操作步骤登录云服务器,具体操作请参见登录Linux实例。执行ip...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>GPU性能计算器是一个模型性能估算工具,旨在构建AI模型在不同GPU卡型和不同机型上的快速性能评估能力,可自动化计算出特定模型在特定卡型上的预估训练/推理性能数据,提供性能数据来辅助判断选型。使用场景辅助采购决策对于需要搭建大规模计算集群的企业,如人工智能研究实验室、数据中心等,使...