👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>如何查看GPU云服务器实例的监控数据?您可以通过云服务器控制台或云监控控制台查看监控数据。查看方式和支持的监控指标详情请参见查看监控数据。GPU云服务器实例支持查看GPU卡数据吗?支持。GPU云服务器支持基础监控、操作系统监控、GPU卡监控,详情请参见查看监控数据。如何查看GPU卡...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>NVIDIA Tesla驱动问题哪些实例需要安装NVIDIA Tesla驱动?GPU计算型和高性能计算GPU型实例推荐安装NVIDIA Tesla驱动(GPU驱动、CUDA工具包等),具体规格族请参见实例规格介绍。实例如何安装GPU驱动?方式一:创建GPU实例时同时安装Tesla驱...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>何时应选择使用GPU的实例?GPU作为一种计算芯片,其优势非常明显,具有实时高速、强并行计算能力和强浮点计算能力等特点,尤其适用于并行度极高的应用程序,例如:使用数千个线程的工作负载。图形处理时有大量的计算要求,但其中每个任务都相对较小,执行的一组操作形成了一个管道,而此管道的吞吐...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>操作场景重置GPU可用于清除GPU硬件和软件状态,当GPU实例发生Xid错误或双位ECC错误时,重置GPU是有效的处理方式,有关Xid和ECC的错误详情及处理建议请参见如何判断和处理GPU硬件相关故障。注意GPU重置操作不能保证在所有情况下都有效,应谨慎使用。操作步骤终止GPU使用...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>如何判断和处理硬件相关故障?GPU实例相比普通云服务器实例,增加了较多的外设,包括GPU、RDMA网络直通网卡、本地盘等。因此,除普通云服务器可能发生的常见问题外,还有如GPU、直通网卡以及PCIe链路上发生的亚健康或故障。针对GPU实例的常见故障和处理建议具体如图1所示。图1 常...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>进入系统的syslog或dmesg中查看在出错时间附近是否有“xid”错误,“xid”错误信息包含NVRM: Xid,例如“xid”错误值为63:[Mon Jan 9 13:49:48 2023] NVRM: ...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>问题描述centos7.9系统中部署k8s,然后通过Nvidia GPU operator的方式运行Nvidia驱动,发现pod一直不能处于ready状态。问题分析查看Nvidia driver pod event无法获取有用信息,通过查看pod日志收集到以下信息。 问题...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>本文介绍如何配置、使用火山引擎提供的秒级监控功能。说明本功能正在邀测中,如需试用,请联系客户经理申请。操作场景在LLM(Large Language Model,大规模语言模型)训练场景中,常使用TP(Tensor Parallelism)/PP(Pipeline Parallel...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>搭建训练环境时,可能需要使用容器镜像,本文介绍如何在高性能计算GPU实例(即HPC实例)搭建容器镜像。您也可以参考本文检查您现有的容器镜像是否符合要求。前提条件本文HPC实例的镜像以 Ubuntu 20.04 64位(RDMA) 为例,您也可以任选其他RDMA镜...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>一个网卡只能绑定一个IP,但是可以为其设置多个IP地址用于连接多个网段,本文介绍如何为单网卡分配多个IP进行RDMA通信。前提条件您已购买高性能计算GPU型hpcpni2实例,具体操作请参见购买高性能计算GPU型实例。操作步骤登录云服务器,具体操作请参见登录Linux实例。执行ip...