👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>本文主要介绍在GPU云服务器中搭建Docker使用 mGPU 功能,实现容器共享 GPU 的方法。前提条件本方法仅限在火山引擎公有云环境中使用,安装mGPU服务前,请您完成以下准备工作:GPU多容器共享技术mGPU仅对已通过企业实名认证的用户开放,暂不支持个人实名认证用户使用。请确...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>容器服务提供 mGPU(multi-container GPU)方案,实现容器间的 GPU 共享。说明mGPU 功能目前处于 公测 阶段。mGPU 简介mGPU 是火山引擎基于内核虚拟化隔离 GPU 并结合自研调度框架提供的容器共享 GPU 方案。在保证性能和故...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>如何查看GPU云服务器实例的监控数据?您可以通过云服务器控制台或云监控控制台查看监控数据。查看方式和支持的监控指标详情请参见查看监控数据。GPU云服务器实例支持查看GPU卡数据吗?支持。GPU云服务器支持基础监控、操作系统监控、GPU卡监控,详情请参见查看监控数据。如何查看GPU卡...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>NVIDIA Tesla驱动问题哪些实例需要安装NVIDIA Tesla驱动?GPU计算型和高性能计算GPU型实例推荐安装NVIDIA Tesla驱动(GPU驱动、CUDA工具包等),具体规格族请参见实例规格介绍。实例如何安装GPU驱动?方式一:创建GPU实例时同时安装Tesla驱...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>何时应选择使用GPU的实例?GPU作为一种计算芯片,其优势非常明显,具有实时高速、强并行计算能力和强浮点计算能力等特点,尤其适用于并行度极高的应用程序,例如:使用数千个线程的工作负载。图形处理时有大量的计算要求,但其中每个任务都相对较小,执行的一组操作形成了一个管道,而此管道的吞吐...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>操作场景重置GPU可用于清除GPU硬件和软件状态,当GPU实例发生Xid错误或双位ECC错误时,重置GPU是有效的处理方式,有关Xid和ECC的错误详情及处理建议请参见如何判断和处理GPU硬件相关故障。注意GPU重置操作不能保证在所有情况下都有效,应谨慎使用。操作步骤终止GPU使用...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>如何判断和处理硬件相关故障?GPU实例相比普通云服务器实例,增加了较多的外设,包括GPU、RDMA网络直通网卡、本地盘等。因此,除普通云服务器可能发生的常见问题外,还有如GPU、直通网卡以及PCIe链路上发生的亚健康或故障。针对GPU实例的常见故障和处理建议具体如图1所示。图1 常...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>进入系统的syslog或dmesg中查看在出错时间附近是否有“xid”错误,“xid”错误信息包含NVRM: Xid,例如“xid”错误值为63:[Mon Jan 9 13:49:48 2023] NVRM: ...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>问题描述centos7.9系统中部署k8s,然后通过Nvidia GPU operator的方式运行Nvidia驱动,发现pod一直不能处于ready状态。问题分析查看Nvidia driver pod event无法获取有用信息,通过查看pod日志收集到以下信息。 问题...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>本文介绍如何配置、使用火山引擎提供的秒级监控功能。说明本功能正在邀测中,如需试用,请联系客户经理申请。操作场景在LLM(Large Language Model,大规模语言模型)训练场景中,常使用TP(Tensor Parallelism)/PP(Pipeline Parallel...