👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>为方便您快速部署DeepSeek模型,火山引擎为您提供了Terraform脚本。该脚本可以自动创建GPU实例,并自动在实例中部署、运行DeepSeek-R1、DeepSeek-V3或不同参数量级的DeepSeek-R1-Distill模型。本文主要介绍如何获取、运行该Terrafo...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>创建 高性能计算GPU型hpcpni2 实例后,您可在实例内部手动安装RDMA网络观测性增强插件,用于监控RDMA网络的健康状况。操作场景使用公共镜像创建的未开启“RDMA网络观测性增强”的 高性能计算GPU型hpcpni2 实例,“RDMA网络观测性增强”相关信息请参见创建高性能...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>您可以通过云服务器控制台或云监控控制台查看监控数据。通过云服务器控制台获取云服务器在实例的详情页面,提供了单独的监控数据统计页面。在该页面,您可以查看30天内云服务器实例的CPU、内存、网络出入带宽、磁盘IO带宽、GPU卡、RDMA网络等监控数据。登录云服务器控制台。在实例列表页,...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>本文汇总了集群诊断功能支持的诊断项、检测项、修复建议等详情。诊断指标ID诊断项说明影响修复建议GuestOS.RdmaAgentService检测RDMA网络配置器状态。实例内rdma-agent.service服务未正常运行,可能引起RDMA网络无法正常使用、RDMA网络性能不达...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>集群诊断完成后,您可以通过诊断报告了解历史诊断结果,也可以修复问题后,重新诊断,验证问题是否已修复成功。操作步骤登录实例控制台。在左侧导航栏选择“实例与镜像 > 高性能计算集群”。在顶部导航栏选择目标实例所在项目与地域。单击“集群诊断”页签,可以查看所有集群诊断报告,包括报告...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>本文介绍如何诊断高性能计算GPU型云服务器实例健康状态,便于您对其故障或性能指标不达预期进行定位。使用限制暂仅支持运行中状态的Linux操作系统实例使用本功能。待诊断实例必须安装批量作业客户端。若当前实例有正在进行的诊断任务,则需等待当前诊断完成后再发起下一次诊断。操作说明若为首次...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>集群诊断是一种面向高性能计算集群(High Performance Compute Cluster,HPC集群)的问题诊断工具,提供对高性能计算GPU型实例的系统状态、硬件健康状态、应用程序、性能、网络等状态等进行全面诊断,协助您及时发现并了解实例的常见问题,确保实例正常运行。推荐...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>集群事件监控用于记录和通知高性能计算集群内GPU型实例事件信息,当实例触发系统事件(例如:系统故障,导致实例重新部署)时,您可以及时查看事件详情并进行处理。事件概述事件状态:展示事件在其生命周期中所处的不同阶段或情况,详情请参见事件概述。事件类型与事件名称命名规则:事件类型与事件名...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>本文介绍如何删除不再使用的高性能计算集群。说明已部署云服务器的高性能计算集群不允许删除。操作步骤登录高性能计算集群控制台。单击目标集群对应“操作”列的“删除”按钮。确认信息,单击“删除”按钮,完成操作。...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>操作场景您可以随时按需扩容高性能计算集群,即在集群中添加新购买的高性能计算GPU云服务器。操作说明同一集群内,仅支持添加同一可用区、同一私有网络内、同一种规格的云服务器,因此为集群扩容时,会自动继承已有云服务器所属的可用区、私有网络和规格,且不支持变更。若所属可用区内实例规格已售罄...