👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>您可以通过云服务器控制台或云监控控制台查看监控数据。通过云服务器控制台获取云服务器在实例的详情页面,提供了单独的监控数据统计页面。在该页面,您可以查看30天内云服务器实例的CPU、内存、网络出入带宽、磁盘IO带宽、GPU卡、RDMA网络等监控数据。登录云服务器控制台。在实例列表页,...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>本文汇总了集群诊断功能支持的诊断项、检测项、修复建议等详情。诊断指标ID诊断项说明影响修复建议GuestOS.RdmaAgentService检测RDMA网络配置器状态。实例内rdma-agent.service服务未正常运行,可能引起RDMA网络无法正常使用、RDMA网络性能不达...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>集群诊断完成后,您可以通过诊断报告了解历史诊断结果,也可以修复问题后,重新诊断,验证问题是否已修复成功。操作步骤登录实例控制台。在左侧导航栏选择“实例与镜像 > 高性能计算集群”。在顶部导航栏选择目标实例所在项目与地域。单击“集群诊断”页签,可以查看所有集群诊断报告,包括报告...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>本文介绍如何诊断高性能计算GPU型云服务器实例健康状态,便于您对其故障或性能指标不达预期进行定位。使用限制暂仅支持运行中状态的Linux操作系统实例使用本功能。待诊断实例必须安装批量作业客户端。若当前实例有正在进行的诊断任务,则需等待当前诊断完成后再发起下一次诊断。操作说明若为首次...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>集群诊断是一种面向高性能计算集群(High Performance Compute Cluster,HPC集群)的问题诊断工具,提供对高性能计算GPU型实例的系统状态、硬件健康状态、应用程序、性能、网络等状态等进行全面诊断,协助您及时发现并了解实例的常见问题,确保实例正常运行。推荐...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>集群事件监控用于记录和通知高性能计算集群内GPU型实例事件信息,当实例触发系统事件(例如:系统故障,导致实例重新部署)时,您可以及时查看事件详情并进行处理。事件概述事件状态:展示事件在其生命周期中所处的不同阶段或情况,详情请参见事件概述。事件类型与事件名称命名规则:事件类型与事件名...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>本文介绍如何删除不再使用的高性能计算集群。说明已部署云服务器的高性能计算集群不允许删除。操作步骤登录高性能计算集群控制台。单击目标集群对应“操作”列的“删除”按钮。确认信息,单击“删除”按钮,完成操作。...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>操作场景您可以随时按需扩容高性能计算集群,即在集群中添加新购买的高性能计算GPU云服务器。操作说明同一集群内,仅支持添加同一可用区、同一私有网络内、同一种规格的云服务器,因此为集群扩容时,会自动继承已有云服务器所属的可用区、私有网络和规格,且不支持变更。若所属可用区内实例规格已售罄...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>操作场景在搭建高性能计算GPU实例前,您需要首先创建高性能计算集群,后续将新购买的高性能GPU云服务器部署在该集群中即可,但不允许将已创建的云服务器加入高性能计算集群。操作步骤登录高性能计算集群控制台。单击“创建集群”按钮,配置以下参数。参数说明取值示例地域及可用区不同地域间内网完...
👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>什么是高性能计算集群高性能计算集群(High Performance Compute Cluster,HPC集群)是一种用于处理大规模计算任务的集群计算环境,通常由大量的计算节点组成,这些节点通过RDMA(Remote Direct Memory Access)高速网络互联,并协同...