基于eRDMA增强型实例部署AI训练集群-阿里云服务器ECS使用教程 |
产品推荐: 1、安全稳定的云服务器租用,2核/2G/5M仅37元,点击抢购>>>; 2、高防物理服务器20核/16G/50M/500G防御仅350元,点击抢购>>> 3、百度智能建站(五合一网站)仅880元/年,点击抢购>>> 模板建站(PC+手机站)仅480元/年,点击抢购>>> 4、阿里云服务器2核2G3M仅99元/年、2核4G5M仅199元/年,新老同享,点击抢购>>> 5、腾讯云服务器2核2G4M仅99元/年、新老同享,点击抢购>>> 点击这里进入阿里云ECS官方页面,立体验云服务器ECS>>> 通过使用弹性eRDMA技术,您可以获得超低延迟,更快地响应请求。本文介绍如何在eRDMA增强型实例上部署AI训练集群,并测试其性能。 AI训练场景架构目前AI分布式训练场景主要的架构如下图所示。主流AI框架底层通过多种不同的通信后端进行多机或多卡通信,例如:
步骤一:创建eRDMA实例具体操作,请参见在GPU实例上配置eRDMA。 搭建本集群环境需要创建两台ECS实例,实例配置示例如下:
步骤二:搭建环境您可以通过以下两种方式来搭建AI训练的环境。
步骤三:配置实例免密登录通过nccl、e2e测试性能前,需要配置各实例之间可以免密登录。
步骤四:性能测试您可以通过nccl、e2e这两种方式来测试AI训练的性能。
|