基于eRDMA增强型实例部署AI训练集群-阿里云服务器ECS使用教程 |
通过使用弹性eRDMA技术,您可以获得超低延迟,更快地响应请求。本文介绍如何在eRDMA增强型实例上部署AI训练集群,并测试其性能。 AI训练场景架构目前AI分布式训练场景主要的架构如下图所示。主流AI框架底层通过多种不同的通信后端进行多机或多卡通信,例如:
步骤一:创建eRDMA实例具体操作,请参见在GPU实例上配置eRDMA。 搭建本集群环境需要创建两台ECS实例,实例配置示例如下:
步骤二:搭建环境您可以通过以下两种方式来搭建AI训练的环境。
步骤三:配置实例免密登录通过nccl、e2e测试性能前,需要配置各实例之间可以免密登录。
步骤四:性能测试您可以通过nccl、e2e这两种方式来测试AI训练的性能。
|