揭秘浪潮服务器AI新品——训练推理“金箍棒”GX4

浏览 : 发布 :2017-09-29

 

如果你是AI领域的极客or发烧友

 

那么

 

GTC China 2017你绝对没有错过

 

想必除了老黄的皮衣

 

作为现场的“明星”

 

浪潮基于Tesla® V100AI计算产品GX4

 

也勾起了你极大的兴趣

 

 

                                       https://mmbiz.qpic.cn/mmbiz_jpg/MVdnn7psryKMU2pveNqicTT9AX2pYPNuvJCM7fWDa5pPPmarNMxFoYe4CZJUuCIM6qqU1NXb30g7wPTEkkuE62Q/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 

浪潮GX4并不是一台传统意义上的服务器产品,而是一台2U高度的AI Box,其中没有CPU、内存,由4GPU计算加速卡,扩展主板其他支撑部件组成,同时也可部署NVMe SSD硬盘替代计算加速卡,作为高密度热数据存储使用。

 

GX4承袭了浪潮SR-AI整机柜的设计理念,实现了CPUGPU的物理解耦,使得计算加速单元能够以独立模块的形式进行灵活扩展。此类设计的优势在于能在保证高效GPU跨节点通信效率的同时,以灵活的扩展形式支持不同级别的AI模型训练。有效降低IO冗余和系统购买成本,适合深度学习模型训练、科学计算、工程计算与研究领域的应用。

 

                                       https://mmbiz.qpic.cn/mmbiz_jpg/MVdnn7psryKMU2pveNqicTT9AX2pYPNuvAMJ8snofAdVnJPjDlIm8SHExFU1vcF5VpFSFxhTTo8voCKslmlltGA/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 

随着训练样本量的指数级增长以及训练模型的复杂度不断提升,AI计算正面临的三大困扰。首先,不同应用所需的硬件不同,带来采购和运维成本提升;其次,多机集群的延迟更高;第三,资源扩展不灵活、成本高。针对于此,GX4采用了一些创新的设计来解决这些困扰AI用户的难题。

 

GPUCPU计算资源的解耦和重构,让GX4拥有了更加多样的拓扑结构,可以通过灵活调整GPU拓扑,满足AI云、深度学习模型训练和线上推理等各种AI应用场景,使计算架构与上层应用更匹配,发挥出AI计算集群的最大性能。

 

                                         https://mmbiz.qpic.cn/mmbiz_jpg/MVdnn7psryKMU2pveNqicTT9AX2pYPNuvHtajRsSjeGHppgbTJmMbicib02FiaKFz2NS04fukScXG3FiarXdEAcdo9w/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 

目前,GX4可支持BalancedCommonCascaded三种不同的GPU拓扑结构。其中,云服务的用户需要做虚拟化,每个VM需要分配对应的GPU资源,为了保证VM的分配GPU的性能均衡性,需要采用Balance方式保证VMGPU资源的性能均衡;Common模式和Cascaded模式均适合于深度学习模型训练使用,区别在于Common上行有两条X16链路,Cascade只有1条,但是CascadeP2P更优化,以上三种模式可以通过线缆来灵活调整拓补。

 

集群延迟降低50%以上。浪潮GX4能够实现16GPU之间仅依赖PCI-E进行通信,延迟可降低50%以上,并且借助GPU Direct RDMA技术,使跨节点GPUGPU实现直接的数据交互,大幅降低跨节点GPU间的通信延迟,最终使GPU计算集群的延迟下降到ns级。

 

兼具高性价比和高扩展性。GX4组成的AI计算集群,由负责逻辑运算的SA5212M5服务器和GX4组成,当业务需要更大的AI计算资源时,可以单独增加GX4来完成高性价比和高灵活性的扩展,最大可实现单物理集群16卡的资源扩展。

 

资源调配灵活。浪潮GX4组成的AI集群中,SA5212M5可以调用一台box中的1-4GPU,也可以任意挂接1-4box。可随需求通过软件定义的形式灵活改变单物理集群的GPU卡数量,将资源调度最小颗粒度从服务器级升级为GPU卡级别。

 

支持多种数据中心环境。浪潮GX4可以运行在不同的数据中心环境,并且冷风直接透过GPU散热,同样性能下功耗更低。

 

总而言之,浪潮GX4是一款具有很强灵活性和扩展性的高性能GPU AI计算新品,能够很好的适应不同规模的深度学习模型训练和线上推理的需求,以及不同类型AI应用对底层架构的要求,可谓是随需扩展神通广大的“金箍棒”产品。