注册兴发娱乐网址

再一次验证!华为面向AI时代的智能无损数据中心网络性能全面领先

兴发娱乐手机版客户端

再次验证!华为智能人工智能无损数据中心网络已全面推进

什么样的快递物流将被用户认可?毫无疑问,一家不丢包裹,没有暴力分类,快速交付的公司将成为用户的首选。

如果我们将快递物流的角色放入数据中心,那么零丢包,低延迟和高吞吐量的网络就更为重要!

众所周知,数据中心有“三大块”:计算,存储和网络。存储器主要用于存储业务应用程序的各种类型的数据,并且计算从存储设备获取数据并处理数据。网络为计算和存储资源建立通道。无论是高速公路,国道还是省道,都会直接影响数据中心的运营效率。

1b4e9b12444d47309d79d2b1c9df1e37.png

因此,业内所有网络供应商都在尽一切努力建立这个运输数据的“物流渠道”。例如,RDMA的出现是对新型网络的成功探索,它使业务应用程序能够直接访问网卡而无需通过CPU核心,从而减少延迟并提高CPU利用率。

但RDMA是最好的“物流”吗?虽然它比TCP/IP有许多优点,但它也有一个很大的缺点:它对网络丢包非常敏感。传统的以太网0.1%数据包丢失将导致RDMA协议处理能力降低50%,这将使当今较热的AI培训的计算能力降低50%。

实际上,当前网络存在网络丢包和延迟的矛盾点。单独解决某个问题并不困难。困难在于同时解决这两个问题。如何找到这种“跷跷板”的平衡点需要创新技术。

华为克服了这项创新技术。拟议的CloudFabric数据中心网络为AI时代的子解决方案AI Fabric智能无损数据中心网络解决方案解决了网络传输耗时且容易丢失数据的困境。

最近,AI Fabric体现的创新和价值得到了国际权威测试机构Tolly Group的认可。对比测试结果表明,与其他主流厂商相比,华为AI Fabric与CloudEngine系列数据中心交换机联网。该网络解决方案具有出色的性能,并且优于Tolly测试的思科等效型号的相同网络。

从高性能计算,人工智能/机器学习和分布式存储这三种典型应用场景来看,Tolly评估了华为AI Fabric解决方案的性能,并将其与Cisco Nexus交换机组的性能进行了比较。华为和思科都基于RDMA over Converged Ethernet(RoCEv2)。在所有三种情况下,华为AI架构解决方案均优于思科。

人工智能培训效率高于27%

首先,在热门人工智能方面,在深度学习AI培训模型中,为了满足处理大量非结构化数据的需求,计算单元已经从CPU演进到GPU,存储介质已经从HDD机械硬盘发展而来到SSD闪存盘。他们的表现增加了100多倍。但是,网络通信延迟已成为整体性能提升的瓶颈。

如前所述,即使是新兴的RDMA网络也无法有效解决这一问题。

Tolly测试验证了华为AI Fabric的智能无损数据中心网络可以完美地解决这个问题。经过严格的测试,当服务器通过AI算法深度学习并识别100 Gbps的图像时,AI Fabric可以完全实现零丢包,这样GPU就可以学会识别每秒478个图像,这是比思科高出27%。测试结果如下所示:

b3491ddc30564867893b48aabfc22cd1.png

通信延迟降低了30%

其次,在高性能计算方面,HPC系统的MPI AllReduce模型经常导致网络中传输的数据量瞬间爆炸网络管道。也就是说,网络会定期爆炸多个Incast流量,这会立即超过网络设备的容量,从而导致拥塞和丢包。

为了防止数据丢失,传统以太网将这些数据排入缓存队列并重复重传,大大延长了网络传输时间,从而延长了计算任务完成时间。如何平衡网络丢包和延迟已成为一个令人头疼的问题。

Tolly测试验证华为AI Fabric能否很好地解决这个问题。高性能计算通常将任务分解为8字节或16字节的子任务。此时,AI Fabric不仅没有丢失数据包,还完成了比思科短30%的All Reduce计算任务。测试结果如下所示:

92a902302b6843a4a1b8621151e32f83.png

分布式存储IOPS性能比较高于30%

最后,从分布式存储的角度来看,如前一篇文章所述,存储介质从HDD到SSD减少了100多倍,但传统以太网的通信延迟上升到存储处理时间的50%以上。

通信延迟很大,存储访问I/O端口需要很长时间,每秒可访问的I/O端口数量很少,存储访问I/O端口的IOPS性能受到严格限制,而且实时数据存储也无法实现。如何减少网络延迟并提高存储IOPS性能是一项巨大的挑战。

Tolly测试重新验证了AI Fabric是一种最大化存储介质IOPS性能的好方法。测试结果表明,相同的存储介质,AI架构存储后的IOPS性能比Cisco增加了30%以上。测试结果如下所示:

00aa6bab5fc64ae1a45c7b44a77cc0c5.png

为什么AI Fabric能够“更快,更高,更强”?

事实上,华为AI Fabric已经通过了国际第三方独立测试机构EANTC数据中心的高性能测试。 Tolly测试再次表明,AI Fabric使数据中心的“大脑”处理速度(HPC高性能计算)更快。与思科所代表的行业顶级水平相比,它增长了30%; “记忆”能力(存储IOPS)更高,对比度提高30%; “认知”能力(分布式AI训练)更强,对比度得到提高。 %。

如果你想问,为什么AI Fabric可以“更快,更高,更强”?这不得不说它有几项关键技术:华为首先安装了CloudEngine数据中心交换机的智能核心,并创建了iLossless智能无损算法,实现了流量特征的时序收集和动态基线智能调整。最终,它带来了0丢包,低延迟和高吞吐量的终极网络性能。

df4bb5d341b443158db2c958346f948e.png

无论是硬件的“核心”升级还是软件算法的突破,这些技术创新都使华为AI Fabric的智能无损数据中心网络解决方案更加出色。

此外,华为AI Fabric已成功在互联网和金融领域实施。它将互联网巨头的无人应用程序的计算效率提高了40%,并将招商银行的IOPS性能提高了20%。谈到数据,您可以想象AI Fabric将吸引越来越多的公司选择。

凭借新的机遇,AI 看看更多