Be faster and smarter
为企业及个人用户打造高效、易用的机器学习平台。

星云平台

为高性能分布式机器学习平台提供软硬件一体化解决方案。
应用场景
• 海量训练数据场景下,用户需要使用分布式训练集群,通过数据并行的方式提高训练效率,缩短训练时间。
• 本产品针对上述场景中集群内多机通信的拥塞瓶颈进行了端到端优化,使分布式训练集群横向扩展加速比接近100%。
用户价值
• 用户可按需扩展分布式训练集群规模,最大化投资性价比。
• 提高分布式训练集群横向扩展加速比。
关键技术
主流深度学习框架性能优化
•   对Tensorflow等主流深度学习框架的训练流程进行端到端优化。
•   消除多机通信中存在的性能瓶颈,提高GPU利用率。
高效智能网络
•   支持RoCE(RDMA over Converged Ethernet)网络
为分布式训练集群互联提供低延迟(10微秒)、高吞吐量传输网络。
•   支持智能网卡
基于智能网卡,实现RoCE网络的智能数据包重传机制(Smart Recover),进一步提升网络传输性能及横向扩展能力。
应用案例
大型互联网公司
深度学习框架
性能优化
基于用户分布式集群部署星云平台,将训练性能提高至优化前的2倍以上。
人工智能公司
机器学习框架
优化
通过应用 RoCE网络和软件优化,达到了用户提出的优化目标:无背景流量情况下,端到端延时99.9% 5微秒以内、应用单连接吞吐量90Gbps以上。
汽车集团企业
数据业务平台
优化
针对存量Spark集群进行性能优化,部署软硬件一体化星云平台,为车联网等预研业务提供高效训练环境。