浪潮信息助力淮海智算中心,千亿参数AI大模型训练算力效率超50%

近期,淮海智算中心联合浪潮信息举行了超大规模参数AI大模型训练性能测试,测试结果显示,在淮海智算中心计算平台上,千亿参数规模的自然语言AI单体大模型的训练算力效率高达53.5%,创下了业内AI大模型训练算力效率的新高峰。这意味着,淮海智算中心将能够为国内生成式AI创新团队提供高性能、高效率的AI大模型训练算力服务。

生成式AI需要基于海量的自然语言或多模态数据集进行训练,并将其应用于超大规模的AI模型,该训练所需算力相当巨大,以PD(Petaflops-Day)为计量单位,例如OpenAI的GPT-3大模型的训练算力当量为3640PD,而浪潮“源1.0”大模型的训练算力当量为4095PD。

由于超大规模的AI大模型训练一般需要在成百上千的AI服务器集群上进行,如何在AI计算集群上提高训练算力效率直接影响到模型训练时长和算力消耗成本,这对于提高生成式AI研发创新效率具有重要意义。根据公开资料,GPT-3大模型在其V100 GPU集群上的训练算力效率为21.3%,而浪潮“源1.0”的训练算力效率高达44.8%。

基于AI大模型训练的计算特点,浪潮信息AI团队对淮海智算中心的算力系统进行了专业设计,并对集群架构、高速互联、算力调度等方面进行了全面优化。在系统架构方面,采用单节点集成8个加速器的AI服务器,节点间实现超高速P2P通信。此外,在大模型训练技术层面,浪潮成功运用了中文巨量AI模型“源1.0”的训练优化经验,针对分布式训练策略进行了优化,通过合理设计张量并行、流水并行和数据并行,精准调整模型结构和训练过程的超参数,最终实现了千亿参数规模AI大模型的训练算力效率达到53.5%。

淮海智算中心是由安徽省宿州市和浪潮共同推建的,目标是打造一个技术先进、架构开放、应用丰富、生态完善的智能计算枢纽。依靠领先的算法及算力基础设施,淮海智算中心将面向全国提供智能算力、数据和算法服务,为智能算力产业的生态建设做出贡献。