千家信息网

百度智能云联合度小满推出《智算中心网络架构白皮书》持续推进高性能网络建设

发表于:2024-09-21 作者:千家信息网编辑
千家信息网最后更新 2024年09月21日,当下,随着 AI 科技的不断进步,人工智能产业不断发展,度小满深知高性能网络建设的重要性,一直深耕技术创新,不断累积技术经验。为了应对高性能网络建设的风险和挑战,度小满联合智能云推出《智算中心网络架构
千家信息网最后更新 2024年09月21日百度智能云联合度小满推出《智算中心网络架构白皮书》持续推进高性能网络建设

当下,随着 AI 科技的不断进步,人工智能产业不断发展,度小满深知高性能网络建设的重要性,一直深耕技术创新,不断累积技术经验。为了应对高性能网络建设的风险和挑战,度小满联合智能云推出《智算中心网络架构白皮书》,建立国内首批私有云模式下的万卡规模智算中心。

高性能网络建设迫在眉睫

9 月 5 日,在云智大会上,智能云联合度小满推出《智算中心网络架构白皮书》。白皮书由智能云和度小满负责高性能网络落地的一线专家撰写,内容覆盖了高性能网络建设的各个方面,包括不同规模集群的架构选择、云平台上的可视化运维工具建设、多租户的运营方案设计等,为同业提供全流程指导,让复杂的高性能网络建设变得简单。

大模型需要大算力,如何建设高性能网络是其中最为关键的一步。度小满今年 5 月正式开源了国内首个千亿参数大模型 --"轩辕"。在场景中的任务评测中,轩辕全面超越了市场上的主流开源大模型,赢得了 150 次回答中 63.33% 的胜率。随着大模型的迅猛发展,模型对于底层算力的需求呈指数性增长,智能算力规模的持续扩大带来的是 GPU 算力部署规模日益膨胀,对于高性能网络的要求也日益增多。

度小满智算网络中心达到万卡规模

随着度小满模型参数规模超过千亿,为满足不断增加的算力需求、度小满私有云模式的智算中心也在不断升级,低时延、大带宽、稳定性运行、可运维性高的大规模智算网络正是智算中心搭建的重要基石。在建设私有云模式的智算中心的过程中,度小满联合智能云,构建了一套私有云智算网络,在支撑万卡 GPU 规模的同时,相较于业内常见的 Dragonfly、Tours 网络拓扑,网络带宽更充足,节点间跳步数更稳定性,网络延时指标缩短到 3 微秒以内,具备端到端的可观测性能力与故障自愈能力,无阻塞、低时延、高可靠的网络设计有效支撑了上层智算应用的快速迭代和发展,为"轩辕"大模型的训练提供了稳定的网络保障。

目前,度小满智算网络中心已建设成为国内行业首批私有云模式下的万卡规模智算中心,为"轩辕"大模型的训练提供了稳定的网络保障。

度小满和智能云本着开放、共享的原则,将在高性能网络领域的经验和成果与行业分享,以期推动整个行业向更高水平发展,为广大从事高性能网络建设的同行提供宝贵的参考和指导。

0