你的位置:开云「中国」kaiyun体育网址-登录入口 > 资讯 > 开云体育而该技能的参数需进行针对性调优-开云「中国」kaiyun体育网址-登录入口
开云体育而该技能的参数需进行针对性调优-开云「中国」kaiyun体育网址-登录入口
发布日期:2025-08-14 06:34    点击次数:80

开云体育而该技能的参数需进行针对性调优-开云「中国」kaiyun体育网址-登录入口

  8月9日,以“智联万物 网聚将来”为主题的2025 AI网罗技能愚弄立异大会在京召开。海浪信息旗下元脉网罗副总司理陈翔发表主题为“元脉高性能AI网罗,助力算力潜能开释”的演讲,详备先容了元脉网罗在AI网罗上的立异与推行。

  元脉网罗副总司理 陈翔

  AI业务限度化发展 三大挑战亟待惩办

  跟着东谈主工智能技能的迅猛发展,智算中心的集群限度不竭扩大,AI网罗诞生亟需攻克在“部署结束、系统踏实性、资源负载”三方面的挑战。

  刻下,AI愚弄正呈现与业务深度渗入会通的态势,“奈何提高部署结束、完结业务快速上线”已成为AI网罗诞生濒临的要紧问题。可是,集群限度的急速推广,大幅擢升了网罗部署与调优的难度。以传统RoCE技能为例,其拥塞甘休主要遴荐DCQCN技能,而该技能的参数需进行针对性调优,这径直导致拥塞甘休部署经由复杂,进而影响业务上线结束。

  集群诞生波及 GPU、网罗、光模块等无数组件及复杂公约栈,刻下查考流量以大象流为主,这类流量具有同步突发特质,易因通讯恭候酿成无数算力损耗;与此同期,卡间通讯还堕入“查考限度越大,平均无故障时期越高”的悖论。据业界公开数据贯通,在AI系统故障中,网罗要素占比超10%,已成为制约AI技能发展的进犯瓶颈。

  跟着大模子框架的络续开源,在业内激勉出新一轮部署甘心。但大模子的快速部署,也让模子里面出现“查考+推理”混跑的四百四病,在这么多任务混跑要求下部署的网罗,会出现性能下落、流量互联系扰、及网罗资源负载不平衡等问题。

  元脉网罗打造高性能、高可靠AI Fabric有贪图

  为惩办上述问题,元脉网罗推出高性能、高可靠的AI Fabric有贪图。该有贪图由元脉RoCE技能、AI Fabric交换机、及智能运管平台三大中枢组件组成,不错完结AI网罗的端网一键部署、流量精确可视、故障智能估计。

  在部署结束和踏实性上,元脉网罗智能运管平台ICE撑持端网一键部署,不错和谐纳管交换机、网卡、光模块、GPU、处事器等开拓,完结拓扑建树一键校验、全网自动上线。同期,撑持训前一键NCCL压力测试,将部署时期从数周裁汰到数天,极大简化用户的运维部署资本。

  此外,元脉网罗AI Fabric有贪图搭建了更先进的高精度遥测中枢技能,可完结AI流量的精确可视。

  三级“可靠”加固 AI网罗“安全感”拉满

  为提高智算中心集群网罗的可靠性,元脉网罗从“开拓-链路-系统”三个维度进行可靠性加固,按捺智算中心诞生过程中的单点故障率,擢升系统无故障查考时期,激勉算力潜能。

  元脉网罗AI Fabric有贪图内置始创的IGE智能谨防引擎,硬件层面遴荐RAS可靠性架构瞎想,对所相重要部件推行冗余备份,委果完结“单一开拓失效,悉数系统无感启动”;软件层面遴荐模块化架构,将业务模块进行容器化崎岖部署,确保各模块独处启动、互不干扰,同期为要津模块配备热重启与热升级功能,充分得志AI网罗环境的高踏实性要求;此外,通过独处的管制监控平台OpenBMC,提供更高档别的安全谨防与可靠性保险,全处所适配AI期间数据中心的管制需求。

  由于集群限度浩大,光模块数目繁多,一朝光模块发生故障,将极大影响大模子的查考进度。对此,元脉网罗AI Fabric有贪图可完结对光模块各步地想法精确监控,大致及时掌捏其健康情状并提前预警,达到故障“主动预警、提前扰乱”的目的,灵验减少查考中断的情况,按捺故障带来的影响。

  在系统级可靠性瞎想方面,元脉网罗AI Fabric有贪图具备多重技能上风。一是遴荐智能负载平衡技能,当链路发生故障时,智能负载平衡可依据全局链路情状,再行平衡AI流量,性能较传统RoCE越过2.3倍;针对单平面架构易出现单点故障的风险,有贪图遴荐多平面架构技能,为算力不竭可用提供坚实保险,不仅不错完结 AI 通讯零中断,更使灵验查考时长占比高达99%。(张梦凡)

开端:光明网开云体育



相关资讯