(相关资料图)
在BAT、360、商汤等国内企业纷纷宣布入局AI大模型之后,面向大模型训练的高性能计算需求也迎来井喷式增长。
近日,腾讯披露自研高性能计算网络星脉高性能计算集群。据介绍,该计算集群具备3.2T通信带宽,能提升40%的GPU利用率,节省30%~60%的模型训练成本,为AI大模型带来10倍通信性能提升。基于腾讯云新一代算力集群HCC,可支持10万卡的超大计算规模。
不久前,为了降低算力支出,OpenAI开始限流。这背后是通用人工智能的火爆带动了AI大模型参数量级飙。为支撑海量数据的大规模训练,需要大量服务器通过高速网络组成算力集群。国内厂商正试图通过技术的演进对算力使用效益优化。
今年4月,阿里云也已披露了其高性能AI训练计算平台灵骏智算;上月底,联想高性能计算与人工智能主任技术顾问郝常杰也对外表示,在高性能计算上走开放融合技术路线。此外,华为云、商汤、科大讯飞在高性能计算集群上都有布局。
不过,大集群不等于大算力,相反,GPU集群越大,产生的额外通信损耗越多。比如,千亿、万亿参数规模的大模型,训练过程中通信占比最大可达50%,传统低速网络的带宽远远无法支撑。同时,传统网络协议容易导致网络拥塞、高延时和丢包,而仅0.1%的网络丢包就可能导致50%的算力损失,最终造成算力资源的严重浪费。
解决这类问题,需要面向AI大模型打造高性能计算网络。腾讯云副总裁王亚晨认为,大带宽、高利用率以及零丢包的高性能网络服务,将助力突破算力瓶颈,进一步释放AI潜能,全面提升企业大模型的训练效率。比如,腾讯云自研的端到端全栈网络运营系统将整体故障排查时间降低至分钟级,大模型训练系统的整体部署时间也得以从19天缩减至4.5天。
在专家看来,高性能计算将开启算力赋能数字经济的新篇章。中国工程院院士陈左宁指出,在先进计算产业浪潮下,实现高性能计算的可持续发展,能打造以新型算力为基础的软硬件协同的创新生态环境,助推行业赋能,以及数字产业化和产业数字化水平的不断跃升。