湛江预应力钢绞线厂 中科曙光正式公布scaleX万卡集群:每节点640卡、总算力500亿亿次


钢绞线

快科技12月22日消息湛江预应力钢绞线厂,对算力无限渴求的AI时代,关键的已经不是单卡能,而是尽可能地堆叠足够多的加速卡,构成庞大的集群。

除了NVIDIA、AMD,国产厂商也正在这方面全力突破,华为、摩尔线程、中科曙光等都是突出代表。

近日,中科曙光正式发并展示了scaleX万卡群,这也是国产万卡基AI集群的次真机亮相。

不同于华为封闭式的全自研集群,中科曙光scaleX万卡集群旨在构建开放、兼容、密度的大规模算力基础设施。

它支持多品加速卡、主流计算生态湛江预应力钢绞线厂,已经适配优化400多个主流大模型、世界模型等,可用于大模型训练、金融风控、地质能源勘探、科学智能等各种场景。

中科曙光scaleX万卡集群由多个scaleX640节点(单机柜640卡)、scaleFabirc速网络互连而成,总计拥有10240块加速卡,总算力过5EFlops(500亿亿次每秒)。

HBM内存总容量过650TB,总带宽过18PB/s;片间互连总带宽过4.5PB/s,柜间互连总带宽过500TB/s。

手机号码:15222026333

单个节点的基本构成是千卡计算单元,采用“一拖二”密架构设计,实现单机柜640卡速一致互连,双计算柜则组成1280卡计算单元。

散热方面,采用速正交架构、密度刀片、浸没相变液冷、压直流供电等多技术融合创新设计湛江预应力钢绞线厂,成为业界集成度的液冷节点。

他抛出了一个新颖且劲爆的观点:美国根本不需要美联储。

全浸没式相变液冷技术,锚索将服务器完全浸在特制液体中,中间液体冷凝换热装置CDM的散热能力达1.72MW(兆瓦)。

单机柜算力密度相比业界其他节点大提升20倍,PUE值低至1.04。

公开信息显示,中科曙光子公司曙光数创拥有139项液冷相关利,是国内唯一实现大规模商业化液冷部署的企业。

网络方面,中科曙光自研的scaleFabric网络芯片可提供400Gb/s的带宽、低于1微秒的端侧通信延迟、260ns的交换芯片转发延时,节点间的通信能达到业内水平,相比传统的InfiniBand网络提升2.33倍。

基于面向大规模组网优化的网络协议、交换容量的网络芯片、致的链路可靠优化,集群规模得以扩展到10万卡以上,同时网络总体成本降低30%。

优化方面,隧道设计实现了芯片、系统、应用的三协同优化,通过BurstBuffer、XDS等技术,大模型训率提升30-40%,GPU利用率提升多55%,同时还有AI应用亲和、AI数据加速。

可靠方面,一体化、智能化的集群管控,可大大提MTBF(平均故障间隔时间)、降低MTTR(平均故障修复时间),集群长期可用达到99.99%,平均每30天的不可用时间小于4分钟。

【本文结束】如需转载请务注明出处:快科技

责任编辑:上方文Q湛江预应力钢绞线厂

文章内容举报

]article_adlist-->   声明:新浪网稿件,未经授权禁止转载。 -->