昆仑芯超节点产品推出，大模型训推任务性能跨越式提升-Ameya360电子元器件采购网

昆仑芯超节点产品推出，大模型训推任务性能跨越式提升

发布时间：2025-04-27 11:10

作者：AMEYA360

来源：昆仑芯

阅读量：2984

　　开年后，随着DeepSeek席卷千行百业，昆仑芯率先适配、业内首家单机部署满血版展示卓越性能，并在互联网、科研、金融等领域实现规模部署，一系列进展引发广泛关注。刚刚落幕的Create2025百度AI开发者大会上，昆仑芯作为底层算力核心被高频提及，三万卡集群点亮振奋人心，昆仑芯超节点也在大会上正式发布。

　　自ChatGPT问世，大模型参数快速增长，单卡显存无法容纳越来越大的模型参数，大模型对AI算力系统的并行通信能力提出越来越高的要求;同时开源MoE模型在多专家并行过程中也需要更高的通信效率。DeepSeek-V3/R1加速产业落地，AI算力集群对系统可扩展能力的需求变得空前迫切。

　　基于对大模型演进趋势及算力需求的前瞻预测，昆仑芯团队率先布局、潜心研发，面向大规模算力场景推出超节点新品，为AI算力集群性能优化和效率提升提供一套全栈解决方案。

昆仑芯超节点产品推出，大模型训推任务性能跨越式提升

　　昆仑芯超节点渲染图

　　1.全互联通信带宽提升8倍，训推性能跨越式提升

　　通过硬件架构创新，昆仑芯超节点突破传统单机8卡产品形态，超高密度设计使得单柜可容纳32/64张昆仑芯AI加速卡。单柜内卡间实现全互联通信，带宽提升高达8倍，一个机柜的算力最高可达到传统形态下8台8卡服务器，实现对MoE大模型单节点训练性能5-10倍、单卡推理效率13倍的大幅提升。

　　2.整柜功率可支持到120kW，大幅降低PUE

　　在能耗和散热方面，昆仑芯积极响应节能降耗政策，采用高效的冷板式液冷方式进行系统散热，整柜功率可支持到120kW，大幅降低数据中心的PUE(Power Usage Effectiveness，数据中心消耗的所有能源与IT负载消耗的能源的比值)。不仅如此，昆仑芯超节点支持液冷系统的漏液检测，可及时针对液冷故障进行预警、告警、修复等，最大化提高整机柜系统无间断稳定运行效率。

　　3.机柜间IB/RoCE通信，高带宽、低延迟

　　当前，各级政府、众多行业和头部企业集中发力，正在加快建设一批超大规模智算中心。针对集群拓展需求，昆仑芯超节点机柜间支持IB/RoCE通信，可实现跨柜高带宽、低延迟的数据传输，支持万卡以上规模的智算集群构建。

　　4.自研XPU Link，兼容主流scale-up通信标准

　　昆仑芯自研互联通信协议XPU Link，秉承一贯的“共生共赢”发展理念，昆仑芯XPU Link兼容scale-up通信标准OISA，与上下游合作伙伴共建超节点行业生态，携手推动国产AI算力在超节点集群中的规模部署和产业应用。

　　颠覆式的大模型和AI应用加速推动AI步入产业落地新阶段。AI下半场，昆仑芯凭借在芯片架构、集群系统、软件生态领域的深厚积累和全栈优势，竞争实力越发凸显。

　　目前，昆仑芯已实现三代产品大规模部署落地，通过与数百家客户紧密合作，将AI算力输送到互联网、运营商、智算、金融、能源电力、汽车等等千行万业，惠及数以亿计的终端用户。面向未来，昆仑芯将持续深耕AI芯片技术研发和产业应用，为我国AI产业发展注入源源不断的澎湃动力。

（备注：文章来源于网络，信息仅供参考，不代表本网站观点，如有侵权请联系删除！）

行业新闻

昆仑芯Day 0极速适配商汤日日新SenseNova U1模型

　　4月28日，商汤正式发布并开源原生理解生成统一模型——商汤日日新SenseNova U1系列。在模型发布当日，昆仑芯即完成对SenseNova U1的极速适配，成为率先完成该模型适配的国产算力厂商之一。　　SenseNova U1系列模型能够将语言与视觉信息作为统一的复合体直接建模，实现语言和视觉信息的高效协同，让理解与生成能力同步增强，在保留语义丰富度的同时，维持像素级的视觉保真度。在逻辑推理与空间智能等方向上，它能够深度理解物理世界的复杂布局与精细关系;在未来，它还能为机器人提供具身大脑，实现在单一模型闭环内完成从复杂环境感知、逻辑推演到精准任务执行的全过程，为推动技术与产业发展提供重要基础与关键引擎。　　SenseNova U1是基于统一表征空间构建的，更像是一个从一开始就同时掌握多项技能的人。它不是先看懂图像、再翻译成文字、再交给另一个系统理解，而是在同一套“思考方式”里直接处理图像、文字等不同信息。图像和语言不再是两套系统之间的接力，而是在同一个大脑中自然融合。能力表现上，在涵盖图像理解、图像生成与编辑、空间智能和视觉推理的多项基准测试中，SenseNova U1 Lite均达到同量级开源模型SOTA水平，为统一多模态理解与生成树立了新的标杆。仅凭8B-MoT的较小规格，就能达到乃至超越部分大型商业闭源模型。　　在实际适配过程中，昆仑芯依托自研架构，持续完善算子覆盖与生态兼容能力，实现模型性能与算力效率的高效匹配。通过底层算子优化与软硬件协同加速，SenseNova U1已在昆仑芯平台上实现高吞吐、低延迟的稳定运行，在复杂任务与长序列场景中依然保持优异表现。针对图文交错生成、高密度信息图生成等应用，昆仑芯对其进行专项调优，实现了高效、高精度的推理性能，让开发者和企业无需复杂的底层适配与性能调优，即可完整调用模型能力。　　高效适配的背后，是昆仑芯自研软件栈的出色兼容性与适配能力。为全面释放产品性能，昆仑芯已构建面向开发者的软件栈，并提供从底层驱动到专用库的完备能力，全面覆盖模型开发与部署关键环节。该软件栈高度兼容主流AI开发生态，在保障计算性能充分释放的同时，有效降低开发门槛与模型迁移成本，使客户能够以更低的适应成本与更短的部署周期完成AI模型开发与部署落地，加速从研发到应用的转化。　　近期，国产大模型生态迎来密集升级，技术突破与产业落地节奏持续提速。昆仑芯当前已完成对多款主流大模型的首发适配，稳步实现 “发布即支持”的快速落地能力，推动模型技术迭代与算力底座同频演进，充分展现其在软硬协同、生态兼容与工程化落地方面的综合实力。这一核心能力，不仅有效降低模型部署与应用门槛，更助力AI应用规模化拓展，持续领跑国产算力生态适配进度。　　国产算力的高效适配能力，正成为大模型规模化落地的关键支撑。面向未来，昆仑芯将通过持续的性能优化与架构迭代，不断刷新国产大模型在国产硬件上的运行表现。依托持续的技术创新与软硬协同优势，昆仑芯将持续夯实国产AI算力底座，助力产业智能化升级与数字化转型加速推进，共绘国产AI发展新蓝图。

2026-04-29 09:42 阅读量：317

型号	品牌	询价
TL431ACLPR	Texas Instruments
RB751G-40T2R	ROHM Semiconductor
BD71847AMWV-E2	ROHM Semiconductor
CDZVT2R20B	ROHM Semiconductor
MC33074DR2G	onsemi

型号

品牌

询价

Texas Instruments

ROHM Semiconductor

ROHM Semiconductor

ROHM Semiconductor

onsemi

型号	品牌	抢购
BU33JA2MNVX-CTL	ROHM Semiconductor
IPZ40N04S5L4R8ATMA1	Infineon Technologies
STM32F429IGT6	STMicroelectronics
ESR03EZPJ151	ROHM Semiconductor
BP3621	ROHM Semiconductor
TPS63050YFFR	Texas Instruments

型号

品牌

抢购

BU33JA2MNVX-CTL

ROHM Semiconductor

IPZ40N04S5L4R8ATMA1

Infineon Technologies

STM32F429IGT6

STMicroelectronics

ESR03EZPJ151

ROHM Semiconductor

BP3621