昆仑芯漆维:多维度创新应对大模型时代的算力挑战

发布时间:2023-09-08 09:32
作者:AMEYA360
来源:昆仑芯
阅读量:3027

  近日,2023百度云智大会于北京圆满落幕。众多人工智能领域专家、行业精英、意见领袖等齐聚一堂,共同站在大模型重构未来的新起点,展望大模型创新发展之路。

  作为百度四层架构的坚实算力底座,昆仑芯携两代芯片产品重磅亮相主会场及“智能计算&大模型技术论坛”展区。昆仑芯科技芯片研发总监漆维在专题论坛上进行精彩主题演讲,获得与会嘉宾及各级媒体的广泛关注。

  大会期间,昆仑芯以多媒体形式展示芯片产品的领先性能优势,为嘉宾直观呈现昆仑芯产品强大性能以及赋能千行百业的落地成果。

  在百度的四层架构中,昆仑芯作为强大算力底座,通过对市场需求的深刻洞察,率先布局大模型领域。同时,昆仑芯与框架、模型、应用层高效协同,通过端到端软硬逐层优化,携手打造大模型端到端解决方案,实现了百家客户、数万片规模部署。

昆仑芯漆维:多维度创新应对大模型时代的算力挑战

  昆仑芯科技芯片研发总监 漆维

  “智能计算&大模型技术论坛”上,昆仑芯科技芯片研发总监漆维带来了“昆仑芯端到端大模型算力解决方案”主题分享。面对大模型时代计算的效率和成本问题,昆仑芯通过架构创新、产品定义创新以及软件创新,打造出基于自研核心架构XPU-R的大模型产品矩阵。针对不同参数量级的大模型场景,昆仑芯兼具显存和成本优势:

  *昆仑芯AI加速卡R200-8F面向百亿以内参数量级,相比同类型产品性能提升20%;

  *昆仑芯AI加速器组R480-X8面向百亿至千亿参数量级,性能达到同类型产品的1.5倍以上;

  *昆仑芯AI加速器组R480-X8集群针对千亿以上参数量级,可实现多机多卡分布式推理。

  “作为一款人工智能芯片,从芯片完成设计到真正走向行业落地,生态是其中非常重要的环节。”漆维在演讲中分享了昆仑芯在软件生态方面的成果。目前,昆仑芯提供了针对大模型场景的昆仑芯XFT(XPU Faster Transformer)推理加速库、丰富的云原生插件。同时,昆仑芯已全面拥抱最大的大模型开源社区HuggingFace,打造了xHuggingface开源推理套件,并携手飞桨等生态伙伴构建软硬一体的AI芯片生态。

  当前,大模型的技术生态正快速发展,驱动产业实践、行业创新应用,而这离不开AI产业链各企业的加持。在圆桌论坛环节,漆维与同台专家、优秀企业家代表围绕“大模型创新发展之路”展开深入探讨。

  漆维表示:“大模型技术的发展为国内AI芯片企业带来了良好的前景,但也带来了算力需求及成本的挑战。昆仑芯始终坚持开拓创新,降低AI算力成本与使用门槛,加强与AI产业链上下游企业的合作,为市场提供更优质的产品和服务。目前,已有两代昆仑芯AI芯片实现量产和规模部署,而在研的下一代产品将为大模型和AIGC等应用提供更佳的性能体验。”

  AI算力正成为数字基建的新抓手,以及制约大模型技术发展的关键要素。作为AI芯片领域的领军企业,昆仑芯将继续秉承“让计算更智能”的使命,打造更高性能的芯片产品,提供更普惠的AI算力,携手生态伙伴领跑大模型产业落地。

  关于昆仑芯

  昆仑芯前身为百度智能芯片及架构部,于2021年4月完成独立融资,首轮估值约130亿元。核心团队在国内最早布局AI加速领域,深耕十余年,是一家在体系结构、芯片实现、软件系统和场景应用均有深厚积累的AI芯片企业。

  秉承着“让计算更智能”的使命,昆仑芯专注打造拥有强大通用性、易用性和高性能的通用AI芯片。目前,昆仑芯已实现两代通用AI芯片系列产品的量产及落地应用,在互联网、智慧工业、智慧交通、智慧金融等领域均有规模部署,帮助企业加速产业智能化布局,将AI算力赋能千行百业。如需选购昆仑芯产品,欢迎咨询AMEYA360商城在线客服!

(备注:文章来源于网络,信息仅供参考,不代表本网站观点,如有侵权请联系删除!)

在线留言询价

相关阅读
昆仑芯超节点产品推出,大模型训推任务性能跨越式提升
  开年后,随着DeepSeek席卷千行百业,昆仑芯率先适配、业内首家单机部署满血版展示卓越性能,并在互联网、科研、金融等领域实现规模部署,一系列进展引发广泛关注。刚刚落幕的Create2025百度AI开发者大会上,昆仑芯作为底层算力核心被高频提及,三万卡集群点亮振奋人心,昆仑芯超节点也在大会上正式发布。  自ChatGPT问世,大模型参数快速增长,单卡显存无法容纳越来越大的模型参数,大模型对AI算力系统的并行通信能力提出越来越高的要求;同时开源MoE模型在多专家并行过程中也需要更高的通信效率。DeepSeek-V3/R1加速产业落地,AI算力集群对系统可扩展能力的需求变得空前迫切。  基于对大模型演进趋势及算力需求的前瞻预测,昆仑芯团队率先布局、潜心研发,面向大规模算力场景推出超节点新品,为AI算力集群性能优化和效率提升提供一套全栈解决方案。  昆仑芯超节点渲染图  1.全互联通信带宽提升8倍,训推性能跨越式提升  通过硬件架构创新,昆仑芯超节点突破传统单机8卡产品形态,超高密度设计使得单柜可容纳32/64张昆仑芯AI加速卡。单柜内卡间实现全互联通信,带宽提升高达8倍,一个机柜的算力最高可达到传统形态下8台8卡服务器,实现对MoE大模型单节点训练性能5-10倍、单卡推理效率13倍的大幅提升。  2.整柜功率可支持到120kW,大幅降低PUE  在能耗和散热方面,昆仑芯积极响应节能降耗政策,采用高效的冷板式液冷方式进行系统散热,整柜功率可支持到120kW,大幅降低数据中心的PUE(Power Usage Effectiveness,数据中心消耗的所有能源与IT负载消耗的能源的比值)。不仅如此,昆仑芯超节点支持液冷系统的漏液检测,可及时针对液冷故障进行预警、告警、修复等,最大化提高整机柜系统无间断稳定运行效率。  3.机柜间IB/RoCE通信,高带宽、低延迟  当前,各级政府、众多行业和头部企业集中发力,正在加快建设一批超大规模智算中心。针对集群拓展需求,昆仑芯超节点机柜间支持IB/RoCE通信,可实现跨柜高带宽、低延迟的数据传输,支持万卡以上规模的智算集群构建。  4.自研XPU Link,兼容主流scale-up通信标准  昆仑芯自研互联通信协议XPU Link,秉承一贯的“共生共赢”发展理念,昆仑芯XPU Link兼容scale-up通信标准OISA,与上下游合作伙伴共建超节点行业生态,携手推动国产AI算力在超节点集群中的规模部署和产业应用。  颠覆式的大模型和AI应用加速推动AI步入产业落地新阶段。AI下半场,昆仑芯凭借在芯片架构、集群系统、软件生态领域的深厚积累和全栈优势,竞争实力越发凸显。  目前,昆仑芯已实现三代产品大规模部署落地,通过与数百家客户紧密合作,将AI算力输送到互联网、运营商、智算、金融、能源电力、汽车等等千行万业,惠及数以亿计的终端用户。面向未来,昆仑芯将持续深耕AI芯片技术研发和产业应用,为我国AI产业发展注入源源不断的澎湃动力。
2025-04-27 11:10 阅读量:621
昆仑芯P800单机8卡一体机首个通过中国信通院DeepSeek适配测试
  中国信通院开展DeepSeek大模型适配测试工作,昆仑芯P800单机8卡一体机率先通过DeepSeek-V3/R1 671B满血版适配支持性测试,精度与DeepSeek技术报告对齐,支持长上下文推理,成为首个通过中国信通院DeepSeek适配测试的产品。  为加快推动我国人工智能基础软硬件从“可用”走向“好用”,中国信通院联合人工智能关键技术和应用评测工信部重点实验室构建了人工智能软硬件基准体系AISHPerf(Performance Benchmarks of Artificial Intelligence Software and Hardware),成立了人工智能软硬件协同创新与适配验证中心,参与单位共计70余家,覆盖芯片、计算设备、智算集群、网络通信、开发框架、系统软件、能力平台、关键应用等产业链关键环节。通过制定科学、统一的软硬件系列标准和基准测试体系,建设覆盖国内外主要软硬件路线的测试验证平台,有力推动我国人工智能软硬件深度适配和系统协同,加快我国基础软硬件生态日益完善,进一步提升算力利用效率。  2025年2月,信通院开展DeepSeek适配测试工作,该项工作客观评估了人工智能软硬件产品在实际应用中的性能水平,推动了基于自主软硬件生态的国产模型有序部署和应用推广,获得产业界高度关注和积极参与。  这次测试依托《人工智能 基础共性 面向大模型的软硬件系统适配能力评估方法》,该方法基于工业和信息化部人工智能标准化技术委员会与中国人工智能产业发展联盟构建,包括适配支持性、在线/离线场景适配性能和产品功能三个部分。测试方法面向多种典型应用场景,综合考虑并发数、BatchSize以及上下文长度等关键要素,能够全面评价适配效果,为需求方技术选型提供有效参考。  这次测试,昆仑芯P800单机8卡一体机率先通过DeepSeek-V3/R1 671B满血版适配支持性测试,精度与DeepSeek技术报告对齐,支持长上下文推理,成为首个通过中国信通院DeepSeek适配测试的产品。
2025-04-01 10:00 阅读量:677
昆仑芯服务器中标招商银行算力重大项目
  近日,昆仑芯服务器中标招商银行AI芯片资源项目。基于该项目,昆仑芯P800将围绕多个核心业务场景,全面支持招商银行落地大模型应用。  昆仑芯P800基于新一代自研架构XPU-P,显存规格优于同类主流GPU20%-50%,对MoE架构更加友好,且率先支持8bit推理,全面支持MLA、多专家并行等特性。根据项目实测,昆仑芯P800对Qwen系列性能支持远超同类型国产芯片,部分多模态模型推理性能达到全行业领先水平,可快速提升多模态数据分析、客服、代码助手等场景的应用效能。P800单机8卡即可运行DeepSeek-V3/R1满血版,极致成本效率;仅需32台即可支持模型全参训练,高效完成模型持续训练和微调。  目前,昆仑芯P800已与主流通用处理器、操作系统、AI框架完成端到端适配,生态完备、灵活易用。相较行业同类产品,昆仑芯P800不仅性能卓越,且更加易于部署,显著降低大模型运行成本。  深耕AI加速领域十余年,昆仑芯团队积累了行业领先的互联网数据中心系统工程化能力。日前,昆仑芯P800万卡集群在国内率先点亮,并将于近期进一步点亮3万卡集群,为千行百业提供源源不断的稳定、高效算力动能。大模型时代,昆仑芯科技已与智能产业的上下游建立良好的合作生态,通过提供以AI芯片为基础的澎湃算力,在互联网、金融、能源、科研、交通、工业、教育等关系国计民生的众多领域广泛部署应用,加速智能化转型,创造了巨大的产业和社会价值。  招商银行是行业内领先的股份制商业银行,持续大力推动“科技引领创新”。昆仑芯服务器中标招商银行算力重大项目,将进一步加速各方在科技金融方面汇聚优势力量,结合招行的具体场景需求,推动大模型在内的相关合作,充分发挥大模型在业务中的实际效用,为打造金融行业“新质生产力”添砖加瓦。
2025-03-28 10:49 阅读量:797
昆仑芯P800×DeepSeekV3/R1,国产AI芯片首发
  • 一周热料
  • 紧缺物料秒杀
型号 品牌 询价
MC33074DR2G onsemi
CDZVT2R20B ROHM Semiconductor
BD71847AMWV-E2 ROHM Semiconductor
TL431ACLPR Texas Instruments
RB751G-40T2R ROHM Semiconductor
型号 品牌 抢购
BP3621 ROHM Semiconductor
ESR03EZPJ151 ROHM Semiconductor
BU33JA2MNVX-CTL ROHM Semiconductor
TPS63050YFFR Texas Instruments
IPZ40N04S5L4R8ATMA1 Infineon Technologies
STM32F429IGT6 STMicroelectronics
热门标签
ROHM
Aavid
Averlogic
开发板
SUSUMU
NXP
PCB
传感器
半导体
相关百科
关于我们
AMEYA360微信服务号 AMEYA360微信服务号
AMEYA360商城(www.ameya360.com)上线于2011年,现 有超过3500家优质供应商,收录600万种产品型号数据,100 多万种元器件库存可供选购,产品覆盖MCU+存储器+电源芯 片+IGBT+MOS管+运放+射频蓝牙+传感器+电阻电容电感+ 连接器等多个领域,平台主营业务涵盖电子元器件现货销售、 BOM配单及提供产品配套资料等,为广大客户提供一站式购 销服务。

请输入下方图片中的验证码:

验证码