昆仑芯科技副总裁孙孝思:AI大模型的突破与创新需要算力基础设施

Release time:2023-03-09
author:Ameya360
source:网络
reading:2630

  2022年是整个人工智能芯片行业充满挑战的一年,从业者们都感受到丝丝寒意。因为2022年不仅处于疫情的波动期中,国际形势还对整个人工智能产业带来了限制。然而进入2023年后,CHATGPT带来了一点暖意。CHATGPT可以说是迄今为止增长最快的消费应用程序,它不是一触即发的,而是基于其前三代,不断迭代产生的,直到今天的爆发。

  为什么如今有更多的人关注它,很多演讲人也不断提及它?因为CHATGPT带来了质的飞跃,超越了人类平均基准线。

昆仑芯科技副总裁孙孝思:AI大模型的突破与创新需要算力基础设施

  来源:GARTNER2022年人工智能技术成熟度曲线

  GARTNER在2022年发布了一个人工智能技术成熟度曲线,生成式人工智能处于技术萌芽和期望的膨胀期,也就是说,技术从最初我们在人工智能的理解上,开始慢慢向发展阶段过渡,这对于人工智能产业中,无论是做芯片、框架,还是做算法的人来说,都是一个极大的利好。

  01

  CHATGPT背后:

  算法、数据、算力三要素共振

  CHATGPT背后是什么?今天在场的郑纬民院士以及其他很多演讲者此前都有提到,根源在于算法、数据、算力三个要素之间的共振。

  算力方面,现在的CHATGPT是基于GPT3.5的大模型,在训练中使用了微软专门建设的AI计算系统,由1万个业界主流GPU组成的高性能网络集群,总算力消耗约3640 PF-DAYS。

  数据方面,GPT-2的数据量是40G,GPT3的数据量达到了45TB,这是一个大规模的数据量的跃升。

  算法方面,如前所述,它不是一蹴而就的,而是经过了几次迭代。

  这几年的数据、算法、算力方面都有非常大的变化。中国在数据方面非常有优势,我们有场景、有大量的数据。在算法方面,实现了跨模态的融合,包括语音、图文、视频等很多方向。算力供给方面,这几年全国各地都在推进算力建设,我们相信未来国内的应用会有很大的变化和增长。

  02

  AI大模型应用突破与技术创新:

  目前,国内有很多关于CHATGPT的研究,除了清华大学的“八卦炉”,还有阿里、腾讯的大模型,也包括百度。百度即将在3月16日发布的文心一言,背后其实也是大参数、大算力、大数据量。我们可以意识到,未来的应用突破和技术创新需要算力的基础设施。

  也许有人会问,下一个CHATGPT到底是什么?现在火爆的聊天、语音生成属于CHATGPT的范畴,但是未来会有很多的衍生物,例如文本生成、视频生成、音频生成、虚拟人生成方面。

  我们认为,未来会有几个依托于算力的大场景,其中一大场景就是自动驾驶。自动驾驶场景中,模型感知和场景库的仿真训练需要上千P的算力。目前,我们跟新能源头部车企有很多紧密联动,我们发现自动驾驶的发展需要算力来提供技术的突破和跃升。生物医药也对算力有很强的需求,我们也看到了人工智能发挥的作用,例如ALPHAFOLD已预测出全球几乎所有已知蛋白质结构。

  可能有很多算力基础设施商都在思考,建了那么多数据中心、算力中心,到底应用在哪些地方?我们回顾一下,北京最早的京藏高速,我们叫G6,建设初期一辆车都没有,但今天却是北京堵车最严重的一条高速公路。还有4G网络,最早国家在建设4G网络的时候,大家都认为3G网络已经足够用了,为什么要上4G?为什么要投入那么大的成本?但今天看来,也有人觉得4G网络卡。所以我们要重新理解算力,它其实是信息基础设施。

  算力网络的布局会很大程度激发人工智能的应用和技术创新。

  目前,算力成本普遍偏高,有很多中小企业的创新在一定程度上受到了成本的影响。例如,复旦大学做MOSS大模型的时候,也会考虑到学校、科研机构是否能够承担起大模型的训练。

  从政府、国家、行业的角度看,我们怎么能够实现算力的普惠?我相信2023年之后,在算力建设过程当中,除了我们这些企业,各方都将更多参与进来,这样才能够真正实现普惠,大大降低企业使用算力的成本。

  03

  场景、数据驱动下人工智能芯片的挑战

  算力对于场景的创新很重要。但是作为一个人工智能芯片的企业,我们也充分认识到,在市场需求打开的情况下,整个人工智能芯片也面临巨大挑战。

昆仑芯科技副总裁孙孝思:AI大模型的突破与创新需要算力基础设施

  资料来源:《AI算力的阿喀琉斯之踵:内存墙》

  上图中,蓝线上是视频、自然语言处理和语音模型,其模型运算量平均每两年翻15倍;红线上TRANSFORMER的这种神经网络大模型,其模型运算量平均每两年会翻750倍;而灰线则标志摩尔定律下内存硬件大小的增长,平均每两年翻2倍。

  因此,可以由此想到两点:第一,未来摩尔定律会面临失效的风险;第二,要考虑内存墙的存在。对于整个芯片行业的发展来说,如何在未来的演进中找到突破口,其实CHIPLET是一个方向。可见,先进封装技术对于AI芯片行业将是一个重要的助推器。这几年,昆仑芯科技也在这方面做了很多基础研发。

  人工智能芯片离不开工程实现,为什么这么说?因为它毕竟是一个产品,想要在行业跟场景紧密结合,必须解决三个问题:通用性、易用性和性价比。

  企业、高校可以在基础科研上做很多的探索,人工智能芯片企业同时必须要考虑到它的应用、商业化落地等问题。如何去解决通用性、易用性和性价比的问题,是人工智能芯片厂商共同面临的挑战。

  芯片不是一个标品。在硬件层面,我们可以达到业界主流GPU产品差不多的性能指标,但在软件层面上差距较大。从同行的角度来看,我们需要自己的软件栈去解决通用性问题,也要给开发者提供更好的软件栈,让开发者可以基于国内的人工智能芯片做开发。

  04

  结语

  昆仑芯科技前身是百度智能芯片及架构部,虽成立不久,却已有十余年的芯片研发经验。基于百度丰富的AI场景积累,昆仑芯产品实现了与场景需求、客户需求的紧密耦合。

  基于对场景的深刻理解,昆仑芯与智能产业的上下游携手,逐步构建起软硬一体化的AI芯片生态。目前,昆仑芯产品已与百度飞桨、PYTORCH、TENSORFLOW等主流框架和服务器完成适配。

  完善解决方案才能够真正赋能产业。昆仑芯两代芯片产品均已实现量产,并凭借其强大通用性、易用性和高性能,广泛部署在智慧金融、智慧交通、智慧工业等领域,不断提供更优秀、更高效的解决方案,为客户提供更好的服务。

  未来,我们希望可以和在座的同行们一起共筑合力,赋能芯片产品与应用场景更紧密结合,在人工智能产业发展中构建更加繁荣的生态系统。


("Note: The information presented in this article is gathered from the internet and is provided as a reference for educational purposes. It does not signify the endorsement or standpoint of our website. If you find any content that violates copyright or intellectual property rights, please inform us for prompt removal.")

Online messageinquiry

reading
Day 0支持|昆仑芯完成MiniMax M2.7模型极速适配
  MiniMax正式开源MiniMax M2.7模型。昆仑芯同步完成对该模型的Day 0适配与深度优化,成为首批实现适配的国产算力厂商之一,再次验证其在主流大模型生态中的敏捷响应能力与广泛兼容能力。  发布即适配,软硬协同支撑高效落地  MiniMax M2.7是M2系列的最新一代模型,也是首个深度参与自身迭代的版本。该模型具备自主构建复杂Agent Harness与Skills的能力,可动态更新Memory,并通过强化学习持续优化,实现“模型驱动模型进化”的闭环。在能力表现上,M2.7已覆盖从代码生成、日志排障到端到端项目交付的完整软件工程链路:SWE-Pro基准达到56.22%,整体表现追平GPT-5.3-Codex;在专业办公场景中,GDPval-AA评分位居行业前列,并在40个复杂Skills(>2000 Token)任务中保持97%的指令遵循率,展现出优异的稳定性与执行能力。  在实际适配过程中,昆仑芯依托自研架构,持续提升算子覆盖与生态兼容能力,实现模型性能与算力效率的高效匹配。通过底层算子优化与软硬件协同加速,MiniMax M2.7已在昆仑芯平台上实现高吞吐、低延迟的稳定运行,并在复杂任务与长序列场景下保持优异表现。  为充分释放产品性能,昆仑芯构建了面向开发者的全栈软件体系,完整覆盖从底层驱动到开发工具SDK及专业库的完整能力,兼顾高效易用与工程化落地。该软件栈高度兼容主流AI开发生态,在显著降低开发门槛的同时,最大化释放计算性能,帮助客户以更低适配成本和更短部署周期完成模型开发与落地,加速模型从研发到应用的转化。  常态化Day 0响应,夯实国产AI算力底座  近期,国产大模型生态迎来密集升级,技术突破与产业落地节奏持续加快。昆仑芯已完成对多款主流大模型的首发适配,稳步实现“发布即支持”的快速落地能力,推动模型技术迭代与算力底座实现同频演进,充分体现其在软硬协同、生态兼容与工程化落地方面的综合实力。同时,该能力有效降低了模型部署与应用门槛,进一步加快AI应用的规模化拓展。  当前,昆仑芯正持续深化模型适配与性能优化能力,全面支持多样化架构与算法创新,不断提升开发与部署效率。面向未来,昆仑芯将进一步强化对主流前沿模型的高效适配能力,依托持续的技术创新与软硬协同优势,不断夯实国产AI算力底座,助力产业智能化升级与数字化转型加速推进。
2026-04-13 09:30 reading:337
发布即适配!昆仑芯率先完成智谱新一代旗舰模型GLM-5.1深度支持
  今日,智谱正式开源新一代旗舰模型GLM-5.1。作为当前全球领先的开源大模型之一,GLM-5.1在长程任务(Long Horizon Task)处理能力上实现了显著突破。模型发布当日,昆仑芯即完成P800系列产品的适配工作,成为国内首批实现GLM-5.1 Day 0适配的国产GPU厂商之一。  相较于GLM-5,GLM-5.1在整体能力上实现显著提升,尤其在代码生成与复杂任务处理方面表现突出。在更贴近真实开发场景的SWE-bench Pro基准测试中,GLM-5.1刷新全球成绩,超越GPT-5.4与Claude Opus 4.6。  与此同时,在模型整体性能大幅提升之外,GLM-5.1还在长程任务处理能力上取得了重要突破。不同于当前以分钟级交互为主的模型,GLM-5.1能够在单次任务中持续、自主地工作长达8小时,凭借自主规划、执行与迭代进化,最终交付完整的工程级成果。  发布即适配,软硬协同支撑高效落地  GLM-5.1发布当日,昆仑芯同步完成Day 0深度推理适配,实现模型“上线即可用”,并确保性能稳定释放。  依托底层算子优化与硬件加速能力的协同,GLM-5.1在昆仑芯平台上实现了高吞吐、低延迟的稳定运行,在复杂任务与长序列场景下依然保持高效表现。在代码生成、复杂推理、长文本理解等核心纯文本场景中,模型能力得以满血释放。  针对GLM-5.1的744B MoE架构、200K超长上下文及DSA稀疏注意力等核心特性,昆仑芯开展了全栈深度优化。在实际适配中,依托自研架构,团队持续完善算子覆盖能力与生态兼容体系,充分释放原生INT8/INT4精度的加速潜力,实现模型性能与算力效率的高效匹配,让每一份算力都能发挥最大价值。  昆仑芯软件负责人王勇表示:“GLM-5.1的Day 0深度推理适配,充分体现了昆仑芯在软件生态与软硬件协同方面的综合能力。通过底层算子重构与推理框架协同优化,实现模型结构与硬件架构的深度耦合,使模型在上线首日即可高效、稳定地释放算力性能。”  此次快速适配的背后,是昆仑芯长期构建的完备软硬件协同体系。昆仑芯提供从驱动到专用库的完备软件栈,全面覆盖模型开发与部署关键环节。该软件栈高度兼容主流AI开发生态,在保障计算性能充分释放的同时,有效降低开发门槛与模型迁移成本,使客户能够以更低的适应成本及更短的部署周期完成AI模型开发与部署落地。  坚实算力底座,支撑规模化应用部署  在硬件、系统和集群层面,昆仑芯持续推进算力基础设施的建设。从模型顺利跑通到性能持续优化,昆仑芯已为GLM-5.1打造了覆盖硬件、软件生态、系统和集群的全栈国产算力方案,全面适配企业级智能办公、代码开发、知识库构建等多元场景,助力企业高效释放模型能力,加速技术价值向产业价值转化。  依托深厚的软硬件协同与大规模系统设计能力,昆仑芯推出32卡及64卡超节点方案。相较传统8卡/16卡服务器,昆仑芯超节点产品在节点内通信带宽与算力密度上实现显著提升,带来训练与推理性能的跨越式跃升。此外,昆仑芯进一步发布256卡及512卡超节点技术,并持续向千卡级超节点演进,为更大规模模型应用提供坚实支撑。  在集群建设方面,2025年2月,昆仑芯成功点亮昆仑芯P800万卡集群,这是国内首个正式点亮的自研万卡AI集群。同年4月,该集群规模进一步扩展至3.2万卡。当前,昆仑芯的产品已落地多个千卡及万卡集群,实现长时间高效稳定运行。未来,昆仑芯将持续支持国产算力集群建设,推动模型在真实场景中的规模化应用,助力国产模型的创新发展。  持续保持Day 0节奏,构建国产算力生态协同能力  今年以来,昆仑芯已完成十余款主流模型的Day 0适配,覆盖智谱、通义千问、MiniMax等头部厂商的最新旗舰模型,实现语言、多模态、OCR与翻译等多场景全面覆盖。在适配数量、响应速度与生态广度方面,昆仑芯持续保持行业领先。  凭借其成熟、开放的软件生态,昆仑芯已完成与多款行业主流大模型的首发适配,实现“发布即支持”的快速落地能力。目前,昆仑芯正持续深化大模型适配与优化,全面支持各类模型架构与算法创新,助力开发者获得更流畅、高效的开发与部署体验。  随着国产开源大模型生态不断成熟,算力平台与模型之间的协同效率持续提升。常态化的Day 0级响应,充分验证了昆仑芯软件栈在模型快速迁移、性能释放及生态兼容方面的综合实力。  面向未来,昆仑芯将继续强化对主流前沿模型的高效适配,通过持续的技术创新与软硬协同优势,不断夯实国产AI算力底座,为加速产业智能化升级与数字化转型贡献力量。
2026-04-09 10:14 reading:461
昆仑芯Day 0适配智谱全新一代大模型GLM-5
  今日,智谱AI正式上线并开源全新一代大模型GLM-5。作为面向复杂系统工程与长程Agent任务打造的新一代模型,GLM-5在Coding与Agent能力上实现开源SOTA表现,在真实编程场景中的使用体验已逼近Claude Opus 4.5。当前,昆仑芯完成Day 0深度推理适配。通过底层算子优化与硬件加速能力,GLM-5已在昆仑芯产品上实现高吞吐、低延迟的稳定运行。  Day 0适配落地,软硬协同助推高效部署  在本次Day 0适配合作中,昆仑芯团队深度协同智谱AI,依托在底层算子优化与工具链建设方面的长期技术积累,围绕GLM-5的模型结构与推理特性开展了针对性的联合优化。双方在模型正式上线前,即完成适配与性能调优,确保发布当日实现稳定、高效运行。本次适配不仅实现Day 0支持,更在两大主流开源推理框架vLLM与SGLang上完成验证落地。在算力层面,昆仑芯高性能算子快速完成对GLM-5的DSA与MoE架构适配,并结合INT8量化、MTP优化及双机PP并行等技术手段,显著提升GLM-5在昆仑芯集群环境下的推理吞吐与整体运行效率。  昆仑芯软件负责人王勇表示:“GLM-5的Day 0深度推理适配,是昆仑芯软件生态能力和软硬件协同能力的一次集中体现。通过底层算子重构与推理框架协同优化,我们实现了模型结构特性与硬件架构能力的深度匹配,确保模型在上线首日即可稳定释放高性能算力。”  此次高效适配,得益于昆仑芯自研软件栈的出色兼容性和高效适配能力。昆仑芯提供从驱动到专用库的完备软件栈,全面覆盖模型开发与部署关键环节。该软件栈高度兼容主流AI开发生态,在保障计算性能充分释放的同时,有效降低开发门槛与模型迁移成本,使客户能够以更低的适应成本与更短的部署周期完成AI模型开发与部署落地。  坚实算力底座,万卡集群支撑大规模应用  截至目前,昆仑芯已与国内外多款主流大模型完成适配,其中多个模型更实现“发布即适配、上线即可用”。面向企业及开发者,昆仑芯正持续完善模型适配与部署能力,全面支持各类模型架构与算法创新,助力开发者获得更流畅、高效的开发与部署体验。  在集群建设方面,2025年2月,昆仑芯成功点亮昆仑芯P800万卡集群,这是国内首个正式点亮的自研万卡AI集群。同年4月,该集群规模进一步扩展至3.2万卡。未来,昆仑芯还将不断支持国产算力集群建设,推动模型在真实场景中的规模化应用,助力国产模型的创新发展。  软硬协同创新,共建国产AI开放生态  未来,昆仑芯将持续深耕全栈技术研发,强化软硬协同与生态共建能力,为国产算力高质量发展提供强劲动能。昆仑芯将携手生态伙伴与开发者深化国产模型与国产算力融合创新,共建开放共赢的大模型生态,加速AI技术在更多真实产业场景中的规模化落地应用,推动国产算力高质量发展。
2026-02-12 15:11 reading:766
昆仑芯超节点产品推出,大模型训推任务性能跨越式提升
  开年后,随着DeepSeek席卷千行百业,昆仑芯率先适配、业内首家单机部署满血版展示卓越性能,并在互联网、科研、金融等领域实现规模部署,一系列进展引发广泛关注。刚刚落幕的Create2025百度AI开发者大会上,昆仑芯作为底层算力核心被高频提及,三万卡集群点亮振奋人心,昆仑芯超节点也在大会上正式发布。  自ChatGPT问世,大模型参数快速增长,单卡显存无法容纳越来越大的模型参数,大模型对AI算力系统的并行通信能力提出越来越高的要求;同时开源MoE模型在多专家并行过程中也需要更高的通信效率。DeepSeek-V3/R1加速产业落地,AI算力集群对系统可扩展能力的需求变得空前迫切。  基于对大模型演进趋势及算力需求的前瞻预测,昆仑芯团队率先布局、潜心研发,面向大规模算力场景推出超节点新品,为AI算力集群性能优化和效率提升提供一套全栈解决方案。  昆仑芯超节点渲染图  1.全互联通信带宽提升8倍,训推性能跨越式提升  通过硬件架构创新,昆仑芯超节点突破传统单机8卡产品形态,超高密度设计使得单柜可容纳32/64张昆仑芯AI加速卡。单柜内卡间实现全互联通信,带宽提升高达8倍,一个机柜的算力最高可达到传统形态下8台8卡服务器,实现对MoE大模型单节点训练性能5-10倍、单卡推理效率13倍的大幅提升。  2.整柜功率可支持到120kW,大幅降低PUE  在能耗和散热方面,昆仑芯积极响应节能降耗政策,采用高效的冷板式液冷方式进行系统散热,整柜功率可支持到120kW,大幅降低数据中心的PUE(Power Usage Effectiveness,数据中心消耗的所有能源与IT负载消耗的能源的比值)。不仅如此,昆仑芯超节点支持液冷系统的漏液检测,可及时针对液冷故障进行预警、告警、修复等,最大化提高整机柜系统无间断稳定运行效率。  3.机柜间IB/RoCE通信,高带宽、低延迟  当前,各级政府、众多行业和头部企业集中发力,正在加快建设一批超大规模智算中心。针对集群拓展需求,昆仑芯超节点机柜间支持IB/RoCE通信,可实现跨柜高带宽、低延迟的数据传输,支持万卡以上规模的智算集群构建。  4.自研XPU Link,兼容主流scale-up通信标准  昆仑芯自研互联通信协议XPU Link,秉承一贯的“共生共赢”发展理念,昆仑芯XPU Link兼容scale-up通信标准OISA,与上下游合作伙伴共建超节点行业生态,携手推动国产AI算力在超节点集群中的规模部署和产业应用。  颠覆式的大模型和AI应用加速推动AI步入产业落地新阶段。AI下半场,昆仑芯凭借在芯片架构、集群系统、软件生态领域的深厚积累和全栈优势,竞争实力越发凸显。  目前,昆仑芯已实现三代产品大规模部署落地,通过与数百家客户紧密合作,将AI算力输送到互联网、运营商、智算、金融、能源电力、汽车等等千行万业,惠及数以亿计的终端用户。面向未来,昆仑芯将持续深耕AI芯片技术研发和产业应用,为我国AI产业发展注入源源不断的澎湃动力。
2025-04-27 11:10 reading:2907
  • Week of hot material
  • Material in short supply seckilling
model brand Quote
RB751G-40T2R ROHM Semiconductor
CDZVT2R20B ROHM Semiconductor
BD71847AMWV-E2 ROHM Semiconductor
TL431ACLPR Texas Instruments
MC33074DR2G onsemi
model brand To snap up
ESR03EZPJ151 ROHM Semiconductor
TPS63050YFFR Texas Instruments
BP3621 ROHM Semiconductor
IPZ40N04S5L4R8ATMA1 Infineon Technologies
BU33JA2MNVX-CTL ROHM Semiconductor
STM32F429IGT6 STMicroelectronics
Hot labels
ROHM
IC
Averlogic
Intel
Samsung
IoT
AI
Sensor
Chip
About us

Qr code of ameya360 official account

Identify TWO-DIMENSIONAL code, you can pay attention to

AMEYA360 weixin Service Account AMEYA360 weixin Service Account
AMEYA360 mall (www.ameya360.com) was launched in 2011. Now there are more than 3,500 high-quality suppliers, including 6 million product model data, and more than 1 million component stocks for purchase. Products cover MCU+ memory + power chip +IGBT+MOS tube + op amp + RF Bluetooth + sensor + resistor capacitance inductor + connector and other fields. main business of platform covers spot sales of electronic components, BOM distribution and product supporting materials, providing one-stop purchasing and sales services for our customers.

Please enter the verification code in the image below:

verification code