刷新AI PC <span style='color:red'>NPU</span>算力,AMD锐龙AI 9 HX 375领衔55 TOPS
  最近AMD官网上线了锐龙AI 300系列中的最新成员锐龙AI 9 HX 375处理器。原本Ryzen AI 9 HX 370的NPU达到了50 TOPS,属于AI PC NPU性能第一梯队。而此次推出的Ryzen AI 9 HX 375算力进一步提升至55 TOPS。在NPU算力这条路上AMD甚是积极。  AMD Ryzen AI 9 HX 375性能  AMD Ryzen AI 9 HX 375采用TSMC 4nm FinFET制程工艺,CPU为12核心设计,包括4x Zen 5 , 8x Zen 5c,共24线程。其基准时钟频率为2 GHz,最高加速频率可达5.1 GHz。配备L2 高速缓存达12 MB,L3 高速缓存达24 MB。默认热设计功耗 (TDP)为28W,AMD 可配置热设计功耗 (cTDP)为15-54W。支持AMD EXPO内存超频技术。  来源:AMD官网       连接方面,支持PCIe 4.0,16条通道,最高内存速度4x2R DDR5-5600, LPDDR5x-7500,最大内存达256 GB。Ryzen AI 9 HX 375集成AMD Radeon 890M GPU,显卡核心数为16个,显卡频率高达2900 MHz。据悉,惠普即将推出的OmniBook Ultra笔记本将搭载这款处理器,为用户提供前所未有的AI体验和性能表现。  NPU算力之争  Ryzen AI 9 HX 375与Ryzen AI 9 HX 370最大的区别在于NPU算力,前者实现了55 TOPS算力,比后者的50 TOPS算力高10%。  来源:AMD官网       我们知道,微软给出的AI PC定义,NPU的算力至少要达到40 TOPS。这一定义的抛出,突显了NPU的重要性。同时CPU+GPU+NPU的组合将是AI PC的算力基座。其中,NPU提供高效能和低功耗的神经网络运算支持,在多种应用场景中实现智能计算。       在各大处理器厂商推出的AI PC处理器上都十分注重NPU算力的搭配。在笔者早前报道中统计过,英特尔酷睿Ultra产品系列中,2024年推出的Lunar Lake采用台积电3nm工艺,NPU性能将是上一代的4倍,达到48 TOPS。高通骁龙(Snapdragon)X Elite芯片搭载的全新 Hexagon NPU 最高可提供45 TOPS。而Ryzen AI 9 HX 370 更是达到50 TOPS的NPU算力。       如今Ryzen AI 9 HX 375的发布又将算力直接拉升到55 TOPS。AMD的锐龙 AI 300 系列从命名上就可以看出主打AI的鲜明特性,它全面支持 Copilot+ PC,实现在笔记本电脑上直接使用 Microsoft Copilot 等新应用程序和助手进行人工智能计算。  不过,根据此前英特尔公开的信息,Lunar Lake使用Lion Cove架构P-Core与Skymont架构E-Core,最多4P+4E;采用代号为Battlemage的Xe2架构核显;最多8个Xe2内核,搭载了最新的第四代NPU,可提供48 TOPS的算力,是上代的四倍多,平台整体算力则高达120 TOPS。可以看到,若是看CPU、GPU、NPU的平台整体算力,英特尔以120 TOPS的表现领先。       Canalys的最新预测数据显示,‌2024年全球AI PC出货量将达到4800万台,‌占个人电脑(PC)总出货量的18%。‌‌预计到2025年,‌AI PC出货量将超过1亿台,‌占PC总出货量的40%。‌到2028年,‌AI PC出货量预计将达到2.05亿台,‌2024年至2028年期间的复合年增长率(CAGR)将达到44%。Canalys指出,这些PC集成了专用于AI的加速器,如神经处理单元(NPU),将释放出高生产力、个性化及能效方面的新功能,为厂商及其合作伙伴带来显著的价值收益。
关键词:
发布时间:2024-08-07 09:14 阅读量:1336 继续阅读>>
npu芯片是什么 npu芯片有什么用
  数字时代人工智能的高效应用,需要大量的计算资源来处理复杂的算法和海量的数据。为了满足这一需求,NPU芯片应运而生。那么NPU是怎样的芯片?下面跟随AMEYA360电子元器件采购网一起了解一下NPU芯片基础知识点。  一、NPU芯片定义  NPU是"神经网络处理单元"(Neural Processing Unit)的缩写。NPU是一种专门设计用于进行人工神经网络计算的处理器或芯片。它被广泛用于加速人工智能任务,特别是深度学习和机器学习算法。  传统的中央处理器(CPU)通常用于执行通用计算任务,但对于处理大规模的神经网络计算,CPU的处理效率相对较低。NPU通过专门的硬件架构和优化的指令集,能够高效地执行神经网络的计算任务,提供更高的性能和能效。  二、NPU芯片原理  NPU芯片的工作原理涉及以下几个关键方面:  神经网络计算:NPU芯片的主要目标是高效执行神经网络计算。它通过并行处理和特定的硬件设计来加速神经网络的前向传播和反向传播过程。NPU芯片利用矩阵乘法、卷积运算、激活函数和归一化操作等算法来执行神经网络的计算任务。  神经网络加速器:NPU芯片通常包含专门的神经网络加速器,用于高效执行神经网络的计算。这些加速器具有优化的硬件架构,如向量处理单元、矩阵乘法单元、卷积单元和激活函数单元等。这些加速器能够在硬件级别上执行大规模矩阵运算和卷积运算,以提高神经网络计算的效率。  指令集和优化:NPU芯片配备了特定的指令集,以支持神经网络计算所需的操作。这些指令可以在硬件级别上执行神经网络的计算操作,如乘法、加法、卷积等。NPU芯片的指令集通常经过优化,以提高指令的执行效率和吞吐量。  数据流与内存优化:NPU芯片的设计通常优化了数据流和内存访问,以减少数据传输和内存延迟对计算性能的影响。这包括使用数据重用、数据流缓冲和局部存储等技术,以最大程度地减少数据的移动和存取时间。  网络模型支持:NPU芯片要能够适应不同类型的神经网络模型和算法。为此,它们通常支持常见的神经网络层类型,如全连接层、卷积层、循环神经网络层等,并能够执行各种常用的计算操作。此外,NPU芯片还需要具备灵活的架构,能够通过软件更新或固件升级来支持新的神经网络模型和算法。  三、NPU芯片特点  1、高效性能:NPU芯片经过专门的硬件设计和优化,能够高效执行神经网络计算。相对于传统的通用处理器,它具有更高的计算能力和更快的计算速度。这使得NPU芯片在处理大规模神经网络任务时能够提供更快速、更高效的性能。  2、低功耗:NPU芯片采用了功耗优化的设计,以最小化功耗并提高能效。相比使用传统处理器进行神经网络计算,NPU芯片能够在相同的功耗下完成更多的计算任务,从而延长设备的电池寿命,或者在同样的功耗下提供更高的性能。  3、专门化设计:NPU芯片是专门为神经网络计算任务而设计的,它采用了特定的硬件架构和指令集,以加速神经网络算法的执行。与通用处理器相比,NPU芯片在神经网络计算方面具有更高的效率和优化程度。  4、硬件加速:NPU芯片通过硬件加速来执行神经网络计算,与使用软件库进行计算的方式相比,它能够提供更高的计算性能。这种硬件加速可以大幅提升神经网络任务的执行速度,并在实时应用中实现更低的延迟。  5、弹性和可扩展性:NPU芯片通常具有灵活的架构,能够适应不同的神经网络模型和算法。它们支持多种神经网络层类型和计算操作,并能够通过软件更新或固件升级来支持新的神经网络模型和算法。这种可扩展性使得NPU芯片能够适应不断演进的人工智能应用需求。  四、NPU芯片应用  NPU通常被应用于各种设备,包括智能手机、平板电脑、物联网设备和云服务器等。它可以加速图像识别、语音识别、自然语言处理等人工智能任务,提供更快速、更准确的结果。  新一代的NPU芯片将继续追求更高的性能和能效,采用更先进的硬件架构和算法优化。同时,与其他领域的芯片(如图形处理器GPU和张量处理器TPU)进行混合集成,以实现更全面的计算能力,也是未来NPU芯片发展的趋势之一。
关键词:
发布时间:2023-07-06 09:57 阅读量:2100 继续阅读>>
Arm连续发多款<span style='color:red'>NPU</span>、GPU,给中国IC市场吃下一颗“定心丸”
自从美国针对中国用户列出“实体名单”以来,全球半导体市场就动荡不安,各大调查机构纷纷下调半导体市场的全年营收,在 2019 Arm 技术峰会上,Arm 中国董事长兼首席执行官吴雄昂在演讲中表示,经过法务严禁调查,无论 Arm v8 还是 Arm v9 架构都是源自英国的技术,Arm 会和过去一样持续向中国伙伴进行授权和服务支持。这一消息给采用 Arm IP 设计芯片的中国公司吃下一颗“定心丸”。 吴雄昂还表示,目前,Arm 在中国有超过 200 个合作伙伴,中国客户基于 Arm 技术的芯片累计出货量超过 160 亿颗,其中 95%的国产 SoC 都是基于 Arm 处理器技术进行设计。吴雄昂强调,Arm 是唯一非美国的主流计算平台。 在本次峰会上,Arm 推出了两款全新的主流 ML 处理器 Ethos-N57 和 Ethos-N37 NPUs,以及最新的 Mali-G57 GPU 和 Mali-D37 DPU。Arm 市场营销副总裁 Ian Smythe 介绍,Ethos-N57 and Ethos-N37 NPUs 让 AI 应用成为可能并在 ML 的性能与成本、面积、带宽与电池寿命之间达成平衡;Mali-G57 GPU 是第一款基于 Valhall 架构的主流 GPU,可透过性能提升带来沉浸式体验; Mali-D37 DPU 以最小的芯片面积达成丰富的显示功能,成为入门设备与小型显示屏幕最适合的显示处理器(DPU)。 推出 Ethos 系列 NPU,加强 AI 能力随着物联网的深入发展,AIoT 时代已经到来,小到手机、手表,大到家用电器,智能无处不在,但要促成这些响应式体验,端点必须具备更强的计算能力。例如,数字电视的智能体验,包括智能助理语音指令、节目实时翻译,以及人脸辨识以强化家长监护。 在原有 Ethos-N77 的基础上,Arm 又发布了 Ethos-N57 和 Ethos-N37 NPUs。其中,Ethos-N77 针对高端市场,Ethos-N57 针对主流市场,Ethos-N37 针对低端市场。 Arm Ethos 产品组合旨在解决 AI 与 ML 复杂运算的挑战,以便为日常生活设备创造更为个性化与沉浸式的体验。由于消费者的设备越来越智能化,通过专属的 ML 处理器提供额外的 AI 性能与效率,是非常有必要的。全新的 Ethos 对成本与电池寿命最为敏感的设计进行优化,NPU 可以为日常生活设备带来优质的 AI 体验。  Ian Smythe 介绍,Ethos-N57 与 Ethos-N37 的设计理念包括一些基本原则,针对 Int8 与 Int16 数据类型的支持性进行优化;先进的数据管理技术,以减少数据的移动与相关的耗电;通过如创新的 Winograd 技术的落地,使性能比其他 NPU 提升超过 200% 。另外,Ethos-N37 的功能还包括为了提供面积最小的 ML 推论处理器(小于 1 平方毫米)而设计,针对每秒 1 兆次运算次数的性能范围进行优化;Ethos-N57 的功能还包括旨在提供平衡的 ML 性能与功耗效率,针对每秒 2 兆次运算次数的性能范围进行优化。 专用 AI 处理器和通用处理器之争随着终端设备开始增加 AI 功能,不同的设备对 AI 的算力需求也不尽相同,有人认为原有的 CPU、GPU 通用架构芯片难以满足所有产品的需求,AI 专用芯片在计算密度和功耗上更有优势,因此有些公司在自己的 SoC 中加入了针对 AI 计算的 NPU 内核,比如华为麒麟 970 加入了 NPU 单元,苹果 A11 处理器也集成了 NPU 内核,还有一些公司开始设计 AI 专用芯片,比如地平线、云知声、出门问问、比特大陆等公司均推出了 AI 专用芯片。 Arm 推出 NPU 产品产品是否也是顺应这一市场需求?AI 专用芯片是否更适合 AI 算法?Ian Smythe 给出了不太一样的答案,他认为,在当前的市场环境下选择通用处理器比较合适,因为 AI 处理器还处于发展初级阶段,很多 AI 算法还处于迭代过程中,通用处理器还有 2-3 年的生命周期。而且 Arm 的优势在于,NPU 可以和 CPU、GPU 协同工作,实现异构 AI 计算,进一步提升整个系统层级的 AI 性能、降低功耗。 当记者问到 Arm 的 NPU 是否能够用于 RISC-V 架构时,Ian Smythe 表示,可以。但是他又解释,Arm 的 NPU 和自己的 CPU、GPU 协同工作,可以发挥最高的性能,如果和其它 CPU、GPU 组合性能的发挥无法得到保证。 Mali-G57 GPU:性能、能效双提升 对于 GPU 来讲,性能和能效是设备端最关注的两大指标,Mali-G57 GPU 将优质的智能与沉浸式体验带到主流市场,与 Mali-G52 相比,各种内容都能达到 1.3 倍的性能密度,能效比提升 30%,使电池寿命更长;针对虚拟现实(VR)提供注视点渲染支持,且设备 ML 性能提升 60%,以便进行更复杂的 XR 实境应用。 应用包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV 的 4K/8K 用户接口,以及更为复杂的虚拟现实和增强现实的负荷。这是移动市场划分中最大的一部分,而 Arm 最近与 Unity 的发布强调其基于 Arm IP 的片上系统(SoC),CPU, GPU 进一步的性能优化的努力,它可以让开发人员有更多的时间创造出全新的沉浸式内容。 Arm 曾经许诺,GPU 的能效会以 30%的速度提高,从 Mali-G57 的参数来看已经实现今年的目标,但是未来会是否持续以这样的速度提高能效?Ian Smythe 从两方面进行了解释,第一,Arm 一直关注能效,有工程师专门关注能效的提升;第二,计算分不同层次,为了达到同样的效果,Arm 会探索其它方式,从系统角度做各种提升。 Mali-D37 DPU:实现单位面积效率最高Mali-D37 是一个在最小的可能面积上包含丰富显示与性能的 DPU。对于终端用户而言,这意味着当面积成为首要考虑,在例如入门级智能手机、平板电脑与分辨率在 2k 以内的小显示屏等成本较低的设备上,会有更佳的视觉效果与性能。 Mali-D37 的单位面积效率极高,DPU 在支持全高清(Full HD)与 2K 分辨率的组态下,16 纳米制程的面积将小于 1 mm2;通过减少 GPU 核心显示工作以及包括 MMU-600 等内存管理功能,系统电力最高可节省 30%;从高阶的 Mali-D71 保留关键的显示功能,包括与 Assertive Display 5 结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。 关于 Mali-D37 的省电方式,Ian Smythe 强调,从 Arm 的文化来看,我们更愿意从系统级别出发,降低整体能耗。 
关键词:
发布时间:2019-10-28 00:00 阅读量:1409 继续阅读>>

跳转至

/ 1

  • 一周热料
  • 紧缺物料秒杀
型号 品牌 询价
RB751G-40T2R ROHM Semiconductor
BD71847AMWV-E2 ROHM Semiconductor
TL431ACLPR Texas Instruments
CDZVT2R20B ROHM Semiconductor
MC33074DR2G onsemi
型号 品牌 抢购
BU33JA2MNVX-CTL ROHM Semiconductor
ESR03EZPJ151 ROHM Semiconductor
IPZ40N04S5L4R8ATMA1 Infineon Technologies
TPS63050YFFR Texas Instruments
STM32F429IGT6 STMicroelectronics
BP3621 ROHM Semiconductor
热门标签
ROHM
Aavid
Averlogic
开发板
SUSUMU
NXP
PCB
传感器
半导体
关于我们
AMEYA360商城(www.ameya360.com)上线于2011年,现有超过3500家优质供应商,收录600万种产品型号数据,100多万种元器件库存可供选购,产品覆盖MCU+存储器+电源芯 片+IGBT+MOS管+运放+射频蓝牙+传感器+电阻电容电感+连接器等多个领域,平台主营业务涵盖电子元器件现货销售、BOM配单及提供产品配套资料等,为广大客户提供一站式购销服务。

请输入下方图片中的验证码:

验证码