除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招

发布时间:2017-08-31 00:00
作者:
来源:StarryHeavensAbove
阅读量:2113

今年Hot Chips上和AI(包括自动驾驶)相关的内容(按会议的时间顺序)如下:

NVIDIA: Tutorial: "Building Autonomous Vehicles with NVIDIA’s DRIVE Platform"

The goal of this tutorial is to provide an overview of the autonomous vehicle landscape through NVIDIA’s platform and to highlight how deep neural networks are changing the autonomous vehicle landscape.


这个我没看到具体的内容,就不做评论了。
 

AMD: "AMD’s Radeon Next Generation GPU"

虽然这个presentation中直接涉及AI的内容不多,但有一张slide描述了一下AMD的Machie Learning software stack。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


NVIDIA: "NVIDIA’s Volta GPU: Programmability and Performance for GPU Computing"

这个talk的大部分内容和5月发布Volta时的说明差不多,V100的几个主要特点包括:

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


其中更详细的介绍了一下SM Core和Sub-Core的架构,如下图所示:

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


Wiseteachers.com: "The Direct Human/Machine Interface and hints of a General Artificial Intelligence"

Abstract: Dr. Alvelda will speak about the latest and future developments in Brain-Machine Interface, and how new discoveries and interdisciplinary work in neuroscience are driving new extensions to information theory and computing architectures.


这个内容看起来挺有意思,可惜没看到具体的材料。
 

Renesas Electronics Corporation: "R-Car Gen3: Computing Platform for Autonomous Driving Era"

Renesas在汽车电子领域里做MCU是比较强的,这次推出的是一个完整的计算平台。从下图可以看出,它是和Nvidia的Drive PX2来竞争的。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


而平台中的H3处理器是这个样子的:

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招



Baidu: "XPU: A programmable FPGA Accelerator for diverse workloads"
这次百度的XPU大出风头,很多媒体都有报道。包括Nextplatform也有一篇文章介绍。我就不多说了。
 

Intel: "Knights Mill: Intel Xeon Phi Processor for Machine Learning"

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


按Intel的说法,Knights Mill(KNM)是“First Knights product designed for Intel Scalable System Framework and targeted at Deep Learning”,它的DL Performance是KNL(Knights Landing)的4倍。(每次我总是想到King's Landing)
这个4倍是怎么得来的呢?首先,KNM增加了新的指令:

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


使用这个SIMD指令进行乘法运算的例子如下:

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


另外,KNM还引入了Variable Precision的概念。支持VNNI-16(Vector Neurual Network Instruction),输入INT16,输出INT32,可以并行实现两个16bit乘法并把结果累加到一个32bit的寄存器。VNNI和QFMA结合就有了如下指令:

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


而从端口的角度可以看出KNM在双精度运算上比KNL慢了一倍,而在单精度和VNNI运算上则是KNL的2倍和4倍。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


ThinCI: "Graph Streaming Processor (GSP) A Next-Generation Computing Architecture"

ThinCI这个Startup公司这次介绍了他们的GSP的架构设计目标:

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


总的来说,特色应该是Graph Processing。他们也介绍了他们实现Task Level, Thread Level, Data Level和Instruction Level并行的考虑。但是单从Slides来看也看不出太多细节,比较失望。如果有亲临现场听了的同学也欢迎留言介绍一下。


Wave Computing: "A Dataflow Processing Chip for Training Deep Neural Networks"

这次Wave Computing做的presentation还是比较细致的。不过,其中很多内容在之前这篇文章“AI芯片|浅析Yann LeCun提到的两款Dataflow Chip”里已经有了比较详细的说明。这里我们主要看一看比较新鲜的信息。首先是一个DPU Board的框图:

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招



对此,Nextplatform的文章[1],中是这么介绍的

The graphic above shows four DPUs on a board with a cascading use of the HMC devices. The DPUs actually have quite a bit of interconnectivity through the HMCs, so if a dataflow graph is being executed, most of the communication is local from node to node in the graph. Wave lightly described a “balancing mechanism” to balance the delays through the execution of the graph via buffers between the nodes. By injecting some latency throughput is balanced through the graph and utilization increases. The tensor data for something like TensorFlow (native in the early access machines) is stored entirely in HMC, which means there is not much networking needed between the DPUs. In short, most of the data rides through the HMCs.
 

第二是时钟的设计。之前关注过Wave Computing的同学可能都会对他们的Clock-less设计印象深刻。他们使用这种技术使得1600多个PE和800多个Arithmetic Units可以工作在大约6.7GHz的频率。这次他们给出了这样的说明:

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


另外,这次他们还介绍了一下DPU是怎么实现Dynamic Reconfiguration的。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


在众多xPU Startup公司当中,Wave Computing是很有技术特色的一个,值得大家关注。
 

Microsoft: "Accelerating Persistent Neural Networks at Datacenter Scale"

微软在Cloud中使用FPGA加速的一些情况。这次微软的presentation内容更加丰富,值得好好看看。
 

首先,这次微软提出了Soft DPU的概念,即在FPGA上实现DNN Processing Unit。并且列出了一些做Soft DPU的公司,包括百度和深鉴科技,以及做Hard DPU(ASIC)的公司(这里国内的公司还要争取知名度啊)。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


然后是正式提出BrainWave的名号,并介绍了它的完整Stack。

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招



除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招



其中最底层的HW Microservice在我之前的文章中已经介绍过来,不再赘述。
 

我们来看看上面几层。微软这次提出了一个“Persistent” Neural Net的概念。简单来说就是把model的所有参数都放在FPGA的on-chip memory当中。而不是我们常见的把参数放在片外的DRAM当中。这个想法似乎和GraphCore类似。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


使用这种架构主要是基于下面的原因。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招



如果采用通常用来加速CNN的方法(模型参数存放于片外的DRAM),对于LSTM这类compute-to-data比率比较低的网络(相对于CNN),硬件的利用率将受限于off-chip DRAM的带宽。其实,这也是我们看到很多硬件加速器实现CNN效果很好,但对LSTM效率较低的原因之一。所以,微软提出的这个架构,对于特定网络可能有更好的效果,甚至可能好于ASIC。更进一步,在微软的Cloud FPGA架构下,还可以实现multi-FPGA的大规模Persistent Neural Net。当一个NN model在一个FPGA中放不下的时候,还可以这么玩儿。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


这次微软还给出了Soft DPU的Architecture和Micro-Architecture,干货不少,大家自己体会吧。总的来说,FPGA的可重复编程的特性可以给我们很大的想象空间。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


最后是compiler和runtime,之前的文章“Deep Learning的IR“之争””也提过了。
 

Google: "Keynote: Recent Advances in Artificial Intelligence via Machine Learning and the Implications for Computer System Design"

Jeff Dean这次的Keynote已经被转载介绍了很多了,我就不重复了。贴两张我比较关注的Slides。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


这是第一次看到TPUv2的框图,虽然信息很少,应该也可以算是一个重要事件了。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


T.S.:

从去年开始,AI相关的芯片越来越热。传统芯片公司都有所布局,很多软件和互联网公司纷纷进入,Startup们的估值越来越高。芯片是未来AI发展的基础,热度高是很自然的,但热度并不意味着成功,希望还在路上的各位最终都能成功。

(备注:文章来源于网络,信息仅供参考,不代表本网站观点,如有侵权请联系删除!)

在线留言询价

相关阅读
马来西亚,首款自研AI芯片发布
  马来西亚发布了首款自主研发的人工智能(AI)处理器,加入全球竞争,共同打造最抢手的AI电子元件。  本地芯片设计公司SkyeChip在一场由马来西亚高级政府官员出席的行业协会活动中推出MARS1000芯片。马来西亚半导体行业协会在一份声明中表示,该芯片是马来西亚首款边缘AI处理器,这意味着该组件可以从内部为从汽车到机器人等设备提供支持。  该东南亚国家正寻求在全球芯片供应链中发挥更大作用,并利用AI热潮。马来西亚已是全球半导体封装领域的重要参与者,并成为包括泛林集团在内的半导体设备供应商的制造中心。此外,马来西亚还是蓬勃发展的AI数据中心中心,吸引了包括甲骨文和微软在内的众多公司进行大规模投资。  边缘AI芯片的复杂度和性能远不及英伟达公司为数据中心提供支持并大规模训练算法的尖端产品,但它仍然是构建尖端技术能力的关键一步。目前尚不清楚SkyeChip将在何处生产其设计的芯片。  马来西亚旨在提升在芯片设计、晶圆制造和AI数据中心方面的实力。由总理安瓦尔·易卜拉欣领导的政府已承诺投入至少250亿林吉特(60亿美元)来提升其在全球价值链中的地位。  特朗普政府提议限制AI芯片流向马来西亚和泰国,令这一努力变得更加复杂,因为美国怀疑走私者利用这两个国家/地区作为转运站,将半导体转运到受限制的市场。马来西亚最近采取行动,收紧与美国科技公司合作的AI芯片出口,并表示不会容忍滥用该国进行非法贸易活动。
2025-08-26 16:42 阅读量:260
一文了解AI芯片的常见应用领域
  随着人工智能技术的飞速发展,AI芯片作为支撑智能计算的核心硬件,发挥着越来越重要的作用。AI芯片专门设计来高效处理深度学习、机器学习等复杂算法,推动了智能设备和系统的普及。下面简要介绍几个AI芯片的主要应用领域:  01智能手机和终端设备  AI芯片被广泛集成于智能手机、平板和可穿戴设备中,用于图像识别、语音助手、增强现实等功能。通过本地AI计算,这些设备能够实现更快的响应速度和更优的隐私保护。  02自动驾驶与智能交通  自动驾驶汽车依赖AI芯片来处理来自摄像头、雷达和传感器的大量数据,实时分析路况,实现自动导航和避障。此外,智能交通系统通过AI芯片优化信号灯控制和交通流量管理,提高城市交通效率。  03数据中心和云计算  现代云计算平台大量部署AI芯片,用于加速大规模机器学习任务和数据分析,提升训练速度和推理效率,支持智能搜索、推荐系统和自然语言处理等服务。  04机器人与工业自动化  在工业领域,AI芯片驱动的机器人能够完成复杂的感知、决策和操作任务,提高生产线自动化水平和灵活性,降低人工成本。  05智能安防与监控  AI芯片使监控设备具备实时人脸识别、异常行为检测等智能功能,增强安全防护能力,广泛应用于公共安全和企业管理。  06医疗健康  AI芯片帮助医疗设备实现图像诊断、病症预测和个性化医疗方案制定,推动医疗服务向智能化、精准化方向发展。综上所述,AI芯片正渗透到生活和工业的各个角落,推动智能化技术的变革。未来,随着AI芯片性能的持续提升,它将带来更多创新应用,改变我们的生活方式和工作模式。
2025-05-20 13:11 阅读量:599
特朗普正式废除拜登的人工智能扩散规则,拟全球禁用华为AI芯片!
  当地时间5月13日,美国商务部正式发文,废除拜登政府此前推出的《人工智能扩散规则》(AI Diffusion Rule),并同时宣布一系列强化全球半导体出口管制的新措施。这一举动在全球科技产业引发震动,凸显美国在人工智能和半导体领域战略的重大调整。  AI Diffusion Rule 于 2025年1月15日由拜登政府发布,原定于5月15日生效。该规则将全球国家和地区划分为三个层级,实施差异化的先进人工智能芯片出口管控。然而,美国商务部工业与安全局(BIS)指出,这项规则一旦实施,不仅会对美国本土企业施加 “繁重的监管负担”,扼杀美国创新活力,还会因将众多国家降格为 “二级技术合作对象”,严重损害美国与数十个国家的外交关系。BIS 透露,将通过《联邦公报》发布正式撤销通知,并在未来推出替代规则。  美国商务部负责工业和安全的副部长杰弗里・凯斯勒(Jeffery Kessler)明确指示 BIS 执法官员,停止执行拜登政府的 AI 扩散规则。他强调,特朗普政府将与全球 “可信赖的伙伴国家” 携手,构建大胆且包容的人工智能技术战略,在保障关键技术不落入对手手中的同时,推动美国 AI 技术的创新与国际合作。凯斯勒批评拜登政府的 AI 政策 “考虑欠妥、适得其反”,对美国的技术优势和国际合作关系造成负面影响。  在废除 AI 扩散规则的同时,BIS 宣布了三项旨在加强海外 AI 芯片出口管制的新举措:  全球禁用华为 Ascend 芯片:BIS 发布指导意见,明确在世界任何地区使用华为 Ascend 芯片均被视为违反美国出口管制条例,试图从全球层面阻断华为芯片技术的应用拓展。  限制 AI 芯片用于中国 AI 模型:BIS 发出警告,若美国 AI 芯片被用于训练或干扰中国人工智能模型,相关企业将面临严重后果,进一步强化对中国 AI 产业发展的技术封锁。  供应链反制指南:美国商务部要求美国企业重新审视供应链合作伙伴,强化审查机制,防范技术转移风险,确保美国半导体技术在全球供应链中的绝对主导地位。  美国商务部宣称,此次行动是为了确保美国在人工智能创新领域的前沿地位,稳固其全球 AI 主导权。但分析人士指出,美国此举实质是在全球科技竞争加剧的背景下,以单边主义手段维护自身科技霸权,新措施可能进一步扰乱全球半导体产业链的正常秩序,加剧全球半导体产业链的分化与重构,引发更多国家对自身科技产业安全的担忧,促使各国加速推动半导体技术的自主研发与供应链多元化布局。
2025-05-14 13:32 阅读量:1918
两款国产5nm AI芯片,2026年前量产!
  据知情人士透露,TikTok母公司字节跳动正加快自研人工智能芯片的步伐,意在提升在中国人工智能聊天机器人市场中的竞争优势。  两位知情人士证实,字节跳动计划与芯片制造巨头台积电合作,力争在2026年前实现两款自研半导体芯片的量产,使用5纳米技术。这一举措可能会减少字节跳动在开发和运行人工智能模型过程中对昂贵的英伟达芯片的依赖。  对于字节跳动来说,降低芯片成本至关重要。与其他中国大型科技公司及众多初创企业一样,字节跳动已经推出了自家大语言模型,供内部使用和对外销售。然而,市场竞争异常激烈,导致包括阿里巴巴和百度在内的中国科技巨头纷纷将其模型使用价格大幅下调,降幅高达97%。  字节跳动去年发布了其首款人工智能聊天机器人“豆包”,该机器人提供了类似于OpenAI ChatGPT的文本和图像生成功能。今年,字节跳动又推出了一批低成本的大语言模型,其中部分产品的定价比OpenAI的同类产品低了高达99%。  与此同时,字节跳动在开发生成式人工智能模型方面的费用也在不断上升。据知情人士透露,今年,该公司已订购了超过20万颗英伟达H20芯片,这款芯片是美国出口管制下允许出售给中国的最先进英伟达芯片。该订单的总金额超过20亿美元,目前字节跳动仍在等待英伟达交付全部订单。  不过,字节跳动正计划从台积电订购数十万颗自家设计的训练和推理芯片。预计这些内部设计的芯片成本将比从英伟达购买芯片节省数十亿美元。然而,这些芯片目前仍处于设计阶段,因此字节跳动的计划可能会有所调整。
2024-09-18 16:33 阅读量:1107
  • 一周热料
  • 紧缺物料秒杀
型号 品牌 询价
CDZVT2R20B ROHM Semiconductor
TL431ACLPR Texas Instruments
BD71847AMWV-E2 ROHM Semiconductor
MC33074DR2G onsemi
RB751G-40T2R ROHM Semiconductor
型号 品牌 抢购
TPS63050YFFR Texas Instruments
BU33JA2MNVX-CTL ROHM Semiconductor
STM32F429IGT6 STMicroelectronics
IPZ40N04S5L4R8ATMA1 Infineon Technologies
ESR03EZPJ151 ROHM Semiconductor
BP3621 ROHM Semiconductor
热门标签
ROHM
Aavid
Averlogic
开发板
SUSUMU
NXP
PCB
传感器
半导体
相关百科
关于我们
AMEYA360微信服务号 AMEYA360微信服务号
AMEYA360商城(www.ameya360.com)上线于2011年,现 有超过3500家优质供应商,收录600万种产品型号数据,100 多万种元器件库存可供选购,产品覆盖MCU+存储器+电源芯 片+IGBT+MOS管+运放+射频蓝牙+传感器+电阻电容电感+ 连接器等多个领域,平台主营业务涵盖电子元器件现货销售、 BOM配单及提供产品配套资料等,为广大客户提供一站式购 销服务。

请输入下方图片中的验证码:

验证码