除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招

Release time:2017-08-31
author:
source:StarryHeavensAbove
reading:2157

今年Hot Chips上和AI(包括自动驾驶)相关的内容(按会议的时间顺序)如下:

NVIDIA: Tutorial: "Building Autonomous Vehicles with NVIDIA’s DRIVE Platform"

The goal of this tutorial is to provide an overview of the autonomous vehicle landscape through NVIDIA’s platform and to highlight how deep neural networks are changing the autonomous vehicle landscape.


这个我没看到具体的内容,就不做评论了。
 

AMD: "AMD’s Radeon Next Generation GPU"

虽然这个presentation中直接涉及AI的内容不多,但有一张slide描述了一下AMD的Machie Learning software stack。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


NVIDIA: "NVIDIA’s Volta GPU: Programmability and Performance for GPU Computing"

这个talk的大部分内容和5月发布Volta时的说明差不多,V100的几个主要特点包括:

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


其中更详细的介绍了一下SM Core和Sub-Core的架构,如下图所示:

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


Wiseteachers.com: "The Direct Human/Machine Interface and hints of a General Artificial Intelligence"

Abstract: Dr. Alvelda will speak about the latest and future developments in Brain-Machine Interface, and how new discoveries and interdisciplinary work in neuroscience are driving new extensions to information theory and computing architectures.


这个内容看起来挺有意思,可惜没看到具体的材料。
 

Renesas Electronics Corporation: "R-Car Gen3: Computing Platform for Autonomous Driving Era"

Renesas在汽车电子领域里做MCU是比较强的,这次推出的是一个完整的计算平台。从下图可以看出,它是和Nvidia的Drive PX2来竞争的。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


而平台中的H3处理器是这个样子的:

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招



Baidu: "XPU: A programmable FPGA Accelerator for diverse workloads"
这次百度的XPU大出风头,很多媒体都有报道。包括Nextplatform也有一篇文章介绍。我就不多说了。
 

Intel: "Knights Mill: Intel Xeon Phi Processor for Machine Learning"

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


按Intel的说法,Knights Mill(KNM)是“First Knights product designed for Intel Scalable System Framework and targeted at Deep Learning”,它的DL Performance是KNL(Knights Landing)的4倍。(每次我总是想到King's Landing)
这个4倍是怎么得来的呢?首先,KNM增加了新的指令:

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


使用这个SIMD指令进行乘法运算的例子如下:

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


另外,KNM还引入了Variable Precision的概念。支持VNNI-16(Vector Neurual Network Instruction),输入INT16,输出INT32,可以并行实现两个16bit乘法并把结果累加到一个32bit的寄存器。VNNI和QFMA结合就有了如下指令:

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


而从端口的角度可以看出KNM在双精度运算上比KNL慢了一倍,而在单精度和VNNI运算上则是KNL的2倍和4倍。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


ThinCI: "Graph Streaming Processor (GSP) A Next-Generation Computing Architecture"

ThinCI这个Startup公司这次介绍了他们的GSP的架构设计目标:

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


总的来说,特色应该是Graph Processing。他们也介绍了他们实现Task Level, Thread Level, Data Level和Instruction Level并行的考虑。但是单从Slides来看也看不出太多细节,比较失望。如果有亲临现场听了的同学也欢迎留言介绍一下。


Wave Computing: "A Dataflow Processing Chip for Training Deep Neural Networks"

这次Wave Computing做的presentation还是比较细致的。不过,其中很多内容在之前这篇文章“AI芯片|浅析Yann LeCun提到的两款Dataflow Chip”里已经有了比较详细的说明。这里我们主要看一看比较新鲜的信息。首先是一个DPU Board的框图:

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招



对此,Nextplatform的文章[1],中是这么介绍的

The graphic above shows four DPUs on a board with a cascading use of the HMC devices. The DPUs actually have quite a bit of interconnectivity through the HMCs, so if a dataflow graph is being executed, most of the communication is local from node to node in the graph. Wave lightly described a “balancing mechanism” to balance the delays through the execution of the graph via buffers between the nodes. By injecting some latency throughput is balanced through the graph and utilization increases. The tensor data for something like TensorFlow (native in the early access machines) is stored entirely in HMC, which means there is not much networking needed between the DPUs. In short, most of the data rides through the HMCs.
 

第二是时钟的设计。之前关注过Wave Computing的同学可能都会对他们的Clock-less设计印象深刻。他们使用这种技术使得1600多个PE和800多个Arithmetic Units可以工作在大约6.7GHz的频率。这次他们给出了这样的说明:

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


另外,这次他们还介绍了一下DPU是怎么实现Dynamic Reconfiguration的。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


在众多xPU Startup公司当中,Wave Computing是很有技术特色的一个,值得大家关注。
 

Microsoft: "Accelerating Persistent Neural Networks at Datacenter Scale"

微软在Cloud中使用FPGA加速的一些情况。这次微软的presentation内容更加丰富,值得好好看看。
 

首先,这次微软提出了Soft DPU的概念,即在FPGA上实现DNN Processing Unit。并且列出了一些做Soft DPU的公司,包括百度和深鉴科技,以及做Hard DPU(ASIC)的公司(这里国内的公司还要争取知名度啊)。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


然后是正式提出BrainWave的名号,并介绍了它的完整Stack。

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招



除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招



其中最底层的HW Microservice在我之前的文章中已经介绍过来,不再赘述。
 

我们来看看上面几层。微软这次提出了一个“Persistent” Neural Net的概念。简单来说就是把model的所有参数都放在FPGA的on-chip memory当中。而不是我们常见的把参数放在片外的DRAM当中。这个想法似乎和GraphCore类似。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


使用这种架构主要是基于下面的原因。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招



如果采用通常用来加速CNN的方法(模型参数存放于片外的DRAM),对于LSTM这类compute-to-data比率比较低的网络(相对于CNN),硬件的利用率将受限于off-chip DRAM的带宽。其实,这也是我们看到很多硬件加速器实现CNN效果很好,但对LSTM效率较低的原因之一。所以,微软提出的这个架构,对于特定网络可能有更好的效果,甚至可能好于ASIC。更进一步,在微软的Cloud FPGA架构下,还可以实现multi-FPGA的大规模Persistent Neural Net。当一个NN model在一个FPGA中放不下的时候,还可以这么玩儿。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


这次微软还给出了Soft DPU的Architecture和Micro-Architecture,干货不少,大家自己体会吧。总的来说,FPGA的可重复编程的特性可以给我们很大的想象空间。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


最后是compiler和runtime,之前的文章“Deep Learning的IR“之争””也提过了。
 

Google: "Keynote: Recent Advances in Artificial Intelligence via Machine Learning and the Implications for Computer System Design"

Jeff Dean这次的Keynote已经被转载介绍了很多了,我就不重复了。贴两张我比较关注的Slides。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


这是第一次看到TPUv2的框图,虽然信息很少,应该也可以算是一个重要事件了。


除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招


T.S.:

从去年开始,AI相关的芯片越来越热。传统芯片公司都有所布局,很多软件和互联网公司纷纷进入,Startup们的估值越来越高。芯片是未来AI发展的基础,热度高是很自然的,但热度并不意味着成功,希望还在路上的各位最终都能成功。

("Note: The information presented in this article is gathered from the internet and is provided as a reference for educational purposes. It does not signify the endorsement or standpoint of our website. If you find any content that violates copyright or intellectual property rights, please inform us for prompt removal.")

Online messageinquiry

reading
央视报道:国产AI芯片重大突破!
  9月16日晚间,中央广播电视总台《新闻联播》栏目对中国联通三江源绿电智算中心项目的建设成效予以重点报道。其中披露了阿里旗下平头哥最新研发的面向人工智能的PPU芯片,其各项主要参数指标均超越了英伟达A800,与H20相当。  值得关注的是,该项目的国产算力板块,关联到阿里平头哥(万卡)、沐曦股份、壁仞科技、中昊芯英、太初元碁、燧原科技、摩尔线程等多家国产 AI 芯片领域的知名品牌,涵盖了已达成签约合作以及计划签约的不同合作进展情况。  从已签约的项目细节来看,其规模颇为可观。目前已确定合作的设备数量达到 1747台,配备的算力卡数量共计22832张,经统计,总算力水平高达3479P。  具体到各合作方,阿里云在此次合作中贡献突出,其投入的设备数量为1024台,搭载的平头哥算力卡有16384张,所提供的算力达到1945P;中科院也积极参与其中,投入512台设备,配备4096张沐曦算力卡,可提供984P的算力;北京京仪同样发挥重要作用,投入83台设备,配备1328张壁仞算力卡,能提供450P算力;此外,中昊芯英投入128台设备,可提供200P的算力。  除了已签约项目,拟签约项目的算力规模也不容小觑,总算力预计可达2002P,太初元碁、燧原科技、摩尔线程这几家国产AI芯片品牌的算力卡将参与到该部分项目中。更为关键的是,央视在报道时,特意为包含平头哥PPU、NVIDIA A800、NVIDIA H20、华为昇腾 910B、壁仞 104P 等算力卡重要参数的对比表格给出了大特写镜头。通过这张表格能够清晰看到,平头哥PPU选用HBM2e显存类型,其显存容量足足有96GB,片间带宽达到700GB/s,功耗则为400W,从多项配置规格来看,不仅超过了A800,还与H20十分接近。再看华为昇腾310B,它采用64GB的HBM2显存,片间带宽为392GB/s,功耗控制在350W;而壁仞104P算力卡配备32GB HBM2e显存,片间带宽为 256GB/s,功耗仅为300W,不同算力卡的性能特点通过参数对比一目了然。  中国联通三江源绿电智算中心项目的推进,不仅彰显了我国在绿电智算领域的建设实力,更重要的是,众多国产AI芯片品牌的深度参与,体现出国产 AI 芯片产业的蓬勃发展态势。  随着这些项目的逐步落地,国产算力将在关键领域发挥更重要的支撑作用,为我国数字经济的高质量发展注入强劲动力。同时,不同品牌算力卡参数的公开对比,也有利于促进行业内的良性竞争与技术交流,推动国产AI芯片技术不断迭代升级,进一步提升我国在全球 AI 算力领域的竞争力。
2025-09-17 15:26 reading:354
马来西亚,首款自研AI芯片发布
  马来西亚发布了首款自主研发的人工智能(AI)处理器,加入全球竞争,共同打造最抢手的AI电子元件。  本地芯片设计公司SkyeChip在一场由马来西亚高级政府官员出席的行业协会活动中推出MARS1000芯片。马来西亚半导体行业协会在一份声明中表示,该芯片是马来西亚首款边缘AI处理器,这意味着该组件可以从内部为从汽车到机器人等设备提供支持。  该东南亚国家正寻求在全球芯片供应链中发挥更大作用,并利用AI热潮。马来西亚已是全球半导体封装领域的重要参与者,并成为包括泛林集团在内的半导体设备供应商的制造中心。此外,马来西亚还是蓬勃发展的AI数据中心中心,吸引了包括甲骨文和微软在内的众多公司进行大规模投资。  边缘AI芯片的复杂度和性能远不及英伟达公司为数据中心提供支持并大规模训练算法的尖端产品,但它仍然是构建尖端技术能力的关键一步。目前尚不清楚SkyeChip将在何处生产其设计的芯片。  马来西亚旨在提升在芯片设计、晶圆制造和AI数据中心方面的实力。由总理安瓦尔·易卜拉欣领导的政府已承诺投入至少250亿林吉特(60亿美元)来提升其在全球价值链中的地位。  特朗普政府提议限制AI芯片流向马来西亚和泰国,令这一努力变得更加复杂,因为美国怀疑走私者利用这两个国家/地区作为转运站,将半导体转运到受限制的市场。马来西亚最近采取行动,收紧与美国科技公司合作的AI芯片出口,并表示不会容忍滥用该国进行非法贸易活动。
2025-08-26 16:42 reading:504
一文了解AI芯片的常见应用领域
  随着人工智能技术的飞速发展,AI芯片作为支撑智能计算的核心硬件,发挥着越来越重要的作用。AI芯片专门设计来高效处理深度学习、机器学习等复杂算法,推动了智能设备和系统的普及。下面简要介绍几个AI芯片的主要应用领域:  01智能手机和终端设备  AI芯片被广泛集成于智能手机、平板和可穿戴设备中,用于图像识别、语音助手、增强现实等功能。通过本地AI计算,这些设备能够实现更快的响应速度和更优的隐私保护。  02自动驾驶与智能交通  自动驾驶汽车依赖AI芯片来处理来自摄像头、雷达和传感器的大量数据,实时分析路况,实现自动导航和避障。此外,智能交通系统通过AI芯片优化信号灯控制和交通流量管理,提高城市交通效率。  03数据中心和云计算  现代云计算平台大量部署AI芯片,用于加速大规模机器学习任务和数据分析,提升训练速度和推理效率,支持智能搜索、推荐系统和自然语言处理等服务。  04机器人与工业自动化  在工业领域,AI芯片驱动的机器人能够完成复杂的感知、决策和操作任务,提高生产线自动化水平和灵活性,降低人工成本。  05智能安防与监控  AI芯片使监控设备具备实时人脸识别、异常行为检测等智能功能,增强安全防护能力,广泛应用于公共安全和企业管理。  06医疗健康  AI芯片帮助医疗设备实现图像诊断、病症预测和个性化医疗方案制定,推动医疗服务向智能化、精准化方向发展。综上所述,AI芯片正渗透到生活和工业的各个角落,推动智能化技术的变革。未来,随着AI芯片性能的持续提升,它将带来更多创新应用,改变我们的生活方式和工作模式。
2025-05-20 13:11 reading:692
特朗普正式废除拜登的人工智能扩散规则,拟全球禁用华为AI芯片!
  当地时间5月13日,美国商务部正式发文,废除拜登政府此前推出的《人工智能扩散规则》(AI Diffusion Rule),并同时宣布一系列强化全球半导体出口管制的新措施。这一举动在全球科技产业引发震动,凸显美国在人工智能和半导体领域战略的重大调整。  AI Diffusion Rule 于 2025年1月15日由拜登政府发布,原定于5月15日生效。该规则将全球国家和地区划分为三个层级,实施差异化的先进人工智能芯片出口管控。然而,美国商务部工业与安全局(BIS)指出,这项规则一旦实施,不仅会对美国本土企业施加 “繁重的监管负担”,扼杀美国创新活力,还会因将众多国家降格为 “二级技术合作对象”,严重损害美国与数十个国家的外交关系。BIS 透露,将通过《联邦公报》发布正式撤销通知,并在未来推出替代规则。  美国商务部负责工业和安全的副部长杰弗里・凯斯勒(Jeffery Kessler)明确指示 BIS 执法官员,停止执行拜登政府的 AI 扩散规则。他强调,特朗普政府将与全球 “可信赖的伙伴国家” 携手,构建大胆且包容的人工智能技术战略,在保障关键技术不落入对手手中的同时,推动美国 AI 技术的创新与国际合作。凯斯勒批评拜登政府的 AI 政策 “考虑欠妥、适得其反”,对美国的技术优势和国际合作关系造成负面影响。  在废除 AI 扩散规则的同时,BIS 宣布了三项旨在加强海外 AI 芯片出口管制的新举措:  全球禁用华为 Ascend 芯片:BIS 发布指导意见,明确在世界任何地区使用华为 Ascend 芯片均被视为违反美国出口管制条例,试图从全球层面阻断华为芯片技术的应用拓展。  限制 AI 芯片用于中国 AI 模型:BIS 发出警告,若美国 AI 芯片被用于训练或干扰中国人工智能模型,相关企业将面临严重后果,进一步强化对中国 AI 产业发展的技术封锁。  供应链反制指南:美国商务部要求美国企业重新审视供应链合作伙伴,强化审查机制,防范技术转移风险,确保美国半导体技术在全球供应链中的绝对主导地位。  美国商务部宣称,此次行动是为了确保美国在人工智能创新领域的前沿地位,稳固其全球 AI 主导权。但分析人士指出,美国此举实质是在全球科技竞争加剧的背景下,以单边主义手段维护自身科技霸权,新措施可能进一步扰乱全球半导体产业链的正常秩序,加剧全球半导体产业链的分化与重构,引发更多国家对自身科技产业安全的担忧,促使各国加速推动半导体技术的自主研发与供应链多元化布局。
2025-05-14 13:32 reading:2032
  • Week of hot material
  • Material in short supply seckilling
model brand Quote
CDZVT2R20B ROHM Semiconductor
RB751G-40T2R ROHM Semiconductor
TL431ACLPR Texas Instruments
BD71847AMWV-E2 ROHM Semiconductor
MC33074DR2G onsemi
model brand To snap up
IPZ40N04S5L4R8ATMA1 Infineon Technologies
BU33JA2MNVX-CTL ROHM Semiconductor
BP3621 ROHM Semiconductor
STM32F429IGT6 STMicroelectronics
TPS63050YFFR Texas Instruments
ESR03EZPJ151 ROHM Semiconductor
Hot labels
ROHM
IC
Averlogic
Intel
Samsung
IoT
AI
Sensor
Chip
About us

Qr code of ameya360 official account

Identify TWO-DIMENSIONAL code, you can pay attention to

AMEYA360 weixin Service Account AMEYA360 weixin Service Account
AMEYA360 mall (www.ameya360.com) was launched in 2011. Now there are more than 3,500 high-quality suppliers, including 6 million product model data, and more than 1 million component stocks for purchase. Products cover MCU+ memory + power chip +IGBT+MOS tube + op amp + RF Bluetooth + sensor + resistor capacitance inductor + connector and other fields. main business of platform covers spot sales of electronic components, BOM distribution and product supporting materials, providing one-stop purchasing and sales services for our customers.

Please enter the verification code in the image below:

verification code