除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招-Ameya360电子元器件采购网

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招

发布时间：2017-08-31 00:00

作者：

来源：StarryHeavensAbove

阅读量：2053

今年Hot Chips上和 AI（包括自动驾驶）相关的内容（按会议的时间顺序）如下：

NVIDIA: Tutorial: "Building Autonomous Vehicles with NVIDIA’s DRIVE Platform"

The goal of this tutorial is to provide an overview of the autonomous vehicle landscape through NVIDIA’s platform and to highlight how deep neural networks are changing the autonomous vehicle landscape.

这个我没看到具体的内容，就不做评论了。

AMD: "AMD’s Radeon Next Generation GPU"

虽然这个presentation中直接涉及AI的内容不多，但有一张slide描述了一下AMD的Machie Learning software stack。

NVIDIA: "NVIDIA’s Volta GPU: Programmability and Performance for GPU Computing"

这个talk的大部分内容和5月发布Volta时的说明差不多，V100的几个主要特点包括：

其中更详细的介绍了一下SM Core和Sub-Core的架构，如下图所示：

Wiseteachers.com: "The Direct Human/Machine Interface and hints of a General Artificial Intelligence"

Abstract: Dr. Alvelda will speak about the latest and future developments in Brain-Machine Interface, and how new discoveries and interdisciplinary work in neuroscience are driving new extensions to information theory and computing architectures.

这个内容看起来挺有意思，可惜没看到具体的材料。

Renesas Electronics Corporation: "R-Car Gen3: Computing Platform for Autonomous Driving Era"

Renesas在汽车电子领域里做MCU是比较强的，这次推出的是一个完整的计算平台。从下图可以看出，它是和Nvidia的Drive PX2来竞争的。

而平台中的H3处理器是这个样子的：

Baidu: "XPU: A programmable FPGA Accelerator for diverse workloads"
这次百度的XPU大出风头，很多媒体都有报道。包括Nextplatform也有一篇文章介绍。我就不多说了。

Intel: "Knights Mill: Intel Xeon Phi Processor for Machine Learning"

按Intel的说法，Knights Mill（KNM）是“First Knights product designed for Intel Scalable System Framework and targeted at Deep Learning”，它的DL Performance是KNL（Knights Landing）的4倍。（每次我总是想到King's Landing）
这个4倍是怎么得来的呢？首先，KNM增加了新的指令：

使用这个SIMD指令进行乘法运算的例子如下：

另外，KNM还引入了Variable Precision的概念。支持VNNI-16（Vector Neurual Network Instruction），输入INT16，输出INT32，可以并行实现两个16bit乘法并把结果累加到一个32bit的寄存器。VNNI和QFMA结合就有了如下指令：

而从端口的角度可以看出KNM在双精度运算上比KNL慢了一倍，而在单精度和VNNI运算上则是KNL的2倍和4倍。

ThinCI: "Graph Streaming Processor (GSP) A Next-Generation Computing Architecture"

ThinCI这个Startup公司这次介绍了他们的GSP的架构设计目标：

总的来说，特色应该是Graph Processing。他们也介绍了他们实现Task Level, Thread Level, Data Level和Instruction Level并行的考虑。但是单从Slides来看也看不出太多细节，比较失望。如果有亲临现场听了的同学也欢迎留言介绍一下。

Wave Computing: "A Dataflow Processing Chip for Training Deep Neural Networks"

这次Wave Computing做的presentation还是比较细致的。不过，其中很多内容在之前这篇文章“AI芯片|浅析Yann LeCun提到的两款Dataflow Chip”里已经有了比较详细的说明。这里我们主要看一看比较新鲜的信息。首先是一个DPU Board的框图：

对此，Nextplatform的文章[1]，中是这么介绍的

The graphic above shows four DPUs on a board with a cascading use of the HMC devices. The DPUs actually have quite a bit of interconnectivity through the HMCs, so if a dataflow graph is being executed, most of the communication is local from node to node in the graph. Wave lightly described a “balancing mechanism” to balance the delays through the execution of the graph via buffers between the nodes. By injecting some latency throughput is balanced through the graph and utilization increases. The tensor data for something like TensorFlow (native in the early access machines) is stored entirely in HMC, which means there is not much networking needed between the DPUs. In short, most of the data rides through the HMCs.

第二是时钟的设计。之前关注过Wave Computing的同学可能都会对他们的Clock-less设计印象深刻。他们使用这种技术使得1600多个PE和800多个Arithmetic Units可以工作在大约6.7GHz的频率。这次他们给出了这样的说明：

另外，这次他们还介绍了一下DPU是怎么实现Dynamic Reconfiguration的。

在众多xPU Startup公司当中，Wave Computing是很有技术特色的一个，值得大家关注。

Microsoft: "Accelerating Persistent Neural Networks at Datacenter Scale"

微软在Cloud中使用FPGA加速的一些情况。这次微软的presentation内容更加丰富，值得好好看看。

首先，这次微软提出了Soft DPU的概念，即在FPGA上实现DNN Processing Unit。并且列出了一些做Soft DPU的公司，包括百度和深鉴科技，以及做Hard DPU（ASIC）的公司（这里国内的公司还要争取知名度啊）。

然后是正式提出BrainWave的名号，并介绍了它的完整Stack。

除了百度XPU/微软BrainWave,英伟达/AMD/瑞萨都在Hot Chips 2017上放大招

其中最底层的HW Microservice在我之前的文章中已经介绍过来，不再赘述。

我们来看看上面几层。微软这次提出了一个“Persistent” Neural Net的概念。简单来说就是把model的所有参数都放在FPGA的on-chip memory当中。而不是我们常见的把参数放在片外的DRAM当中。这个想法似乎和GraphCore类似。

使用这种架构主要是基于下面的原因。

如果采用通常用来加速CNN的方法（模型参数存放于片外的DRAM），对于LSTM这类compute-to-data比率比较低的网络（相对于CNN），硬件的利用率将受限于off-chip DRAM的带宽。其实，这也是我们看到很多硬件加速器实现CNN效果很好，但对LSTM效率较低的原因之一。所以，微软提出的这个架构，对于特定网络可能有更好的效果，甚至可能好于ASIC。更进一步，在微软的Cloud FPGA架构下，还可以实现multi-FPGA的大规模Persistent Neural Net。当一个NN model在一个FPGA中放不下的时候，还可以这么玩儿。

这次微软还给出了Soft DPU的Architecture和Micro-Architecture，干货不少，大家自己体会吧。总的来说，FPGA的可重复编程的特性可以给我们很大的想象空间。

最后是compiler和runtime，之前的文章“Deep Learning的IR“之争””也提过了。

Google: "Keynote: Recent Advances in Artificial Intelligence via Machine Learning and the Implications for Computer System Design"

Jeff Dean这次的Keynote已经被转载介绍了很多了，我就不重复了。贴两张我比较关注的Slides。

这是第一次看到TPUv2的框图，虽然信息很少，应该也可以算是一个重要事件了。

T.S.：

从去年开始，AI相关的芯片越来越热。传统芯片公司都有所布局，很多软件和互联网公司纷纷进入，Startup们的估值越来越高。芯片是未来AI发展的基础，热度高是很自然的，但热度并不意味着成功，希望还在路上的各位最终都能成功。

（备注：文章来源于网络，信息仅供参考，不代表本网站观点，如有侵权请联系删除！）

行业新闻

AI在可穿戴领域狂飙，混合式AI模式加速落地

　　随着技术的发展，硬件升级为智能硬件，增加了CPU、操作系统，还增加了联网、健康监测等功能。AI技术的应用，又让智能硬件的普通AI升级为生成式AI。当下，我们对生成式AI并不陌生，它带来了更加个性化的推荐和更加人性化的交互方式。在可穿戴设备上，苹果、三星、360、索尼、XREAL等做智能手表、XR设备的硬件厂商都将生成式AI用到了自己的产品上。在产业链上游，涉及处理器、传感器的芯片厂商在生成式AI与可穿戴设备越来越紧密的过程中，得到了新的机会。　　AI迭代方向：从传统AI转向生成式AI、多模态　　360集团创始人周鸿祎认为未来有两种硬件，一种是硬件+AI，另一种是硬件+AI的进化版：AI-Native硬件。第一种是传统的智能硬件，第二种是AI Native硬件，AI大模型是核心功能，例如人形机器人、自动驾驶、AI PC、新型AI 硬件等。从某种意义上看，现阶段智能硬件正在从传统AI走向生成式AI，大模型将在C端找到更适合的应用场景。 “2024年是大模型应用场景之年，To C出现杀手级应用”，周鸿祎预判。多模态大模型+智能硬件才能深入更多应用场景。那么，多模态指的是什么，大模型需要怎么样的硬件呢? 多模态能力指的是可穿戴设备利用健康监测传感器获取的多种信息，例如声音、手势、心率、心电图、体温、定位等数据。在大模型的加持下，利用AI技术能够将这些单一的数据进行不同维度的整合，生成新的维度、个性化的数据。至于在硬件上，可穿戴设备领域已经推出了多种不同类型的产品，智能手表/手环、无线耳机、AR/VR设备、AI Pin、智能戒指等。基于不同的应用场景及需求，智能手表成为生成式AI落地最为快速的可穿戴设备品类之一。这是因为它能提供更多生成式AI需要的数据。从2023年至今，已经有多家厂商宣布要在自家的智能手表里植入云生成式AI，这些厂商包括Zepp Health、谷歌 (Fitbit)、三星、苹果、Whoop、360等。生成式AI在智能手表市场上带来两大作用，一是生成式AI的加入提升了健康监测数据的准确性与相关性，产品迭代让厂商在激烈的市场竞争中获得先机。二是生成式AI成为“解救”智能手表市场增长缓慢的一剂良药，也成为健康监测和其他智能功能升级之外刺激消费者购买的动力。如果说2023年，智能手表市场的增长是得益于eSIM、卫星通信加持，以及蓝牙、UWB技术提升。那么可以预测，在2024年，生成式AI的加入将是智能手表市场持续增长的关键之一，特别是高端智能手表市场。Canalys预测，在AI功能的带动下，2025年全球智能手表出货量增幅约为20%。不同于传统AI，生成式AI通过学习和理解大量数据，自动生成新内容或解决新问题，具有更强的创造性和适应性。在可穿戴设备上，尤其是具备健康监测功能的可穿戴设备上，能够提供个性化的健康建议，或者在运动场景制定个性化的运动计划，在日常生活中提供个性化的服务。在可穿戴设备里，XR厂商也在寻找AR/VR+AI的最佳契合点。高通技术公司 XR 产品管理高级总监 Said Bakadir认为：与生成式 AI 的最佳互动方式就是 XR。这是不同于苹果、三星的AI功能又一应用方向。在AWE XR 展会上，AR 眼镜技术商 DigiLens宣布ARGO 眼镜将集成谷歌 Gemini 大模型，能够用于语音交互等功能。值得一提的是，AI结合智能眼镜传感器，可以感知佩戴者的环境、意图等。还能够基于应用场景，提供导航辅助等专业任务可视化效果。就在近期，外媒爆料了苹果正在计划的全新智能眼镜产品相关细节，其中提到产品配有内置扬声器、摄像头、健康传感器，并且带有AI功能，用户可以在没有显示屏的情况下与AI助手对话。　　混合式AI加速落地，处理器、传感器保持迭代速度　　生成式AI的进展不仅仅是在智能手表上。在可穿戴设备市场，最受关注的是厂商苹果和三星，这两家厂商分别在今年6月和7月宣布各自在生成式AI上的最新进展。苹果推出了Apple Intelligence个人化智能系统，能理解个人情境，内置的大模型能深刻理解自然语言，能完成生成语言、图片，以及跨APP联动等功能，Apple Intelligence被整合进iPhone、iPad 和 Mac 芯片核心中，并且将其赋能给Siri。Siri是苹果在AI领域的重要布局，未来Apple Intelligence将结合Siri整合进苹果更多可穿戴设备产品中。苹果以后来者的身份入局生成式AI的赛道，在接下来的时间里，苹果将持续训练Apple Intelligence ，并且推出更多基于生成式AI的功能，为硬件能带来全新的AI体验。三星则是将AI功能深度整合进全新的可穿戴设备品类——智能戒指Galaxy Ring中。与苹果在生成式AI中以交互为重点不同，三星的生成式AI智能戒指更多聚焦在健康监测功能上，当然，这与产品的功能属性也有很大的关系。三星表示，Galaxy Ring可以通过AI对数据进行分析，提供个性化的健康和睡眠建议，并且还能够用手势控制三星智能手机。三星还预告Galaxy AI新功能将更新到更多三星Galaxy 设备中，内置的AI算法，将为每位用户开发出个人知识图谱，并且打造更具个性化的服务。三星认为，多模态和情境AI将成为一个互联生态系统。从苹果和三星在可穿戴生成式AI的布局也可以看到一个新的发展方向：混合式AI。例如苹果在AI领域选择OpenAI合作，三星选择联手谷歌。具体来看，苹果采用的是自研本地大模型+云端，部分AI功能在本地端采用Apple Intelligence，超出本地处理能力时基于OpenAI的GPT-4o模型，在云端实现更复杂的任务处理。混合AI的策略不仅提升了设备的智能化水平，还通过引入先进的生成式AI技术，增强了用户体验。在苹果的带动下，未来可穿戴设备的“混合式AI”将加速落地。不过前提是，端侧AI足够强大。不难发现，一方面生成式AI在更多可穿戴品类上落地，另一方面随着可穿戴设备的AI功能越来越丰富，所需要的主芯片、传感器等硬件的性能也需要更加强大支撑更多功能的实现，这也是多模态大模型能够得以落地的关键。笔者认为，可穿戴设备AI的核心包括传感器、存储等。在主芯片方面，随着AI功能的增加，处理器的性能需要更加强大执行复杂的算法和任务，并且需要更高的集成度。在传感器方面，多模态的基础是来自传感器检测到的多种数据，Canalys表示每增加一个传感器，AI就能够多创建数十个基于该传感器的全新应用场景。当然，这要求传感器有更高的精确度。在存储方面，AI应用的增加对存储容量、速度带来要求。　　小结　　正如周鸿祎提到的“大模型是一种能力，找到核心的应用场景，跟能力结合是很重要的”，只有在具体的垂直场景里找到用户的痛点和刚需。生成式AI瞄准了快速增长的可穿戴设备市场，在智能手表、智能戒指、智能眼镜等设备上实现落地，并且为品牌厂商带来技术竞争优势，获得消费者的青睐。在被业内人士认为是应用元年的2024年，生成式AI在可穿戴设备的渗透也只是刚刚开始。品牌厂商在寻找适合各自的技术路线，混合式AI成为其中一条技术路线被大家看到。功能体验的提升也推动着上下游产业链企业的产品迭代。

2024-08-02 11:12 阅读量：869

型号	品牌	询价
CDZVT2R20B	ROHM Semiconductor
MC33074DR2G	onsemi
RB751G-40T2R	ROHM Semiconductor
BD71847AMWV-E2	ROHM Semiconductor
TL431ACLPR	Texas Instruments

型号

品牌

询价

ROHM Semiconductor

onsemi

ROHM Semiconductor

ROHM Semiconductor

Texas Instruments

型号	品牌	抢购
TPS63050YFFR	Texas Instruments
IPZ40N04S5L4R8ATMA1	Infineon Technologies
ESR03EZPJ151	ROHM Semiconductor
BU33JA2MNVX-CTL	ROHM Semiconductor
STM32F429IGT6	STMicroelectronics
BP3621	ROHM Semiconductor

型号

品牌

抢购

TPS63050YFFR

Texas Instruments

IPZ40N04S5L4R8ATMA1

Infineon Technologies

ESR03EZPJ151

ROHM Semiconductor

BU33JA2MNVX-CTL

ROHM Semiconductor

STM32F429IGT6