“优德88”一窥ARM的AI处理器

发布日期:2024-10-15 05:06浏览次数:

本文摘要:,[1]中获取的信息是,“The team is tracking research on data types down to 1-bit precision, including a novel 8-bit proposal from Microsoft. So far, the alternatives lack support in tools to make them commercially viable, said Laudick.”因此在第一版的MLP中,应当也会看见较低精度或者Bit-serial MAC了(参照AI芯片进年中对ISSCC2018经常出现的Bit-serial Processing的讲解)。

,[1]中获取的信息是,“The team is tracking research on data types down to 1-bit precision, including a novel 8-bit proposal from Microsoft. So far, the alternatives lack support in tools to make them commercially viable, said Laudick.”因此在第一版的MLP中,应当也会看见较低精度或者Bit-serial MAC了(参照AI芯片进年中对ISSCC2018经常出现的Bit-serial Processing的讲解)。此外,数据的传输和对工艺的优化也是提升整体效率的主要手段。尤其是工艺的优化,融合ARM的工艺库,应当有较为好的效果,这也是ARM有优势的地方。

PLE构建高效的可编程性如下图右图,PLE的结构基本是在一个ARM MCU基础上拓展了Vector处置和NN处置的指令。在辩论可编程性的时候,其出发点主要是NN算法和架构目前还在大大演变。我们前面早已分析了整个MLP的基本工作流程,MCE在已完成了运算之后把结果传输给PLE。从这里可以显现出,MCE应当是把结果发送到Vector Register File(VRF),然后产生中断通报CPU。

之后,CPU启动Vector Engine对数据展开处置。明确如下图右图。对于做到专用处理器的同学来说,这种scalar CPU+vector engine的架构并不陌生。

这里,本地SRAM,VRF和PLE之外的Maing SRAM Unit(CE中的SRAM)之间有Load/Store单元和uDMA构建数据的传输,数据流也是较为灵活性的。综合来看,在MLP中,每个CE中都有一个PLE和MCE因应,即每个MCE(128个MAC)就对应一个可编程架构。因此,ARM MLP的可编程性和灵活性是要远高于Google TPU1和Nvidia的NVDLA的。

当然,灵活性也意味著更加多额外的支出,如[1]中认为的,“The programmable layer engine (PLE) on each slice of the core offers “just enough programmability to perform [neural-net] manipulations””。High-efficient Programmability是MLP的一个主要卖点之一,而ARM的“just enough”否感叹合适的自由选择,还有待更进一步仔细观察。其它信息在这次公布中信息中,ARM还特别强调了他们在数据压缩方面的考虑到,还包括对lossless compression的硬件反对。

这部分内容我在之前的文章中也有较为多的辩论,就仍然赘述了,张贴几张较为有意思的图,大家想到。作为一个IP核,可配备性(configurability)是一个最重要的特征。目前还不告诉MLP有哪些硬件参数可以反对灵活性配备。Compute Engine的数量,MAC数量,SRAM大小,这些较为大的参数应当有可能是反对配备的。

其它更加精细的内容还要看最后公布的情况。另外,这些参数的配备和涉及的软件工具有十分紧密的关系,更好的可配备参数也意味著软件工具必须适当的反对,可玩性更大。[2]回应的众说纷纭:“In terms of scalability the MLP is meant to come with configurable compute engine setups from 1 CE up to 16 CEs and a scalable SRAM buffer up to 1MB. The current active designshoweverare the 16CE and 1MB configurations and smaller scaled down variants will happen later on in the product lifecycle.”竞争态势除了较为中规中矩的性能指标外,ARM还没发布MLP明确的面积,功耗等参数,以及明确公布的日期(目前的众说纷纭是“production release of the RTL is on track for mid-year”)。在这个早已较为“挤迫”的市场,ARM似乎是动作比较慢的。

[1]一开始就提及了,“Analysts generally praised the architecture as a flexible but late response to a market that is already crowded with dozens of rivals.”并列出了一些竞争对手的例子。只不过,从ARM在处理器IP市场和整个生态链的关键地位来看,晚一点关系也并不大。

如[1]所说,一方面,ARM正在和一些智能手机厂商展开深度的合作,“In a sign of Arm’s hunger to unseat its rivals in AI, the company has “gone further than we normally would, letting [potential smartphone customers] look under the hood””。ARM的另一个最重要优势是,ARM在发售MLP之前在软件工具上还是有一些打算的,还包括armnn和开源的计算出来库等等,如下图。这些工具的普遍用于都可以协助ARM累积经验,优化硬件和软件工具。

正如[1]中提到来自ARM的众说纷纭,“Winningthe hearts and minds of software developers is increasingly key in getting design wins for hardware sockets...This is kind of the start of software 2.0. For a processor company, that is cool. But it will be a slow shift,there’s a lot of things to be worked out, and the software and hardware will move in steps.”我们也看见,目前大量的映射AI应用于还是运营在ARM的各种硬件上的,很多公司在涉及算法和构建的优化上投放了相当大的力量,也获得了很好的效果。当然这样带给另一个有意思的问题,那就是未来引进MLP之后,ML任务究竟放在哪里跑完?有所不同特点的处理器怎么因应?文章中正好也提及这个问题,“Arm will release more data on the core’s performance when it is launched, probably in mid-June. But don’t expect detailed guidance onwhen to run what AI jobs on its CPU, GPU, or new machine-learning cores, a complex issue that the company, so far, is leaving to its SoC and OEM customers.” 显然这个“难题”短期之内还是扔给用户了。

另外一个有一点注目细节是,[1]中提及,“Theoretically, the design scales from 20 GOPS to 150 TOPS, but the demand for inference in the Internet of Things will pull it first to the low end.Armis still debating whether it wants to design a core for the very different workloads of the datacenterthat includes training. “We are looking at [a datacentercore], but it’s a jump from here,” and its still early days for thoughts on a design specific for self-driving cars, said Laudick.”从这里可以显现出,最少MLP在处置能力上还是具备较为强劲的伸缩性的,应当可以覆盖面积从Edge到Cloud的大部分的inference应用于。如果是最低的150TOPS,MAC的规模应当和Google第一代Inference专用的TPU类似于,不过比起Google的脉动阵列架构,MLP有更加简单的掌控地下通道,灵活性还是要低不少。不告诉未来,这不会会协助ARM关上data center的inference市场。

参照:1.Arm Gives Glimpse of AI Core2.ARM Details “Project Trullium” Machine Learning Processor Architecture录:唐杉博士具备 15 年以上的芯片设计经验,在 3G/4G 通信基带处置,专用处理器 ASIP,多核 SoC架构,ESL 级设计和 Domain-specific 计算出来等方面有深入研究和实际经验。将近一年多来主要注目 Deep Learning 处理器和涉及技术。现在注目“”微信公众号(leiphone-sz),恢复关键词【2018】,随机抽送价值 3999 元的与会门票 3 张版权文章,予以许可禁令刊登。

下文闻刊登须知。


本文关键词:优德88

本文来源:优德88-www.tankhero.com.cn

如果您有什么问题,欢迎咨询技术员 点击QQ咨询