网站首页

产品中心

智能终端处理器 智能云服务器 软件开发环境

新闻中心

关于必一运动

公司概况 核心优势 核心团队 发展历程

联系我们

官方微信

官方微博

主页 > 新闻中心

B体育五分钟搞明白AI芯片

发布时间：2024-02-21 13:47浏览次数：来源于：网络

　　必一运动官方网站当提起芯片时，人们首先想到的是Intel公司，因为这家公司生产的桌面端CPU实在是太出名了，以至于大家下意识的认为芯片就是它。做为AIoT产品的产品经理，当工程师提起芯片时，也许大家首先想到的是海思、高通、瑞芯微、全志、联发科等公司。一旦工程师提起AI芯片，大部分产品经理就懵了，因为这里面涉及到算法AI+硬件芯片，两个陌生的领域叠加在一起，直接是懵圈的平方。
　　对于人工智能、机器学习、深度学习三者之间的关系，也是让很多人摸不着头脑，以为是同一个东西，只是叫法不同。实际上他们三者之间是包含与被包含的关系：
　　目前关于AI 芯片并没有一个严格的定义。比较宽泛的定义是面向人工智能应用的芯片都可以称为AI 芯片。
　　2. 专门为特定的 AI 产品或者服务而设计的芯片，称之为ASIC（Application-Specific Integrated Circuit），主要是侧重加速机器学习（尤其是神经网络、深度学习），这也是目前AI 芯片中最多的形式；
　　3. 受生物脑启发设计的神经形态计算芯片，这类芯片不采用经典的冯·诺依曼架构，而是基于神经形态架构设计，以 IBM Truenorth为代表。
　　在AI应用还没有得到市场验证之前，通常使用已有的通用芯片进行并行加速计算，可以避免专门研发ASIC芯片的高投入和高风险。但是这类通用芯片设计初衷并非专门针对深度学习，因而存在性能、功耗等方面的局限性。随着人工智能应用规模持续扩大，这类问题日益突显，待深度学习算法稳定后， AI 芯片可采用 ASIC 设计方法进行全定制，使性能、功耗和面积等指标面向深度学习算法做到最优。
　　很多AI应用厂商经常宣称自己做出了全球第一款XXX的SoC芯片，那么SoC芯片又时什么AI芯片呢？
　　如果将MPU、MCU、DSP、储存系统(或片外存储控制接口)B体育、以及其他外围器件集成在单一芯片上，那么这类ASIC芯片就称为片上系统SoC，也称为系统级芯片。
　　ASSP和ASIC之间的唯一区别是：ASSP是更通用的设备，适用于多个系统，如独立的USB接口芯片可以归类为ASSP，而ASIC通常是客户定制的，或是面向特定用途的产品。
　　AI 计算既不脱离传统计算，也具有新的计算特质，如处理的内容往往是非结构化数据（视频、图片等）。处理的过程通常需要很大的计算量，基本的计算主要是线性代数运算（如张量处理），而控制流程则相对简单。处理的过程参数量大。
　　AI 系统通常涉及训练（Training）和推断（Inference）过程。简单来说，训练过程是指在已有数据中学习，获得某些能力的过程；而推断过程则是指对新的数据，使用这些能力完成特定任务（比如分类、识别等）。
　　人工智能的发展高度依赖海量的数据。满足高效能机器学习的数据处理要求是AI 芯片需要考虑的最重要因素。
　　低精度设计是AI 芯片的一个趋势，在针对推断的芯片中更加明显。对一些应用来说，降低精度的设计不仅加速了机器学习算法的推断（也可能是训练），甚至可能更符合神经形态计算的特征。
　　针对特定领域（包括具有类似需求的多种应用）而不针对特定应用的设计，将是AI 芯片设计的一个指导原则，具有可重构能力的AI 芯片可以在更多应用中大显身手，并且可以通过重新配置，适应新的AI 算法、架构和任务。
　　就像传统的CPU 需要编译工具的支持， AI 芯片也需要软件工具链的支持，才能将不同的机器学习任务和神经网络转换为可以在AI 芯片上高效执行的指令代码，如NVIDIA GPU 通过CUDA 工具获得成功。
　　很多技术创新都是需求驱动和技术瓶颈同时存在的情况下产生的，AI 芯片和它背后的各种技术也不例外。首先是巨大需求，一方面体现在AI 应用的需求，需求的驱动要求能够提供更加高效地处理AI 运算的硬件，另一方面在目前的技术框架下遇到一些瓶颈，特别是冯·诺伊曼瓶颈和CMOS 工艺和器件瓶颈。
　　提高AI 芯片性能和能效的关键之一在于支持高效的数据访问。如图所示，在传统冯·诺伊曼体系结构中，数据从处理单元外的存储器提取，处理完之后在写回存储器。在AI 芯片实现中，基于冯·诺伊曼体系结构，提供运算能力相对是比较简单易行的，但由于运算部件和存储部件存在速度差异，当运算能力达到一定程度，由于访问存储器的速度无法跟上运算部件消耗数据的速度，再增加运算部件也无法得到充分利用，即形成所谓的冯·诺伊曼“瓶颈”，或“内存墙”问题，是长期困扰计算机体系结构的难题。目前常见的方法是利用高速缓存（Cache）等层次化存储技术尽量缓解运算和存储的速度差异。
　　目前针对AI而提出的硬件架构创新都是在和这个问题做斗争。概括来说，在架构层面解决这一问题的基本思路有：
　　1）减少访问存储器的数量，比如减少神经网络的存储需求（参数数量，数据精度，中间结果）、数据压缩和以运算换存储等；
　　2）降低访问存储器的代价，尽量拉近存储设备和运算单元的“距离”，甚至直接在存储设备中进行运算。
　　人工智能，特别是机器学习的发展将需要更加强有力的，超过每秒百亿次(10^{18}) 运算能力的计算系统，而构建这些系统的基础是CMOS 技术的芯片，CMOS 工艺能够不断提高系统性能主要得益于集成尺寸的缩小。由于基础物理原理限制和经济的原因，持续提高集成密度将变得越来越困难。目前CMOS 器件的横向尺寸接近几纳米，层厚度只有几个原子层B体育，这会导致显著的电流泄漏，降低工艺尺寸缩小的效果。此外这些纳米级晶体管的能量消耗非常高，很难实现密集封装。
　　在计算架构和器件层面，我们需要一种新的方法来打破目前的困境。大脑可以看作一个可以处理大量（通常是模糊的）信息，且具有超高密度、错误恢复能力和高能效的计算模型。神经元和大脑突触的能量消耗比最先进的CMOS 器件还低几个数量级。近年来，可以存储模拟数值的非易失性存储器发展迅猛，它可以同时具有存储和处理数据能力，可以破解传统计算体系结构的一些基本限制，有望实现类脑突触功能。
　　存储的需求（容量和访问速度）越来越高，处理能力推向每秒千万亿次（Peta FLOPS），并支持灵活伸缩和部署。随着AI 应用的爆发，对推断计算的需求会越来越多，一个训练好的算法会不断复用。推断和训练相比有其特殊性，更强调吞吐率、能效和实时性，未来在云端很可能会有专门针对推断的ASIC 芯片（如Google 的第一代TPU ），提供更好的能耗效率并实现更低的延时。
　　相对云端应用，边缘设备的应用需求和场景约束要复杂很多，针对不同的情况可能需要专门的架构设计。抛开需求的复杂性，目前的边缘设备主要是执行“推断”。在这个目标下，AI 芯片最重要的就是提高“推断”效率。目前，衡量AI 芯片实现效率的一个重要指标是能耗效率——TOPs/W，这也成为很多技术创新竞争的焦点。未来，越来越多的边缘设备将需要具备一定的“学习”能力，能够根据收集到的新数据在本地训练、优化和更新模型。这也会对边缘设备以及整个AI 实现系统提出一些新的要求。最后，在边缘设备中的AI 芯片往往是SoC 形式的产品，AI 部分只是实现功能的一个环节，而最终要通过完整的芯片功能来体现硬件的效率。这种情况下，需要从整个系统的角度考虑架构的优化。因此，终端设备AI 芯片往往呈现为一个异构系统，专门的AI 加速器和CPU，GPU，ISP，DSP 等其它部件协同工作以达到最佳的效率。
　　在AI 计算中，芯片是承载计算功能的基础部件，软件是实现AI 的核心。这里的软件即是为了实现不同目标的AI 任务，所需要的AI 算法。对于复杂的AI 任务，甚至需要将多种不同类型的AI 算法组合在一起。即使是同一类型的AI 算法，也会因为具体任务的计算精度、性能和能效等需求不同，具有不同计算参数。因此，AI 芯片必须具备一个重要特性：能够实时动态改变功能，满足软件不断变化的计算需求，即“软件定义芯片”。
　　从2015 年开始，AI 芯片的相关研发逐渐成为学术界和工业界研发的热点。到目前为止，在云端和终端已经有很多专门为 AI 应用设计的芯片和硬件系统。同时，针对目标应用是“ 训练”还是“推断”，可以把AI 芯片的目标领域分成4 个象限，如图所示：
　　在云端，通用GPU，特别是NVIDIA 系列GPU 芯片，被广泛应用于深度神经网络训练和推理。与CPU 相比，拥有数千个计算内核的GPU 可以实现10-100 倍的吞吐量。面向云端AI 应用，很多公司开始尝试设计专用芯片以达到更高的效率，其中最著名的例子是Google TPU，可以支持搜索查询、翻译等应用，也是Alpha Go 的幕后英雄。此外，FPGA 在云端的推断也逐渐在应用中占有一席之地。一方面，FPGA 可以支持大规模并行的硬件设计，和GPU 相比可以降低推断的延时和功耗。另一方面，FPGA 可以很好地支持不同的数值精度，非常适合低精度推断的实现。进一步地，FPGA 的可编程能力也使它可以相对更快地支持新的算法和应用。
　　随着人工智能应用生态的爆发，越来越多的AI 应用开始在端设备上开发和部署。对于某些应用B体育，由于各种原因（如延迟，带宽和隐私问题），必须在边缘节点上执行推断。比如，自动驾驶汽车的推断就不能交由云端完成，如果出现网络延时，则会发生灾难性后果。再比如，大型城市动辄百万的高清摄像头，其人脸识别如果全交由云端完成，高清录像的数据传输会让通信网络不堪重负。
　　总的来说，云端AI 处理主要强调精度、处理能力、内存容量和带宽，同时追求低延时和低功耗；边缘设备中的AI 处理则主要关注功耗、响应时间、体积、成本和隐私安全等问题。目前云和边缘设备在各种AI 应用中往往是配合工作。最普遍的方式是在云端训练神经网络，然后在云端（由边缘设备采集数据）或者边缘设备进行推断。随着边缘设备能力的不断增强，越来越多的计算工作负载将在边缘设备上执行，甚至可能会有训练或者学习的功能在边缘设备上执行。另一方面，云的边界也逐渐向数据的源头推进，未来很可能在传统的终端设备和云端设备直接出现更多的边缘设备，它们会把AI处理分布在各种网络设备（比如5G 的基站）中，让数据尽量实现本地处理。
　　它是一个 SoC，还是一个专门的 NPU？这个芯片能够独立工作，还是需要其他的硬件设备来共同完成一项工作。
　　AI 芯片必然是要进行 AI 处理，速度怎么样，能够达到多少，不同模型的算法对算力的要求也不一样，对芯片本身的设计也不一样。
　　产品预算是多少，在满足需求的条件下，该芯片成本与产品总成本的关系。功耗跟应用场景有关，用在终端设备，还是云端，功耗完全不一样。

下一篇：必一运动什么是人工智能芯片（AI芯片）？分类、公司和产品介绍
上一篇：必一运动ai芯片是什么

咨询我们

输入您的疑问及需求发送邮箱给我们

相关新闻推荐

英伟达最强AI芯必一运动官方网站片GB2 2024-04-13

B-Sports清华交叉团队取得芯片领域 2024-04-13

Meta 发布新一代 AI必一运动训练 2024-04-13

必一运动Meta推出新款AI芯片降低对 2024-04-12

【Meta发布最强AIB体育芯片：性能提 2024-04-12

B体育Meta全新自研AI芯片曝光：性能 2024-04-12

简历投递

admin@jygys.com

商务合作

admin@jygys.com

媒体垂询

admin@jygys.com

产品中心: 智能终端处理器智能云服务器软件开发环境

新闻中心

关于必一运动: 公司概况核心优势核心团队发展历程

关注腾讯

微信二维码

微博二维码

Copyright © 2002-2022 必一运动·(B-Sports)官方网站有限公司版权所有备案号：鲁ICP备2022012740号-6