B体育【元宇宙导读】TPU v4性能确实卓越,但是AI芯片向来竞争激烈,而且人工智能技术本身有很多的不确定性和风险。未来,谷歌是否能够保持其在人工智能硬件领域的领先地位,还有待观察。
人工智能(AI)是当今科技领域最热门的话题之一,也是各大科技公司竞相投入的领域。
要训练出高性能、高智能的AI模型,不仅需要大量的数据和算法,还需要强大的计算能力和硬件支持。
在这方面,谷歌一直走在前沿必一运动,自2016年以来,就推出了专为机器学习定制的专用芯片(ASIC),即张量处理器(Tensor Processing Unit,TPU)。TPU采用低精度计算,在几乎不影响深度学习处理效果的前提下大幅降低了功耗、加快运算速度。同时,TPU使用了脉动阵列等设计来优化矩阵乘法与卷积运算。
目前,谷歌90%以上的人工智能训练工作都在使用这些芯片,TPU支撑了包括搜索、语音识别、自然语言处理、图像识别等谷歌主要业务。
本周二,谷歌首次公布了其用于训练人工智能模型的AI芯片TPU v4的详细信息,并称比英伟达系统更快、更高效——与同等规模的系统相比,谷歌超级计算机比基于英伟达A100芯片的系统最高快1.7倍,节能效率提高1.9倍。
英伟达A100芯片是该公司于2020年推出的旗舰人工智能GPU芯片,拥有540亿个晶体管,并采用7纳米芯片制造工艺。英伟达A100芯片被广泛应用于各种人工智能领域,如自然语言处理、计算机视觉、推荐系统等。
那么,谷歌是如何做到超越英伟达的呢?答案在于其自研的第四代张量处理器(TPU v4)和其基于光通信器件的超级计算机架构。
论文中还介绍了TPU v4芯片的设计特点,其中最引人注目的是稀疏核(SparseCore,SC)。SC是一种用于嵌入训练的特定领域处理器(Domain Specific Processor,DSP),可以高效地处理稀疏矩阵乘法,从而加速嵌入训练的过程。
嵌入训练是一种常用的人工智能技术,可以将高维稀疏的数据(如文本必一运动、图像、音频等)映射到低维稠密的向量空间,从而提取数据的语义信息。TPU v4芯片中每个SC都有一个独立的内存控制器,可以并行地从内存中读取数据,并将结果写回内存。
论文中给出了一个实验结果,使用TPU v4芯片进行嵌入训练时,相比于使用TPU v3芯片,可以获得2.7倍的性能提升。
除了SC之外,TPU v4芯片还包含了多个矩阵乘法核(Matrix Multiplication Unit,MMU),用于执行常规的矩阵乘法运算。MMU也采用了低精度计算和脉动阵列等技术来提高效率。
论文中还介绍了TPU v4芯片的其他特性,如支持多种数据类型(包括bfloat16、int8、int32等)、支持多种计算模式(包括同步、异步、流水线等)必一运动、支持多种通信模式(包括点对点、广播、聚合等)等。
谷歌表示,其AI芯片TPU v4已经在其云平台上提供服务,并且已经被用于训练一些大规模的人工智能模型,如Switch Transformer1和GShard2。这些模型都是基于自注意力机制(Self-Attention Mechanism)的变换器(Transformer)模型,可以处理自然语言理解和生成等任务。
谷歌还表示,其AI芯片TPU v4在未来还将支持更多的人工智能应用场景,如计算机视觉、推荐系统、强化学习等。
但是,AI芯片向来竞争激烈,以及人工智能技术本身的不确定性和风险。未来,谷歌是否能够保持其在人工智能领域的领先地位,还有待观察。