必一运动当前随着人工智能理论和技术的日益成熟,应用范围不断扩大,目前已广泛应用于计算机科学、金融贸易、医药、诊断、重工业、运输、远程通讯、在线和电话服务、法律、科学发现、玩具和游戏、音乐等诸多方面。
算力作为承载人工智能应用的平台和基础,其发展推动了整个人工智能系统的进步和快速演进,是人工智能最核心的要素之一。以人工智能应用为主要任务的,面向智能计算的处理器的相关设计方法与技术已成为国内外工业界和学术界共同角逐的热点,国内外企业纷纷布局AI芯片。
AI芯片的应用场景不再局限于云端,部署于智能手机、安防摄像头、及自动驾驶汽车等终端的各项产品日趋丰富。除了追求性能提升外,AI芯片也逐渐专注于特殊场景的优化。
为了进一步促进供需对接,为AI芯片供应商和需求商提供交流的平台,中国人工智能产业发展联盟(以下简称“AIIA”或联盟)计算架构与芯片推进组启动“AI芯片技术选型目录”(以下简称“选型目录”)的工作,希望为AI芯片的可持续发展,服务和促进相关产业发展壮大贡献一份力量。
人工智能芯片按照目前的应用场景来看,主要分为训练和推断两类场景B体育,按部署位置又可分为云端、边缘和终端。AIIA“AI芯片技术选型目录”具体根据应用场景与部署位置,包含云端训练、基于云端、边缘和终端推断的四大产品形态。又依据行业应用,AI芯片技术选型目录根据垂直应用场景如图3所示给出。
百度昆仑1芯片面向AI通用计算,基于百度XPU架构,既可以用于训练,也可以用于推理,能全面支持语音,图像,自然语言处理等应用。
技术指标百度昆仑1芯片基于百度XPU架构,采用三星14nm工艺,HBM2和PCIE4.0等技术,给用户提供高性能、高带宽、低功耗、高灵活性、高度可编程等优势。
百度ERNIE模型,应用于翻译、搜索排序等场景。百度网盘里的图像模型;百度云主机;百度云的工业质检客户。
邃思芯片集成神经元处理器架构和数据处理引擎,通过可编程的通用张量/向量运算核心,支持各类数据精度的主流深度学习训练负载。
邃思芯片采用12nmFinFET工艺,2.5D封装,总计141亿个晶体管。其宣称单芯片提供的算力,最大功耗190W。
邃思芯片主要技术特点包括:自主指令集的神经元处理器(SIP),可编程的通用张量/向量运算核心,支持张量/向量/标量计算;神经元处理集群(SIC),由8个神经元处理器构成,4MB共享集群缓存;自主研发2.5D封装,集成16GBHBM存储,提供512GB/s带宽;自主ESL(燧原智能互联,Enflame SmartLink)片间互联引擎,每通道双向50GB/s,4通道总共200GB/s接口带宽,通道延时小于1s;系统稳定性控制,支持服务器级别RAS需求。支持CNN、RNN、LSTM、BERT等网络模型
计算和编程平台主要包含分布式调度、软件开发包(SDK)和设备驱动层,用户可以将已有训练系统,无缝迁移至邃思平台上运行,无需二次开发或者模型转换工作。
云燧T10人工智能训练加速卡面向云端数据中心,可广泛应用于互联网、金融、教育、医疗、工业及政务等人工智能训练场景。
NVIDIA Ampere GPU架构配备540亿个晶体管,为7纳米芯片架构,集训练和推理于一身,具有多实例GPU、TF32、结构化稀疏等特性。
利用NVIDIAA100/V100/T4GPU可以更快速地处理要求最严格的高性能计算(HPC)和超大规模数据中心工作负载。现在,数据科学家和研究人员可以在能源勘探和深度学习等应用场合中解析PB级的数据,速度比使用传统CPU快几个数量级。NVIDIA A100/V100/T4加速器可以超快速度运行更大型的模拟。此外,NVIDIA GPU还能为虚拟桌面、应用程序和工作站提供超高性能和用户密度。
NVIDIA A100采用了NVIDIA Ampere架构的突破性设计,集AI训练和推理于一身,宣称其性能相比于前代产品提升了20倍。作为一款通用型工作负载加速器,A100还被设计用于数据分析、科学计算和云图形。NVIDIAT4GPU推理加速器搭载NVIDIATuringTensorCore,提供多精度推理性能B体育,以加速人工智能的各种应用。
赛灵思AlveoTM数据中心加速器卡专为现代数据中心多样的应用需求而设计。Alveo加速器卡可通过对加速资源的重新配置,适应持续算法优化,在降低总成本的同时,灵活支持各类工作负载。
赛灵思推出的Vitis统一软件平台为各类软件和AI推理应用开发提供统一编程模型,帮助用户加速实现从C/C++、Python、Caffe、Tensor flow到差异化应用落地的开发过程。
赛灵思Alveo数据中心加速器卡基于Xilinx 16nm Ultra Scale架构,使用赛灵思堆叠硅片互联(SSI)技术来实现FPGA容量、带宽和功耗效率,通过结合多个超逻辑区域(SLR)来增大密度。
Alveo加速卡旨在加速服务器或工作站中的机器学习、数据分析和视频处理等计算密集型应用。Alveo U50卡采用XCU50 FPGA包括2个SLR,配备PCIe Gen4和8G HBM2,每秒100G网络连接,以高效能75瓦、小尺寸形式为金融计算、机器学习、计算存储以及数据搜索与分析工作负载提供优化加速。
U50数据中心加速卡用于神经网络推理,板卡功耗75W,关键功能:快速卷积神经网络(CNN)推理Zebra设立了新的性能标准;支持所有神经网络Zebra可加速任何CNN的所有层级;易于使用Zebra是“即插即用”的解决方案,无需对神经网络进行修改或再训练;不改变软件环境无新语言、框架或工具。Zebra在TensorFlow、PyTorch、ONNX、Caffe和MXNet模型内运行;可扩展性、灵活性和适应性Zebra可替代GPU或在任何位置补充CPU。
Alveo-SK电讯基于人工智能的实时物理入侵和盗窃检测服务,基于赛灵思Alveo U250加速器卡,可提供充足的吞吐量与精准度
AlveoU50数据中心加速器卡采用赛灵思UltraScale+架构,使用半高半长的外形尺寸和低于75瓦的低包络功耗。该卡支持第四代PCIe及高带宽存储器(HBM2),每秒100G网络连接,面向各种类型的服务器部署。
AlveoU200和U250数据中心加速器卡采用PCIeGen3x16,设计用于加速高计算强度应用,如机器学习、数据分析和视频处理。
3.完善软件开发环境NeuWare,包括应用开发、功能调试、性能调优等。
支持多种精度,比上一代加速芯片计算能力提高4倍,INT8算力128TOPS。
广泛支持视觉、语音、自然语言处理以及传统机器学习等高度多样化的人工智能应用,帮助AI推理平台实现高能效比。
1.支持INT16、INT8、INT4、FP32、FP16多种精度;2.内置视频和图片编解码器,有效降低CPU前处理负载和PCIe带宽占用;3.计算弹性,支持多类神经网络,寒武纪Neuware软件栈部署推理环境;4.可编程,基于Bang语言编程环境可对计算资源定制,满足多样化需求。
BM1684是比特大陆面向深度学习领域自主研发的第三代张量处理器(TPU),是聚焦视频图像分析的云端及边缘的人工智能推理芯片。
芯片:BM1684聚焦视频图像分析,是云端及边缘的人工智能推理芯片;AI算力:17.6TOPSINT8,Winograd卷积加速下最高可达35.2TOPS,实测推理性能较上一代提升约5倍以上;AI架构:本芯片基于自主研发的TPU架构;典型功耗:16W;视频解码:支持H264/H265解码B体育,最大分辨率8192x8192,支持4K/8K。H264和H265解码都支持32路高清,可处理数十路视频智能分析全流程;
北京海淀城市大脑中的AI计算推理,百度大脑Paddle TPU计算集群,处理千路级别的高清视频结构化。福州长乐区的AI算力中心TPU计算集群,处理上千路的高清视频结构化、人脸识别等。福州城市大脑的AI计算推理TPU计算集群,处理千路级别的高清视频结构化。
优必达(Ubitus)的互联网云端游戏AI加速TPU加速游戏中的图像特征提取,画面增强,超分辨率等。
2)性能功耗比高,在16W情况下,最高可达到35.2T性能(Winograd加速);
4)视频全流程处理能力强,可达到16~32路典型视频结构化/人脸分析路数;
星空X3加速卡为鲲云推出的面向边缘端和数据中心进行深度学习推断的AI计算加速卡,搭载鲲云自研的定制数据流CAISA芯片,采用无指令集的架构方式,为支持深度学习的边缘和数据中心服务器提供计算加速方案。
CNN算法模型提供Rain Builder编译工具链,支持端到端算法开发和部署支持Tensor Flow、Caffe、PyTorch及ONNX(MXNet)等主流深度学习框架开发的算法模型其宣称芯片利用率可达95.4%
工业领域:鲲云与合作方针对某电容上激光刻蚀字符推出基于深度学习的OCR识别方案,识别算法采用了深度学习方法,可识别字母、数字以及数十种特殊字符,字符识别精度可达到99.99%。采用搭载鲲云CAISA芯片的星空加速卡,识别延迟可以降低到50ms,识别速度可达到20pcs/s。
鲲云与合作方通过研究适用于电力无人机巡检的目标检测深度学习算法,实现基于人工智能技术的电力无人机智能巡检、数据采集,并在服务器端进行高质量的图片数据分析,提高巡检效率,降低巡检工作量。
其宣称芯片利用率可达95.4%;时延:3ms分类延时支持分类、目标检测以及语义分割类深度学习算法;Batchsize不敏感;温度范围:-20℃~70℃
昇腾AI处理器的主要架构组成:芯片系统控制CPU(Control CPU)
华为针对其昇腾AI芯片的计算架构专门构建了完整的软件栈,兼容各个深度学习框架并能够高效运行在昇腾AI芯片上,让开发者能够快速开发推理应用,为开发者提供便利的解决方案。当前主流的深度学习应用,包括图像分类、人脸识别、目标检测、光学字符识别、视频处理和自然语言处理领域的各个模型,均可以在昇腾310处理器上得到很好的技术支持。
达芬奇架构主要由计算单元、存储系统和控制单元三部分构成。其中计算单元又分为:矩阵计算单元、向量计算单元、标量计算单元,分别对应矩阵、向量和标量三种常见的计算模式。
矩阵计算单元(CubeUnit):矩阵计算单元和累加器主要完成矩阵相关运算。一拍完成一个FP16的16x16与16x16矩阵乘(4096);如果是INT8输入,则一拍完成16*32与32*16矩阵乘(8192);
向量计算单元(VectorUnit):实现向量和标量,或双向量之间的计算,功能覆盖各种基本的计算类型和许多定制的计算类型,主要包括FP16/FP32/INT32/INT8等数据类型的计算;
标量计算单元(ScalarUnit):相当于一个微型CPU,控制整个AICore的运行,完成整个程序的循环控制、分支判断,可以为Cube/Vector提供数据地址和相关参数的计算,以及基本的算术运算。