B体育ai 芯片是一种专门用于人工智能计算的集成电路。相较于传统的通用微处理器, ai 芯片具备更优秀的高性能和低功耗等特点,能够加速训练和推理过程,是目前在人工智能领域广泛应用的重要基础设施之一。 ai 芯片的种类有很多,其中最常见的是图形处理单元和张亮处理单元。 gpu 主要适用于深度学习训练过程中矩阵乘法操作的病情加速,因为它可以同时处理大量数据,并具备相对较高的模型精度。而 tpu 则主要用于推理阶段, 凭借着其高效的矩阵加速器和低延迟通信电缆结构,可以快速的进行卷机石化等常见操作,并且可以执行矩阵多次积累迭代和分批仿射变换操作,从而显著提高了神 新网络代码的运行速度和能源效率。除此之外,还有像 fpga、 assa 和 npu 等芯片类型也都各自拥有自己的特殊设计来实现对 ai 算法的优化和加速。与传统微处理器不同, ai 芯片的设计是由算法、储存器等各个应用层面代码需求与硬件计算机组成共同决定的。在许多需要计算密集型任务的场合, 比如机器视觉检测、语音识别、自然语言处理和推荐系统等, ai 芯片可为用户提供更高效的服务体验,这已经成为了许多技术行业发展的必要条件。尽管 ai 芯片具有很强的计算速度和能源效率, 但他们仍需要不断改进优化,使其适用于不同的场景,并且使其更加适配多样化的人工智能模型。同时,在与通用微处理器 相比较的情形下, ai 芯片的设计为用户提供了更广泛而专业的机器测试及开发环境,可以大幅度缩短研发时间和降低成本必一运动,因此在人工智能产业的发展中拥有重大的意义。 未来,随着人工智能应用场景不断增加和创新技术的涌现,我们可以预见到 ai 芯片的功能和性能将会得到更加广泛的升级和优化, 进一步推动了人工智能技术在生命科学、物流管理、城市规划、工业制造和汽车驾驶领域的快速发展。
跟大家聊聊什么是 a i 芯片呢?说这个呢,就要先聊聊什么是 a i 人工智能啊。那简单说呢,就是让机器啊,像人一样,有感知和思考辨别的能力啊。那 举个例子,有个小朋友想学习九九乘法表,一得一,二得四,可是他记不住,怎么办呢?那就让他反复的背一亿遍,直到他记住了。那这个过程呢,就叫做训练。然后你再给小朋友出一道题,问他九九得多少啊?他就知道八十亿了。那这个过程呢,就叫做推理。 呃,无论是训练呢,推理啊,都需要 ai 芯片提供算理支撑。那为什么 cpu 不行呢?其实不是不行,只是效率会差一些。 ai 有很多简单的计算要处理,不适合 cpu 串型处理,所以用 gpu 或者是 sk 或 fpga。 呃,把 cpu 比作大学教授啊,那 gpu 比作小学生。呃,同时出 处理一万到十以内加减法,那肯定是一万个小学生比较快。但是处理一到微积分方程,那还是需要教授处理快一些。这就是两者的区别啊 啊。 cpu 是大脑,需要处理的事情有很多。相比 ai 芯片呢, cpu 的计算单元少,其他资源多。 ai 芯片呢,为上层提供的应用基础算例啊。简单的说,就是负责矩阵的乘法和加法的计算。 那注意,为什么是这些计算呢?呃,为什么不是除法和减法呢?呃,那是由算法决定的。如卷机神经网络就涉及到很多矩阵、乘法和加法的计算。而这些有本身呢,就是为图形处理而生的。所以呢,做起 a 呢,就是具有天生的优势啊,只是从图形渲染变成了 a a 计算。 呃,针对于选卡的编程方式不一样而已,而 ac 可能是从 itl 电路级别。针对于算法,呃,量身定做, 跟 gpu 比啊,灵活性会差。嗯,除了 a 不能为其他的应用提供算力啊。但 ac 可能耗比会更好,也就是会更快,因为他更专注。你听懂了吗。
什么是 ai 芯片?嘿,大家好,我是芯片侠。 ai 芯片是智能设备里不可或缺的核心气垫,专门用来处理 ai 相关的计算任务。 ai 芯片包含了两个领域,我们也可以分成 ai 和芯片两个部分来看。 第一个就是计算机科学领域,说简单点就是软件,也就是研究高效率的智能算法。第二个就是半导体芯片领域,其实就是硬件,研究的就是如何把算法有效的在规片实现,最终变成能和配套软件结合的实体产品。 那么目前 ai 芯片属于芯片的哪一类呢?目前市场上比较常见的用于 ai 的芯片有 cpugpufaga 和 dsp, 以及他们的各种组合。 虽然 cpucpu 和 sba 都可以运行 ai 算法,但从严格意义上来讲,他们都不是 ai 芯片。因为 ai 芯片本质上是 asic, 需要为 ai 算法专门设计。点关注不迷路,我们下期见,拜拜!
为什么需要 ai 芯片呢?这是因为现在用的手机、汽车这种家居这些设备里面的芯片啊,要完成的预算都是跟人工智能相关的图像识别、语音识别、自然语言处理。再底层一些呢,他们最常用的就是 cn 卷机升级网络,也就是数学中的矩阵预算。 那既然是一类运算的话,就可以在硬件的层面优化处理,所以所谓的 ai 芯片也就应运而生了。当然,名字呢,也是五花八门啊,有一些叫 npo 神经网络处理器,就是指人工智能的神经网络,这个是比较直接的名字啊。 那谷歌的呢,叫 tpu 张亮处理器啊,也可以叫矩阵处理器,更学术化一些。那 amd 的呢,叫 apu 加速处理器,工程化的名字。苹果呢,叫仿生芯片, 焦的味道呢,更浓厚一些啊。一般的呢,就叫 ai 芯片,人工智能芯片。那人工智能芯片可以把它作为 cpu 的一部分,单独的加速芯片。 而人工智能芯片呢,其实是从显示芯片 gpu 脱胎而来的。早期的 gpu 多用于二 d、 三 d 的图形的处理和计算,市场主要集中在游戏领域。但在眼下的算理时代呢,因为计算模式的相似性,与数字化转型相关的用力,都成为 gpu 应用的主要阵地。 人工智能、深度神经网络、数据分析、可视化、互联网推荐算法、数字孪生等等,这一些都离不开 gpu。 那除了游戏主机跟 pc 之外, 中端应用目前主要集中的服务器、智能汽车、移动设备这些专业的领域。那从全球整体的市场情况来看,目前呢,全球 gpu 市场是三 山族鼎力的寡头竞争格局。英特尔在集成 gpu 市场独占鳌头,独立 gpu 市场主要是由英维达和 md 两家公司占据,所以这三家是在人工智能芯片领域最有实力的。而像苹果、谷歌、华为也开发自己的人工智能芯片,用在手机里。 那阿里巴巴呀,腾讯自己也有人工智能芯片,用在自己的服务器里,那因为达是显卡起家的,非常强啊。创始人是黄人勋,美极花人,出生在中国台湾,是在美国接受教育。在大学的时候呢,他就励志要做图星皇帝。那毕业后呢,在 amd 做过芯片工程师, 后来创立了。因为答梦想成真,他是一名极具个性的科技大佬。所以一体科技大佬,企业家呀。大家不要觉得美国只是有马斯克呀,其实是非常多的,每个人都极具天赋。那再说说 md 的 ceo 苏妈,苏子锋,同样的也是出生在中国台湾,也是 是美籍华人啊,也是在美国接受教育啊。苏泽峰和黄仁勋呢,还是亲戚关系。苏泽峰的外公和黄仁勋的妈妈呢,是兄妹啊,所以苏妈得叫黄仁勋,是表舅啊。因为达和 md 的芯片呢,都是有台机电代工的啊。 可见中国台湾在芯片领域有多强。工厂、技术、人才,整个的形成了坚固的产业链和市场垄断,打造了坚实的壁垒护城河。那看看中国大陆的 gpu 产业啊,一体 gpu 好像又回到股市上了。原来芯片作为一个基础产业,需要的是一个长期积累。 但是在有些人看来呢,好像就是可以跨越式发展,一蹴而就的事情。比如说呢,韩武记来说啊,号称是中国的 ai 芯片第一股 ai 芯片独角兽。但他们最新的财宝显示呢,今年上半年亏损六点二个亿,过去五年累计亏损高达二十八点六个亿。持续的亏损。相比二零二 一年上市之初呢,股价累计跌幅超过百分之八十,总是只蒸发超过九百六十亿。就 gpu 产业来讲呢,这点亏损额可能不算大啊,但是含五 g, 或者说是很多同类的企业,包括海光呀、避刃啊、碧源等这些厂商。那真正的技术积累有多深,壁垒有多厚呢?明天又有多远呢? 那从一家公司的业绩就可以看出端倪。寒武器成立之初呢,主要依赖是华为海丝,营收占比一度高达百分之九十九点七。后来华为海丝采用自然的 am 模块,有客户呢,变成竞争对手。 那目前呢,韩武记的大部分订单都是来自于政府机构,政府机构的超算中心为韩武记贡献了绝大部分的收入。韩武记成为一个方案集成销售、运营的公司。那技术含量又在哪里呢?整个产业的技术含量又在哪里?
市场上有很多 a i 芯片,令人眼花缭乱,根据其应用范围,大体上可以分为这几类。终端 a 芯片要求工号低,算离需求也相对于较低。主要是 a 推理的应用,专注于某一类的应用。例如智能音响里面的 a i 芯片,可以用作语音识别, 智能门锁的爱爱芯片呢,可以人脸识别等等。云端爱爱芯片则是数据中心,用于云端爱爱的加速,不但可以推理,也可以做训练。云端爱爱芯片性能比较强,面积也比较大。除此之外,还有边缘爱爱芯片。 那么边缘爱心片是做什么来用呢?提到边缘计算呀,有一个非常有名的章鱼论。章鱼这种生物比较奇怪,章鱼有八条腿,但是章鱼的某些决策不都是放在大脑中来计算的,而是在腿中进行计算。这个章鱼 的腿相比于章鱼的大脑就是边缘端。这个比喻非常有趣,以至于经常被边缘计算的场景来应用。 例如自动驾驶或者智能驾驶辅助系统,需要在本地就把整个决策及设计完成。有很多在需要大数据量计算,但是实质性比较高,不需要绕一圈到云中心来计算的场景, 例如智能驾驶、智能工厂与安防结合、交通管理等等。相对于终端 ai 芯片,很多消费级的场景,边缘 ai 芯片更多的是工业领域的应用。边缘 ai 基本上将应用局限在某个范围内,可以是一辆汽车、一列火车、一个工厂、一个商店。 在这个范围内,有一些实时的 a i 决策及处理需求需要被满足。相应的,我们会把 a i 负能称之为自动驾驶、智能制造、智慧零售等等。这就是边缘 a i 芯片存在的需求。
嘿,你们听说过 i 芯片吗?这是一种专门为 a 应用而设计的芯片,它可以大大提高 ai 的计算速度和能效。现在,越来越多的设备都开始采用 i 芯片, 比如手机、智能音箱、摄像头等等。有了爱心片,我们可以更好地利用 i 技术。比如我们可以在手机上使用的语音助手,让他帮我们完成一些任务。 同时,带芯片还可以帮助我们更好的保护隐私。比如,一些智能摄像头可以只用带芯片来对图像进行处理,从而在保护隐私的前提下提供更好的服务。当然,带芯片也有一些缺点。首先,他需要大量的计算资源,这可能会 导致设备的电池寿命缩短。此外, i 芯片的设计和制造成本也比较高,这可能会增加设备的售价。总的来说, i 芯片是一种非常有前途的技术, 它可以帮助我们更好地利用 i 技术提高设备的智能化程度。但是,我们也需要注意它的一些缺点,确保它能够更好地为我们服务。
当前市面上最强的 ai 芯片,无疑是英伟达的 gpu h 一百。英伟达以 h 一百作为王牌,为 ai 时代的到来做足了功夫。 用于训练可将 h 一百组合成 d g x, 然后进一步组装成超级计算机,甚至是超级 ai 工厂用于推理可以使用魔改的 h 一百 n v l, 内存更大,更易于部署和扩展。这一步步的精妙布局,加上全民操练大模型的东风,英伟达的业绩和股价一路扶摇直上,已然进入万亿市值俱乐部。 在同一个市场分享蛋糕的老二和老三们,岂能任由英伟达肆意吞食?这不,老二 m d 愤然出手,推出了更强的 ai 专用芯片 mi 三百 x, 直接向英伟达的王牌 h 一百发起挑战。 m i 三百 x 是 c p u 加 g p u 结构的 a i 加速芯片。 m i 三百 a 的升级,把其中三块三四 c p u 小芯片拿掉,换成 两个 cda 三 gpu 小芯片,再增加点内存,就有了这个单片幺九二 g 内存和每秒五点二 tb 内存带宽的挑战者。对比,英伟达的 h 一百内存和存储带宽分别是对手的二点四和一点六倍,呈碾压态势。 有了这么大的内存, mi 三百 x 可以单 gpu 运行八百亿参数的大模型。苏妈在发布,现场演示的正是四百亿参数的大模型 falcon。 m i 三百 x 强则强,乙因伟达这边,老黄的心思却不在这里。更早的 computex 展会上,老黄拿出的是一款 cpu 加 gpu 的超级芯片,正好和 amd 反着来。 这款芯片 grace hopper 二百。 grace 代表 cpu, hopper 代表 gpu, cpu 加 gpu 共享六百 g 的内存,是老黄认为的 ai 的未来。更厉害的是 gh 二百的超级组合能力。八个 gh 二百组成一个 pod, 三十二个 pod 再组成一个 超级计算机。结果是一个二百五十六个 g p u 的超级 g p u 内存高达幺四四 t b, 算力达到惊人的一亿 flops。 这是一个前所未有的巨无霸。 amd 在挑战王牌杀手,对手却在组建超级巨无霸。 amd 这一拳就像打在了棉花上。 amd 的挑战之路注定布满荆棘,但我们仍要为 amd 加油鼓劲,谁也不愿意看到一家独大的局面。双击点赞,长按赞赏,感谢观看!
中科院又立大功了啊,据说呢,是打破了美国神话。据谁说的呢?自媒体说的。前不久,中科院半导体所在 naser 杂志上发表了一篇论文,阐述了一个超高集成度的光学卷机处理器。 这个在 ai 领域啊,算是一个值得关注的新闻。很多人认为这是中国在 ai 芯片领域实现了弯道超车,甚至可以吊打英伟达的 gpu。 那么到底是怎么一回事呢? 这个所谓的光学卷机处理器,很显然就是通过光学计算来给 ai 的神经网络做卷机运算。那么所谓的卷机运算,也就是卷机神经网络 cn 中的卷机操作嘛,说白了就是一个图像特征提取的过程。 我们先来看一下 cnn 的一个大致结构啊,从左侧输入端开始,至少呢有输入层、卷基层、直划层、激活函数、全链接层和 soft max 层等等啊。那么这个东西呢,听上去很 复杂,但是其实啊,这个核心步骤很简单,就是对一张图片的特征做提取。那怎么个提取法呢?大家看这个图就明白了啊,这个是输入图像,因为一个图像,它是由像素构成的,那么每个像素呢,肯定是都有特定的灰度值, 所以一个彩色图像的话,那么就会形成 r、 j、 b 啊三个绘图图。总之一个图像啊,在机器眼中就是填满数字的一个巨大的网格。 那么这个东西叫做卷机盒,它相当于是一个过滤器,寻找图片上的局部特征。大家可以看到啊,卷机盒它也是一个网格,但是呢,比这个原始图像啊小的多。比如说三乘以三大小啊,那么一共就九个参数,每一个参数就相当于是一个权重。 那么卷机操作就是用这个卷机盒的九个参数,去分别与图片上的同样是三乘以三那块区域内的九个灰度值一一相乘。然后把所有相乘的 值加起来,在输出层对应的格子里啊,就填上去啊。那么怎么个相乘法呢?你可以理解为啊,这个卷机盒就像一个扫地机器人一样,在原始图像的网格上从左往右滑动。 那么每次做完一次乘加运算呢,都会再往右滑动一次,如果到头了啊,就另起一行继续滑动,而每次滑动的距离啊,叫做不长。这个是可以人为设定的。 所以这个就相当于用卷机盒去跟他对应大小的那一块图像去做乘积累,加预算,也就是加权求和。当然这个卷机盒呢,可以是三乘以三,也可以是四乘以四啊,也可以是五乘以五。 而卷机盒中的初始参数呢,一开始是随机的啊,那么随着不断的卷机神经网络的处理结果啊,会有反向传播,那么于是卷机盒中的参数也在变化中。那么这个卷机操作的意义是什么呢? 他其实啊,就是一个提纯的过程,相当于是把一张高分辨率的图片给抽象成一个简化的符号。那么为什么每次要用同样的一个卷机盒呢,去扫描图片所有的地方呢?这个叫做全职共享,他的目的是让机器记住这个局部特征啊, 比如说一张小狗的图片啊,那么这个小狗呢,无论是在图片的左侧,在中间还是在右侧啊,机器都得能够识别出来,所以卷机盒要扫描全局 啊。当然呢,这个卷机网络中啊,通常会有很多个卷机盒,而每个卷机盒他过滤的特征是不一样的啊,也就是说他关注的点不一样。这样的话就能够加深对羽翼的理解。 而对于一个彩色图片来说的话,由于存在 rgb 三个通道,所以每一个卷机盒都要分别与三个通道进行卷机操作。这里我们再看一下这个动图,加深理解啊。最左侧的输入图像,它是一 一个七乘以七的阵列,一共呢是有三个啊。因为呢,它是有 r、 t、 b 三个通道吧,那么每一个通道的灰度值是不一样的。那么中间这两组呢,就是卷机盒。注意啊,这里并非是有六个卷机盒,而是有两个卷机盒。每一列它其实代表的是一个卷机盒。那么为什么一个卷机盒有三种不同参数的矩阵呢? 这个是因为有 rgb 三个通道的原因。那么如果一个卷机盒有三个通道的话,就意味着这个卷机盒的深度是三。 而最右侧的这个绿色矩阵啊,就是成家运算后的一个结果,那么就填写在这个地方啊。那么为什么这个绿色矩阵只有两个呢?啊,因为是有两个卷气盒吗? 这里说面说一下啊。最左侧的原始图像,矩阵的四条边都是零,这个叫 zero padding 啊。这个呢,是为了让这个每条边的长度啊,能够被不长给整图。这样的话,从初始位置往后滑啊,就可以刚好滑到末尾,而 不会有缺口或者溢出。刚刚我们讲的呀,就是所谓的卷机神经网络,那么通过卷机层得出的值,还要通过磁化层进一步提纯,以减少参数量。那么至于这个激活函数和 soft max 啊,我们就暂不作赘述啊。那么这里呢,先明白卷机的一个打制原理就可以了。 应该说 cnn 这类网络的出现,是整个 ai 领域的一个转折点。在 cnn 出现之前呢,我们用全连接神经网络来训练机器, 相当于是一个巨大的转机盒,整体与图片进行乘加运算。那么当图片的分辨率比较低的时候,这个办法还是可行的啊。但是如果图片的分辨率很高,采用全链接视频网络的,这个弊端就出来了 啊。一个呢,是这个全职数量太庞大,网络呢,比较拥狗,计算效率也比较低。另一个是容易出现过敏和。也就是说啊,这个机器他对每个像素抠的太较真,无法举一反三。你给他 看五张小狗的图片,他都认识啊,因为这五张狗呢,他都卷过啊。那么给他第六个小狗呢,他就不认识这个是个小狗了。那么这个呢,就失去了图像识别的意义。所以 cnn 呢,他就通过局部的感知和全职共享啊,就做到了很高的学习效率和识别能力。 那么很明显,要实现这个 cnn 计算的硬件关键是什么呢?三点。第一,要能够做乘积累加预算啊。那么这个预算呢,是占到神经网络所有预算量的百分之八十以上。第二,要有能够表征卷机盒的这个东西啊,而且呢,卷机盒的参数是可以动态变化的。第三,要能够进行激活函数和 soft max 等函数的预算。 那么要至少满足这三点,才能完整运行一个 cnn。 那么这些东西呢,在现代的 ai 加速芯片上是见怪不怪的啊。比如说这个 gpu, 对吧,他就是干这个用的。那我们知道这个 gpu, 尤其是 npu 和 ipo 这类 s 个芯片中啊, 要提升算力,就得堆麦克单元吗?那么这个麦克单元我们也说过很多次了啊,就是一个执行程积累加的一个电路设计。但是呢,无论你是什么 pu 啊,现在都面临着摩尔定律趋于停滞的一个诅咒。那么为了突破这个诅咒呢,我们可以继续研究更小的支撑。当然呢,这个难度是越来越大了啊。 或者说研究更新的晶体管的结构,比如说 j a fet 等等。又或者啊,我们又宿主于这个先进风光,通过三 d 堆叠啊, chiplet 等技术啊,来克服算力瓶颈,尤其是这个冯诺伊曼瓶颈。 再或者,我们直接跳出现有的思维,选择下一代计算原理。比如说量子计算机,泰纳米管计算机,以及光学计算机。光学计算机听上去非常的高大上啊。那么现在的计算机呢,都是靠电子的相互作用来运行的。而光学计算机则是利用光子来实现计算。大家都知道啊,光 光子是一个波色子,电子呢,是一个肺离子,后者的是可以相互作用的,但光子他不能够相互作用。那么这个听上去啊,是个短板。但其实呢,是个好事情啊。这意味着同一个光纤中啊,就可以存在多个不同波段的光波。是不是也就意味着光学计算他的这个数据密度会非常的大, 而且这个发展量很低,能耗也很低。当然呢,光学计算这个概念其实比较宽泛啊,他呢其实分为两大类。一类是利用多维光场的信号调制,实现某种专门的信息处理,比如说做 ai 的成家运算,做卷机,做副地业变换,做微积分等等啊。 那么这些呢,是特定算法,主要是模拟计算。另外一种呢,是与传统计算机结合的数字光学计算,比如说这个光学晶体管,光互联、光电供风桩等等啊。那么这些呢,是让光学技术来取代传统芯片上的一部分功能。举一 一个非常简单的例子啊,比如说芯片的这个连线层都是金属做的,主要是用来传递信号。那么如果用电流来传递,那么这个发热量就很大。而如果用光子来传递呢,那么很明显就解决了大问题。 而我们要讲的这个,其实就是第一种基于光学的一种模拟计算。模拟计算这个概念我们之前的视频里讲过啊,当时讲的是利用 u 等于 ir, 即电压等于电流,乘以电阻这个物理定律来实现一个乘法操作。然后呢,再通过这个并联电路来实现累加,那么最终就得到一个麦克阵列。 这个是比较好理解的。这种模拟电路啊,其实呢,预算速度和能效其实已经非常强大了,因为它本质上就是一个存算一体的架构。而这个光学计算,那就更厉害了,几根光纤就搞定了?当然不是了啊。我们要知道,所谓的光学计算,或者说利用光学技术来做卷机运算呢,他依然是离不开 堆积芯片的支持的,这其中呢,光学计算,他只是在做卷机,而无法处理其他内容。我们仍然需要一个基于电子的经典芯片来做触摸、转换、存储信息和执行一些更复杂的函数。 那么我们直接看一下啊,中科院的论文给出的设计是怎样的。大家看这个图片。这个就是一个所谓的 ocpu optical convolution processing unit 光学卷机处理器。那么这两个叫做多模干涉偶合器,这四个叫做一项器。这些东西共同构造了三个二乘以二的卷机盒。 转机盒中的参数呢,是用波长来表征的。那么其中这个四个移向器啊,是可以通过热光效应来调节的,从而可以改变他的参数。所谓的热光效应呢,就是说你改变温度以后啊,传导介质对光的折射率之类的就会发生变化啊。那么这张图就大致说明了这个 ocpu 的一个工作流。 首先,一个二十八乘以二十八的原始图像被切片后,每个像素的数据按顺序被一维化进入到一个 m z m 中。这个 m z m 呢,就是马赫曾德尔调制器的意思啊。它的作用是通过电光性材料把电信号给转变为多路的光信号。 那么可以看到啊,他就是把这个输入图像啊的一维项量呢,转变为了四路非相当光。那么这四路光进入到 o c、 p u 模块后呢,执行呢,就是一个矩阵乘法运算,其中 a、 b、 c 就是三个模拟出来的卷集合运算结果。最后会通过拨分复用和光电转换来实现加法。然后呢, 就没有然后了啊,到目前为止,这就是我能够为大家带来的解读。其实呢,说了跟没说一样啊,跟没说一样啊。没错呢,这个论文中描述的具体算法,我根本就看不懂,已经远远超出了我的能力范围。所以,如果你感兴趣的话,可以自己去看 下这篇论文。总之,我们能够了解到的是一个比较泛的概念,那就是通过光学器件来模拟三个卷集盒,相当于是提取三个特征图吗?但是很明显呢,既然是模拟计算,他肯定是利用了自然现象,无非就是干射、演射和折射吗? 那么在光计算中呢,加法是可以通过光的叠加来实现的,乘法是可以通过干涉来实现的。只要每种物理现象有相应的一个公式,就可以用来做计算。 实际上,相比搞明白实际的原理啊,我们更有必要了解一下这个论文的价值。那么就像是这个论文题目所说的,这是一个超高集成度的光学转机芯片, 那么我们就可以认为啊,它的价值在于集成度上。因为论文一开始也说了啊,传统的光学计算器件啊,随着这个酸力增长呢,体积会变得非常的大。在全球范围内,研究这一类芯片的公司其实并不算多。那么英伟达、英特尔 和华为等公司啊,其实早些年就开始布局了啊。而在创业公司中呢,必然有代表性呢。有三家都出自 mit, 一家呢叫做 like 买特,谷歌参与投资。另外一家叫做西至科技,是一家跨国创业公司啊,总部的上海,那么也是目前这个领域融资额度最高的企业。 另外美国还有两家公司啊, optilegens 和 ai laps。 那么后者呢,也是出自 m i t, 法国有一家 like on 也比较知名啊。那么最后呢,中国有一家本土企业叫做光子算术,主要呢是做光电混合方案的,也就是利用这个光子 ai 芯片啊,来加速传统的 gpu 这个赛道啊,其实看上去不是特别卷啊。 从大约七十年代开始兴起,到九十年代初,美国贝尔实验室研制出世界上第一台光计算机。然后呢,在两千年以后啊,就陷入了低谷。因为同时期内呢,这个基于电阻的半导体芯片发展非常的迅速,已经提供了前所未有的这个算力保障。而如今 ai 爆发,光计算的变形处理和高速低功耗的特性呢,又被重视起来了,估计呢,又要浪一波了啊。但是很显然,中科院的这个基础创新啊,算不上什么颠覆啊,他应该说是光计算领域的一个解决方案上的突破,整体上能否吊打现有的方案,要靠整个光计算产业的这个发展情况。 那么关于光学卷机处理器,我们怎么评价呢?其实很简单,我觉得十年之内,他不会有什么太大用武之力啊。目前很多这个赛道的公司呢,他们的产品其实也投入了使用, 但是都是小规模部署,而且必须结合现有的经典芯片来操作。因为非常简单的一点啊,就是光子目前他无法存储信息,所以现在不存在全光信号的处理。 那么短期来说,即便是光电混合方案,我觉得也无法实现大规模的对 ai 的修炼和推力的进行加速啊。那么原因非常简单, ai 加速 大部分都是在云端的,那么要想代替英伟达的 gpu 的话,就得用相应的开发平台啊。那么对于光学计算的价格来说,软件其实是一个短板。所以前面提到了这个光子算数啊,它的理念就是把光计算的这个特定算子封装到光学模块里, 然后呢,可以以热插拔的方式啊,来辅助现有的 gpu 等加速卡。这样的话,开发者就可以直接使用云平台的开发软件进行接入啊。那么其中呢,只需要通过 api 来调用一下光学模块的酸力就可以了。其实在各种 ai 加速卡中啊,我认为 比较有希望啊,能够大规模替代英伟达 gpu 的。其实呢,是基于欧姆定律的这个模拟计算芯片啊。这个东西呢,它的能耗其实已经非常低了。而且由于是基于传统的电子,它的硬件工艺和软件平台都可以从现有的半导体技术移植过来。那么与基于光子的这个模拟计算相比的话,基于欧 欧姆定律的模拟计算,在规模化的门槛上其实要更低的啊。那么与 gpu 等经典加速卡的这个基成呢,也会相对容易一些。但即便如此,在 ai 加速这方面,能够替代 gpu 的选项,暂时来说几乎没有。 我们之前讲过的 ipu 算是一个比较有潜力的技术方案。但是呢,英伟达这边啊,他有一个哭打平台,就已经竖起了高高的城墙,外来和尚是很难逾越的。我是大刘,感谢观看。
震惊啊兄弟们!首个靠人工智能生成的 cpu 芯片启蒙一号被咱们中科院计算所研制出来了。 同志们,此处是不是该有个赞呢?别人还在用 ai 画画,我们就抓紧时间让 ai 来设计芯片了。这颗完全由 ai 设计的三十二位 risk v cpu, 比目前 g、 p、 t 四所设计的电路规模大四千倍,性能与因特尔四六八系列的 cpu 相当。那到这儿啊,懂行的人可能要说了,这有啥牛的呀 是吧?这四八六芯片是一九因特尔推出来的,人家三十多年前玩剩下的技术有啥用呢?但是你想啊,这是国内用 ai 全自动生成的芯片啊,没有任何的人 公干预的情况下,而且重点是用 ai 直接生成,没有工程师提供代码和语言描述,并且五个小时内就生成了,这是史无前例的成就啊!我们都知道 ai 自我学习进化的速度非常之快, 那按照这种速度,可能未来几个月 ai 就能走完过去十年的可记录了。那如果说设计芯片的核心技术必须要依赖于人,那我觉得把核心技术依赖于具有神性的 ai, 对全球的竞争格局才是最公平的。 因为 ai 瞬息宇宙里,不会因为你的肤色,不会因为你的国籍而封锁你。那国内第一个全 ai 自动生成的 cpu 芯片,那性能跟当前顶级的肯定没法比。但未来通过不同的 人工智能路径交叉探索,相信几年内就能超越人类专家设计的水准。启蒙一号是我们在 ai 设计芯片领域的一小步,却是人类的一大步。
有人还用 aip 照片呢,有人就用 ai 造芯片了。你说这人和人的差距怎么就这么大呢?前几天啊,全球第一科无任何人工干预、用 ai 自动生成的 cpu 芯片,被咱们的中科院计算所造出来了,名字叫启蒙一号。这事真是有意思啊, ai 这个东西的性能本来就是靠 gpu 芯片推动发展的, 他性能高了,又能自己造出 cpu 芯片了,属于是赛博反哺了。那启蒙一号就是一颗三十二倍的工业级芯片, ai 把他造出来应用了五个小时。你是不是特别好奇啊,我靠,五个小时就造出芯片了,那咱还怕什么制裁啊,直接开干吧。哎,别着急,这芯片虽然是工业级,但性能也就是四十年前的水平。 他的制造工艺是六十五纳米,频率只有三百兆赫兹,性能基本和英特尔的八零四八六 sx 差不多,可以运行里奈斯系统,而且设计周期只有英特尔的一千分之一。你认为这事牛 在哪吗?不是说 aa 造芯片,因为 gps 也可以造芯片了。它最牛逼的是只用了五个小时必一运动,就生成了四百万个集成电路上的逻辑门,比 gps 强了四千多倍。它的算法设计是基于 bsd 二元猜测图,开发者只通过 ai 技术就可以完成从输入到输出 的 cpu 自动生成,不需要代码,不需要语言描述。此处无声胜有声啊。关键是什么 ai 使用的方法,聪明的都让人害怕。知道冯诺一曼是谁吧?计算机支付,他发明了一种程序指令储存器和数据储存器合并在一起的架构。而中科院计算所用的这套 ai, 居然自主 发现了,缝度一慢加高,还把他给灵活的运用起来了。这东西要是再给他点时间,真的很难想象他会造出什么东西。你看前几天马斯克在世界人工智能大会上说什么来着,未来就是数字计算的天下了,生物计算是没前途的。看了情一号,我觉得这事真不是说着玩的,你觉得呢?点赞加关注,咱们在评论区聊聊。
英伟达是一家全球知名的半导体公司,其芯片在计算机图形学、人工智能、深度学习等领域拥有广泛的应用。那么,英伟达的芯片到底有多牛?本文将从技术原理、性能表现、市场应用三个方面来深度解答这个问题。一、 ai 芯片的技术原理英伟达的芯片之所以在图形处理和人工智能领域表现出色,是因为其采用了特殊的架构和技术原理。 首先,英伟达的芯片采用了并行处理的方式,即同时处理多个数据流,这非常适合处理图形和人工智能等数据密集性应用。其次,英伟达的芯片还采用了 cool 技术, 这是一种类似于 opencl 的并行计算平台,它能够让程序员用类似于编写 c 语言的方式编写并行程序,大大提高了开发效率。二、 性能表现英伟达的芯片在性能表现上也非常出色。以英伟达 rtx 系列为例,该系列采用了最新的安培架构,拥有超过六百亿个晶体管,性能表现极佳。在计算机图形学领域, 英伟达的芯片表现尤为突出。例如,英伟达 r、 t、 x 系列芯片支持实时的光线追踪和 d、 l、 s、 s 技术,可以在不降低画质的情况下提高渲染速度。 在影视制作领域,英伟达的芯片也得到了广泛应用。例如曼达洛人等影视作品都采用了英伟达的芯片进行实时渲染。 在人工智能领域,英伟达的芯片也表现出色。例如英伟达 h 一百芯片的 tensor core 可以在单个精度下执行高达一百 tensor ups 的计算速度非常快,在自然语言处理、图像识别等领域,英伟达的芯片都得到了广 范应用。三、市场应用英伟达的芯片在市场上也取得了巨大的成功。在计算机图形学领域,英伟达的芯片占据了绝对的优势地位,被广泛应用于游戏、电影、建筑等领域。 在人工智能领域,英伟达的芯片也被广泛应用于企业、研究机构等领域。在中国,英伟达的芯片也非常受欢迎。例如 中国的初创企业商汤科技、云从科技等都采用了英伟达的芯片进行人工智能开发。此外,英伟达的芯片还被广泛应用于自动驾驶、智能家具等领域。本文从技术原理、性能表现、市场应用三个方面深度解答了英伟达的芯片到底有多牛这个问题。 英伟达的芯片之所以表现出色,是因为其采用了特殊的架构和技术原理,拥有超过六百亿个晶体管,支持 实时的光线追踪和 dlss 技术,可以在不降低画质的情况下提高渲染速度。在人工智能领域,英伟达的芯片也被广泛应用于企业、研究机构等领域。因此可以看出英伟达的芯片非常牛。
华为 ai 超算获得世界第一名,超越第二名英特尔二十倍。回顾今年一月份任正非内部讲话,他指出我们在科学上要敢于大胆突破,敢 将鸿蒙推入竞争,鲲鹏和生态的生态发展与软件开发绝不停步。时过半年,鸿蒙系统、鲲鹏处理结合生态 ai 芯片全 全部没有让我们失望,并获得了举世逐步的成就。前天,华为官方放出消息,在国际超算大会最新一期 l 五百排行榜中,进入生态 ai 基础软硬件研发的同城云南二超级计算机,成功打破了两项世界纪录,夺得第一。 a 系统的软硬件作为华为提供,鲲鹏处理器和升腾 ai 芯片是该计算机核心硬件。正是在华为的帮助下,鹏程云南啊才成为全球最庞大的 ai 计算平台。那么,鲲鹏和升腾到底是什么东西呢?之前大家都没怎么听说过。其实他 正是华为公司计算产业的两大核心芯片组,均是基于二零一八永久授权价格下的智研芯片组。其中鲲鹏是数据中心高性能处理器,三层是商用的 ai 芯片。 华为公司依托鲲鹏家生产的双底座,实现了计算芯片领域的全面直言。那么,超级计算机到底有什么用呢?以华为鹏程云老二为例,他可以广泛应用于人工智能领域的研究和探索。 读计算机、视觉、自然语言、自动驾驶、智慧交通、智慧医疗等等。超级计算机虽然听起来距离我们生活很远,但实际上他可以在我们身边的方方面面都发挥作用,利用算力优势, 发在各类基础性的项目上进行研究探索,找到更高效、更便捷、更安全的解决方案。比如华为申腾 ai 解决方案,已经应用于电力方面的智能书店运检,金融 人鱼的智慧网点,交通出行的人车识别、安防的人脸、大数据制造的智能质检等等。他适用于各行各业。正因如此,你经常会听到什么华为要去养猪啊,华为要去挖煤挖矿了等等。 因此,这就是华为、坤鹏、家生等瞄准的万亿级别的计算产业。在网络发展越来越快的当下,智能设备数量不断增加,数据处理需求越来越大。可以预见,日贺信息价值不断提升,超级计算机必然会登上更大的舞台。 工程云老二的出现,对中国万物互联的物联网和信息化的发展以及社会的进步都会带来不可估量的促进作用。这或将成为中国基础建设和科学发展追可欧美等国的关键一步。你们觉得呢?好了,今天老师,我们下期再见。
谷歌又发大招了,发布了最新一代的人工智能芯片 tpu v 四。它最牛的地方啊,就在于集成了光学互联开关。那么先科普一下谷歌的 tpo 是什么芯片?它全称是张亮处理器,是谷歌自己研发的一种特殊的计算机处理器。 那么类似于大脑的神经元,用于加速人工智能应用的运行速度。 tpu 芯片啊,通过并行处理的方式来加速大规模数据的训练和推断的过程, 可以处理大量的图像、声音、语言和其他类型的数据。 tpu 芯片的工作原理啊,是基于深度学习的技术,通过数学运算来建立神经网络,从而实现机器学习和人工智能。 ppu 芯片广泛应用于谷歌的云计算和数据中心,例如在语音识别、图像识别、自然语言处理和机器翻译等方面。如今啊, tpu 已经进化到了第四代, 他最重要的特点就是采用了光电芯片的技术。那么传统芯片用的是电开关控制电路的倒通或者是断开,从而表示一和零。但是呢,这种方法功耗比较高,稳定性也比较低。所以呢,谷歌把电换成了光,用比头发丝还小几百倍的小镜子把光反射到一个区域,用 暗和亮表示零和一。那么不仅速度快,还基本没有损耗,稳定性也高了非常多。基于这个原理啊,谷歌自研了一种技术,叫做可配置的光学互联开关,并且把它用在了第四代 tpu 芯片里。并且基于它进行了互联扩展和性能调优。 比如可以根据不同的模型数据流来调整芯片的互联拓普,从而达到最优的性能提升,可以超过两倍。光互联开关的另外一个重要性啊,就在于高可靠。简单来说,如果有部分芯片出现了错误或者是失效,那么可以动态调整互联,从而 绕过失效的部分,不影响整体的功能,或许存在一点微小的性能损失。钱多任性的谷歌还看不上现有的商业方案,于是呢,就自研了一款新的光路开关芯片,并且实现了全球首个数据中心级的可配置光互联。 那么他们使用基于 max 的反射镜阵列的技术,光路开关芯片可以实现低损耗、低切换延时以及低 公号。光路系统的成本也控制的很低,在整个 tpuv 四的超级计算机成本中占据百分之五以下。那么最近光电芯片的研究非常火,也是个非常好的创业方向,有心的观众可以关注着。想看更多芯片技术的商业化前景,记得关注我,我是芯片工程师老师,听得懂的别忘了给我个小红心。
ai 芯片的技术架构包括以下几种一、 cpu 架构 cpu 是计算机系统中的中央处理器,负责处理大量的通用计算任务。在 ai 应用中, cpu 主要用于控制流的处理和一些基础计算。 由于 cpu 的架构设计和制造工艺相对成熟,因此其性能稳定可靠,适用于一些对计算速度要求不高的 ai 应用场景。 二、 gpu 架构 gpu 是图形处理器,专门用于处理图像和视频等数据密集型任务。 在 ai 应用中, g p u 主要用于并行计算和深度学习模型的训练和推理。由于 g p u 具有大量的核心和高度并行的计算能力,因此可以大幅提升深度学习 模型的训练和推理速度,适用于需要高计算性能的 ai 应用场景。三、 fpga 架构 fpga 是可编程模技门阵列,可以根据需要重新配置其内部电路, 因此具有高度的灵活性和可编程性。在 ai 应用中, fpga 主要用于加速特定的计算任务, 如卷机运算等。由于 fpga 可以根据不同的应用需求进行优化,因此具有很强的适应性和灵活性,适用于需要高度定制化的 ai 应用场景。 四、 asic 架构 asic 是应用特定集成电路,可以根据特定的应用需求进行设计和优化,因此具有高性能和低功耗的特点。在 ai 应用中, asac 主要用于加速深度学习模型的训练和推理,如 google 的 tpu tense of processing unit 等。由于 asac 可以根据特定的应用需求进行优化,因此具有非常高的计算性能和能效比, 适用于需要高性能和低功耗的 ai 应用场景。五、 npu 架构 npu 是神经网络处理器,专门用于加速深度学习模型的训练和推理,具有高效、低功耗、低延迟等特点。 在 ai 应用中, mpu 已经成为了一种主流的技术架构,如华为的 carry s、 o、 c 重集成的到 winch 架构、苹果的 a 系列芯片中的 neuro engine 等。由于 mpu 专门针对深度学习任务 进行优化,因此具有非常高的计算性能和能效比,适用于需要高性能和低功耗的 ai 应用场景。总之,不同的 ai 芯片技术架构各有优劣,需要根据实际应用需求进行选择。
芯片产业几乎是所有产业的基础。芯片制造要求极高的精度比细菌还要小一千倍。光刻在胶原上创建图案的过程是芯片制造的开始,包括龟片批量制作和图案投影。 龟片眼膜就像一个芯片的模板,光被阻挡或通过眼膜传递到晶源上与形成图案。光是由一个及紫外线 euv 照相系统产生的 发射装置,超过二十五亿美元。 euv 使用一种激光的方式来产生光,激光脉冲每秒向一粒硒发射五万次,使其气化,产生等离子体,发出一百三十五纳米的 euv 光。经过多次反 镜将光线引导到眼膜上,净度达到三纳米。通过你物理量算法来预测眼膜上的图案,从而产生镜眼上的最终图案。 计算量消耗数百亿 cpu 和 gpu 投资的近两千亿美元。通过 gpu 加速将大大改善效率,减少碳排放。在实现一大米芯片的生产之前, 还有成千上万的改进需要做,比如让这些电机更灵敏,改变十一的异味激光发射器等等。 目前有多家大公司开始生产和制造芯片,他们为什么制造芯片?用来做什么?我们下一个视频计较,请关注我,谢谢。
本期我们以综合实力对国产 ai 芯片排个名次。状元是地平线芯片,出货量已超过两百万颗。榜眼是含五 g, 应收七点二九亿元,新产品四元五九零对标英伟达 a 一百,或将是百度和阿里 chat gpt 的算新替补 探花式碎缘产品除了聚焦于 ai 芯片,还有班卡服务器集群,自产自用全方位布局。第四名是汉博半导体,已量产服务器芯片 sv 幺零二扎根领域专用架构的 ai 推理芯片,聚焦视频计算处理。 第五名是黑芝麻智能聚焦自动驾驶芯片,核心产品是华山系列芯片瀚海自动驾驶中间建平台。第六名是云天丽飞,营收五点四六亿元。恋爱芯片业务尚处于爬坡期,规模较小。第七名 是一只电子智能安防芯片,出货已破百万颗,专注于端侧通用算力 isoc 芯片。第八名是新时聚焦车规芯片,芯片出货已突破百万颗。第九名是爱心人质聚焦高性能智能视觉芯片。 第十名是昆云科技,核心产品是 ps 芯片。恋爱芯片。突破一颗销量是个门槛。高科技都在拼算力的时代。恋爱芯片是超算服务器自动驾驶 tsgpt 的核心。韩五 g 明天力飞已上市, 剩下的八家都是资本宠儿。国产 ai 芯片何时能抗衡英伟达?让我们拭目以待。
我国研制出的恋爱芯片诞生,告别我国芯片,摆脱进口芯片历史。这是一个历史性时刻,也是重要的里程碑。此时是不是有个强烈点赞的时候呢?这颗由于暗设计的三十二位 respect 比目前某一算法所涉及的电路规模大四千倍, 性能与英特尔四百六十八系列的 cpu 相当。这确实是一个史无前例的成就。这个成就不仅证明了 ai 在芯片设计方面的潜力,也显示了 ai 自我学习净化的速度之快。通过使用 ai, 我们可以在短时间内设计和制造出性能卓越的芯片,这为我们未来的科技发展开辟了新的道路。 然而,我们也应该清楚的认识到,虽然 a 的设计能力已经非常强大,但是要达到顶级芯片的水准,仍然需要进一步的发展和优化。此外,我们也需要探索不同的 a 路径, 以实现最佳的设计效果。总的来说,虽然 ai 芯片的性能目前还无法与顶级芯片相比,但随着 ai 技术的不断发展,相信在未来的几年内, ai 设计的芯片将能够超越人类专家设计的水准。这是一个令人兴奋的时代,我们将见证着科技的不断进步和发展。 也期待我国芯片力压全雄,站在世界最高度,让世界看看我们大中国的实力不是浪得虚名的。为我们强大祖国点赞而骄傲!
hello, 大家好,我是那个以前不知睡眠好,现在人到中年失眠受不了的周米。 看看手表,现在已经凌晨十二点半了。不过呢,中米还是日常的在更新。今天我们来到一个新的内容,原谅我 tpu 的一个系列呢,又要再估一段时间了。我们的这一期新的内容呢,是 ai 芯片的思考。 回顾一下整个大的章节呢,过了非常多的内容了,公司的同事呢,也给我统计了一下,我原来已经不知不觉讲了四十多个小时了,哇,太难了。 四十多个小时里面呢,我可能 ng 的次数呢,已经应该超过两百个小时了。那不扯其他的,我们今天回顾一下整个 大的系统章节。首先我们在开始的时候呢,给大家去汇报了一个 ai 的计算体系,特别是跟深度学习去结合我们 ai 的芯片应该怎么去设计。第二个呢,我们讲了 ai 芯片的基础,那谈到基础, 肯定离不开传统的 cpu, 到后来并行计算的 gpu, 到现在专门针对 ai 处理的 mpu。 在第三个内容,我们会深入的去探讨一下,大家都说英伟达香,那去看看英伟达的 gpu 的加工的发展,还有他专门针对 ai 去提出的 tensaco 和 mv link。 在第四个内容和第五个内容呢必一运动,我们回顾了国外的 ai 芯片和国内的一些 ai 的芯片厂商,国外呢主要是特斯拉和谷歌,国内呢有 b 二航五机,还有其他,当然还包括华为的升腾。我现在还在犹豫 要不要讲升腾,如果要讲呢,升腾可能还需要再过一段时间了。那来到最后一个内容呢,就是 ai 芯片的思考。 那在最后一期视频 ai 芯片的思考里面呢,我们会分开七八个视频去给大家汇报的,可能会稍微多了一点,或者中间呢,会有一些小调整。首先第一个呢,我们会去看看 s i m d 跟 s i m t 的区别。 接着呢,我们去看看 simt 跟库塔编程之间的关系,大家都说英伟达乡库塔箱箱在哪里,我们就要去深入的去打开了。接着呢,我们了解到 simt 跟库塔编程的本质之后,我们就会真正的去探讨一下 simt 编程的本质, 他的问题在哪,他为什么这么香?就可能在前面三节内容去展开了。最后呢, s i m d s i m t 跟 d s a, 特别是现 在的 ai 芯片 dsa 的架构,我们打开了去看看他们到底之间有什么偶连关系。 在最后的两个视频呢,还是回到我们的 dsa, 我们的 ai 芯片的里面去看看我们之前去讲到的类似于杜总里面的进程计算, 或者是谷歌这种脉冲正列计算。不同的 ai 芯片的架构,不同的 dsa 的架构主要有哪些形态,他们之间的关联关系和他们之间的一些区别。 最后呢,我们来总结一下 ai 芯片架构的黄金十年,未来我们将会走向何方。但中间过程当中呢,还会有些小变化,因为可能我的废话特别多, 就导致了一个视频又讲不完,又要拆分出来。为什么我们需要讲硬件,讲 ai 芯片之上呢?会讲很多 simtsimd 啊,还有编程之间的关系呢。最主要的原因呢,是我们现在已经涌现了大量的 ai 芯片,但是大家都觉得只有因为它苦打着这种生态才能够繁荣,长出非常多非常多不一样的东西。 而像谷歌 dpu 的,华为的升腾呢,包括其他的 mpu 的厂商,我们的编程体系应该怎么去构建,我们应该怎么更好的去开放一些编译站和编程体系,给开发者去使用,去繁荣整个 ai 的生态, 去更好的充分的发挥我们的 ai 芯片的算力,使得我们的算力呢,这个是新湾区硬件的编程,让生态不断的繁荣,也是我们这一期视频里面最核心的观点。 计算机体系里面呢,其实有一个标准的定义,就是针对 并行处理的阴间架构的发展。主要是有四个阶段吗?之前给大家去简单汇报过了已经。第一个呢就是 sisd、 simd、 misd 和 mind。 最终的中文呢,大家已经一目了然了。我们简单看看右边的这个图,主要是讲我们的数据 跟指令之间的关系。那数据跟指令呢,组合起来就变成我们刚才计算机体系里面的四种不同的形态。最简单的第一种呢,就是 sisd 单指令单数据流, 专门去做一些最传统的 cpu 能够做的工作,简单的对数据进行一些运算。后来呢,有了现代 cpu 之后呢,大部分我们现在用到的 cpu, 包括 gpu 呢,其实采用的是 s、 i、 m、 d 的系统或者架构。那这里面呢,我们就可以对我们的数据呢做 大量的并行的操作,同时间呢,可以处理很多样的数据。里面最核心的就是增加了 pu 的单元了。从右边的这个图可以看到, pu 就是我们的 process uni 有了更多的处理的单元了。 讲到 s i m d s i m t 呢,其实我们现在很关心的一点就是为什么 ai 编程里面我们需要关注这两个概念呢?其实大家会发现,在 ai 编程当中呢, gpu 真香啊,真香哎呀,真香哎呀,真香哎呀。 但是呢,大家有没有想过,你指的 gpu 呢?是有个袋子的,袋子是我们英伟达的 gpu, 而不是 amd 的 gpu。 而这里面镶的是苦打,苦打是他的生态香吗?还说苦打的架构世纪的香呢。 所以这也是我们值得深入的探讨的问题。首先呢,我们回顾一下人工智能里面主要是指深度学习或者神经网络这么个概念。 现在神经网络呀,我们左边的这个图呢,就是整个神经网络的一个架构图或者势力图。右边呢就是单个神经元展开里面最核心的一个部件就是矩阵乘 x 乘以 w, 再做一个激活。 无论我们的 f f n n c n n, 包括现在大模型非常火的圈缩嘛,还是以前传统的 ia o s t m, 都离不开我们的矩阵层。 而谈到神经网络呢,里面很重要的两个流程就是训练跟推理。那不管是神经网络里面的训练的推理呢,我们都需要执行大量的举三层,大量的对我们的权重呢进行更新。而在 这里面呢,有一个整体的开发流程,就是我们 ai 框架的开发流程,从整个 ai 的系统里面去看待。我们现在走一遍这么一个流程。首先呢,就是算法的人员或者开发的工程师呢,需要定义我们这个神经网络具体长什么样子? 接着呢,去用我们的 ai 框架呀,去编写对应真正的程序。那编写对应程序呢?就是去写我们这个网络吗?有了这个网络之后呢, ai 框架会把我们的刚才写的程序呢,编成一个正向的计算图。接着呢, ai 框架会根据自动微分的原理去构建这个反向的计算图。 反向的计算图里面,最终在温态或者我们的叫做运行时,把所有的图呢,变成一个算子的执行序列。而这个算子在真正硬件执行呢,是我们的 cono。 哎,大家有没有发现, 这整个 ai 系统运行的过程当中,我们能看到的全都是刚才描述的这么一个流程。真正的 simdsimt 到底在哪里? 这是应该 ai 系统关心或者解决的问题吗?而且我们看到 s、 i、 m、 d 里面的 i 呢,是指 instruction smd, 应该指的硬件的设计有约束吧,他对我们的编程习惯有约束吗?于是带着这些问题呢,我们引入了两个新的概念,我们会在后面给大家去汇报的。第一个呢,就是硬件的执行的模型,第二个就是编程的模型 新上了。我们在 ai 框架的算子的执行呢,硬件提供的是 cono 的具体的实现,我们需要根据硬件的执行模型来确定我们的编程的模型。那讲起来有点拗口啊。 像我们的程序员呢,关心的是我们的编程的模型,怎么去编写我们这些算子,怎么去编写我们这些执行算子具体的 cono。 而硬件他关心的是他的执行的模型,关心我们的指令。 因此呢,在这里面呢就有两个 gap, 一个 gap 呢就是我们程序员关心的编程模型。第二个呢,就是硬件关心的执行的模型。根据我们之前讲到的计算机的系统设计里面呢,其实定义呢,基本上就是我们那四个嘛, s i s d m i m d s i m d 各种各样的 d 啊,都是对我们的数据呢进行并行。但是这里面有个很重要的概念,就是编程的模型却以生态非常强大的英伟达的扩大自己定义的 s i m t 的为主。所以这里面到底是个什么样的关系?我们接下来的视频要跟大家去重 性和思考的就是 s i m d 跟 s i m t 之间什么关系? s i m d s i m t 跟 d s a domain specific architecture 专门针对 ai 范式世纪的硬件之间是什么样的区别? 最后一个就是在 ai 的体系结构里面呢, s i m d s i m t 的四 g 对我们的编程模型带来哪些挑战?为什么大家都说 s i m t 四 g 的库打好用呢?说实话,朱敏学库打当时候还 挺困难的,挺头痛的,头痛了两周,然后才学会了哭打,而且还做的性能不够优。 在这个非常水的视频结束之前呢,周敏还有一些简单的思考,希望大家带着这些疑问呢去往下看。下去周敏给大家做一 一些详细的汇报。这个呢就是我们真正编程的时候,到底哪个程序上会去控制指令呀? s i m d 里面的哎呀,是 instruction, 我们谁去控制指令的?好像都没有。我们都是做一些简单的编程,所以 s i m d 呢是不会暴露给开发者的, 但是作为一个硬件的并线处理架构呢? s i m t 暴露了哪些接口给用户呢?暴露了哪些指令给用户呢? s i m t 到底是一个硬件的执行模式还是一个编程的执行模式呢? 我们的开发者在英伟达的扩大的控制当中呢,我们到底是控制硬件还是控制现成还是控制啥呢?而现成对应的硬件的执行方式到底是什么呢?他到底是一个现成,他现成不是个硬件的概念,而是个软件的概念。所以带着这些问题呢, 我们深入的去探讨。接下来我们需要去给大家汇报的内容哦。今天的视频呢,确实有点水啊,都是疑问,讲到这呢,我自己都满头包啊。希望接下来的内容呢,能够给大家带来一些不一样的思考。 卷的不行了,卷的不行了, ai 系统的全单知识都会分享在这里,欢迎打开和吐槽。给我一键三年,给我一键三年啊!谢谢各位,拜了个拜!