网站首页

产品中心

智能终端处理器 智能云服务器 软件开发环境

新闻中心

关于必一运动

公司概况 核心优势 核心团队 发展历程

联系我们

官方微信 官方微博
主页 > 新闻中心

史上最快AI芯片“Sohu”速度10倍于B200哈佛辍学生打造B-Sports

发布时间:2024-08-17 20:10浏览次数: 来源于:网络

  必一运动官方网站今天凌晨,科技圈迎来了一个重要新闻。美国芯片创业公司 Etched 推出了自己的第一块 AI 芯片 SohuB-Sports,它运行大模型的速度比英伟达 H100 要快 20 倍,比今年 3 月才推出的顶配芯片 B200 也要快上超过 10 倍。

  Sohu 是世界第一款专用于 Transformer 计算的芯片,历时两年打造。

  最近一段时间,由于摩尔定律放缓,GPU 性能的提升很大程度上需要依赖于增加芯片面积和功耗。不论是英伟达 B200、AMD MI300X 还是 Intel Gaudi 3,都不约而同的使用「二合一」的方式提升性能,功耗也翻倍了。

  从 2022 年到 2025 年,AI 芯片的性能并没有真正变得更好,而是变得更大了。

  但如果大模型广泛使用 Transformer 架构,追求专业化或许是提高性能的好方向。

  作为一个新兴领域,AI 模型的架构过去变化很大。但自 GPT-2 以来,最先进的模型几乎都在使用 Transformer,从 OpenAI 的 GPT 系列、谷歌的 PaLM、Facebook 的 LLaMa,再到特斯拉 FSD 自动驾驶所需的模型。

  Etched 给我们算了一笔账:芯片项目的成本为 5000 万至 1 亿美元,需要数年时间才能投入生产。另一方面,当模型训练成本超过 10 亿美元、推理成本超过 100 亿美元时,使用专用芯片是不可避免的。在这种产业规模下,1% 的改进就能撬动硬件架构的更新。

  具体来讲,通过专门化,Sohu 具备了前所未有的性能。一台集成 8 块 Sohu 芯片的服务器每秒可以处理 50 万的 Llama 7B tokens。

  针对 Llama 3 70B 的 FP8 精度基准测试显示:无稀疏性、8 倍模型并行、2048 输入或 128 输出长度。

  由于 Sohu 仅能运行一种算法,因此可以删除绝大多数控制流逻辑,从而允许拥有更多数学块。也因此,Sohu 实现了 90% 以上的 FLOPS 利用率,而使用 TRT-LLM 的 GPU 约为 30%。

  由于 GPU 的绝大部分区域都是可编程的,因此专注于 transformer 会容纳更多的计算。这可以从第一性原理中证明:

  构建单个 FP16/BF16/FP8 乘加电路需要 10000 个晶体管,这是所有矩阵数学的基石。H100 SXM 拥有 528 个张量核心,每个核心拥有 4× 8 × 16 FMA 电路。乘法告诉我们:H100 有 27 亿个晶体管用于张量核心。

  但是,H100 却有 800 亿个晶体管。这意味着 H100 GPU 上只有 3.3% 的晶体管用于矩阵乘法。这是英伟达和其他芯片厂商经过深思熟虑的设计决定。如果你想支持所有类型的模型(CNN、LSTM、SSM 等),那么没有比这更好的了。

  在 Sohu 上,推理是分 batch 运行的。每个 batch 都需要加载所有模型权重一次,并在 batch 的每个 token 中重复使用。通常来说,LLM 输入是计算密集型的,而 LLM 输出是内存密集型的。当我们将输入和输出 token 与连续 batch 结合时,工作负载变成了高度计算密集型。

  以下为 LLM 连续 batching 处理的示例,这里运行具有四个输入 token 和四个输出 token 的序列。每种颜色代表不同的序列。

  Sohu 拥有了更多的计算能力且利用率非常高, 因此可以运行巨大的吞吐量,而不会出现内存带宽瓶颈。

  在 GPU 和 TPU 上,软件是一场噩梦。处理任意 CUDA 和 PyTorch 代码需要极其复杂的编译器。第三方 AI 芯片(如 AMD、Intel、AWS 等)在软件上总共花费了数十亿美元,但收效甚微。

  这些框架非常僵化,虽然你可以进行模型超参数调优,但实际上不支持更改底层模型代码。但这没关系,因为所有 transformer 模型都非常相似(甚至是文本 / 图像 / 视频模型),所以超参数调优就是你线% 的 AI 公司是这样,但一些最大的 AI 实验室采用定制方式。他们有工程师团队来手动调整 GPU 核心以实现更高的利用率,并进行逆向工程以将寄存器对每个张量核心的延迟将至最低。

  Etched 让我们不需要再进行逆向工程,他们的软件(从驱动程序、内核到服务堆栈)都将是开源的。如果你想实现自定义 transformer 层,则内核向导可以自由地这样做。

  Etched 的 CEO Gavin Uberti 告诉记者:「如果未来 Transformer 不再是主流,那我们就会灭亡。但如果它继续存在,我们就会成为有史以来最大的公司。」

  打造 Sohu 芯片的 Etched 位于加州库比蒂诺,公司成立仅两年,目前团队只有 35 人,创始人是一对哈佛辍学生 Gavin Uberti(前 OctoML 和前 Xnor.ai 员工)和 Chris Zhu,他们与 Robert Wachen 和前赛普拉斯半导体公司首席技术官 Mark Ross 一起,一直致力于打造专用于 AI 大模型的芯片。

  不过对于占据超过 80% AI 芯片市场份额的英伟达来说,1.2 亿美元只相当于它半天的收入B-Sports。

  「我们如此兴奋的原因,选择辍学的原因,以及我们召集团队,投身芯片项目的原因在于 —— 这是最重要的工作,」Etched 运营主管 Robert Wachen 说道。「整个技术的未来将取决于算力基础设施能否实现大规模。」

  Uberti 声称到目前为止,已有匿名客户预订了「数千万美元」的硬件,预计在今年三季度,Sohu 将推向市场B-Sports。

  未来真的如 Uberti 所说,只有在 Sohu 这样的芯片上,视频生成、音频生成、具身智能等技术才能真正落地吗?

下一篇:B-Sports消息称软银曾与英特尔讨论合作开发AI芯片但以失败告终
上一篇:AI“热辣滚烫”!多家上市公司业绩超预期增长B-Sports

咨询我们

输入您的疑问及需求发送邮箱给我们