必一运动官方网站在人工智能快速发展的今天,作为人工智能系统的大脑,AI芯片在处理复杂算法、加速深度学习和实现实时决策方面扮演着至关重要的角色。这些专门设计的芯片不仅大幅提升了AI应用的性能,还显著降低了能耗,使得从智能手机到自动驾驶汽车等各种设备都能够高效地运行AI模型。可以说,谁掌握了先进的芯片技术,谁就掌握了人工智能领域的制高点。
今天我们要介绍的主角是Groq ,成立于 2016 年,总部位于加利福尼亚州山景城。由 Google TPU 项目的主要设计师 Jonathan Ross 创立,Groq 致力于打造全球最快的 AI 推理技术。通过提供高效、经济且易于访问的 AI 和机器学习解决方案,Groq 正在影响整个AI芯片行业。
随着 AI 技术的快速发展,对高性能 AI 芯片的需求不断增加,Groq 瞄准了这一市场机会。Jonathan Ross 利用他在 Google 开发 TPU 时积累的经验,创立了 Groq,旨在开发新一代的 AI 加速器芯片,以提高 AI 计算性能并降低成本。Groq 的使命是消除“贫富差距”,帮助 AI 社区中的每个人蓬勃发展。推理速度是将开发人员的想法转化为业务解决方案和改变生活的应用程序的关键。
该公司的张量流处理器(TSP)是专为机器学习而设计的专用集成电路。它是一个具有数百个功能单元的单个处理器,是处理器行业内的一种新颖架构。执行计划由 处理器中的编译器执行。它具有 220 兆位的静态随机存取存储器 (SRAM) 和每秒 1,000 万亿次运算B-Sports。它具有单核单指令、由软件运行的多数据 (SIMD) 引擎和每秒 80 TB 的片上内存带宽。
Groq 指出,TSP 旨在利用机器学习工作负载中固有的并行性,包括指令级、内存并发性、数据和模型并行性。Groq 宣称其 LPU 推理性能是 NVIDIA GPU 的 10 倍,成本仅为其十分之一。Groq凭借自研的硬件加速器LPU,达成了500个token/s的推理速度,比ChatGPT快数倍。
Groq采用混合业务模式,结合了半导体、云服务和企业部署的元素。通过GroqCloud平台,提供基于云的AI推理服务,允许开发者运行大语言模型。计划在企业内部署Groq的解决方案,进一步扩大市场覆盖。
LPU 推理引擎,LPU 代表语言处理单元™,是一个硬件和软件平台,可提供卓越的计算速度、质量和能源效率。这种新型的端到端处理单元系统为具有顺序组件的计算密集型应用程序(例如大型语言模型 (LLM) 等 AI 语言应用程序)提供了最快的推理。
LPU 旨在克服两个 LLM 瓶颈:计算密度和内存带宽。就 LLM 而言,LPU 的计算能力比 GPU 和 CPU 更大。这减少了每个单词的计算时间,从而可以更快地生成文本序列。此外,与 GPU 相比,消除外部内存瓶颈使 LPU 推理引擎能够在 LLM 上提供几个数量级的性能。
GroqCard 加速器将单个 GroqChip™ 处理器(基于LPU架构设计)封装到标准 PCIe Gen4 x16 外形中,提供服务器集成。GroqCard 具有多达11个 RealScale™ 芯片到芯片连接以及内部软件定义网络,无需外部交换机即可实现近乎线性的多服务器和多机架可扩展性。GroqCardAccelerator售价为19,948美元。
GroqNode 是一套 8 个 GroqCard™ 加速器,在 4U 服务器机箱中集成了芯片到芯片连接、双服务器级 CPU 和高达 1 TB 的 DRAM。GroqNode 旨在实现大型深度学习模型的高性能和低延迟部署。
GroqRack 结合了 8 个 GroqNode™ 套件的强大功能,具有多达 64 个互连芯片和 1 个额外的冗余节点,可减少意外停机的影响。单个机架的端到端延迟仅为 1.6μs,非常适合大型工作负载B-Sports,并可扩展到整个数据中心。
利用流行的开源 LLM,如 Meta AI 的 Llama 2 70B,运行速度比其他领先提供商快 18 倍。对于输出令牌吞吐量,Groq 实现了平均 185 个令牌/秒。
Groq目前最明显的收入来源来自Groq云,他们的云 AI 推理平台。Groq云提供对Groq的大规模并行 TSP 、LPU基础设施通过简单的即用即付 API 运行最新的大型语言模型,Groq 根据使用情况提供一系列定价选项。
业务层:具有定制速率限制、微调模型、自定义 SLA 和专用支持的自定义解决方案。
随着生成式和对话式AI应用的兴起,对低延迟、高吞吐量的实时推理需求显著增加。
Groq称,AI芯片市场的总潜在市场(TAM)预计到2027年将达到1194亿美元,目前约有40%的A芯片被用于推理,就使推理芯片的市场份额达到约480亿美元,显示出巨大的市场潜力。一旦应用程序成熟,它们通常会将90-95%的资源分配给推理,这表明随着时间的推移,市场会更大。
世界才刚刚开始探索人工智能带来的可能性。随着更多的应用和产品进入市场,这一比例可能会增加,这是一个非常保守的估计。随着全球几乎每个行业和政府都希望利用生成式和/或对话式 AI,AI 芯片的 TAM,尤其是专门用于推理的系统,市场是广阔的。
超过70,000名开发人员使用GroqCloud™,并有19,000个新应用程序在LPU™推理引擎上运行,展示了该平台的高接受度和实用性。Groq直接与人工智能研究实验室和模型开发人员合作,可以优化未来的模型和系统,以最大限度地利用其大规模并行/横向扩展架构。
LPU推理引擎专注于低延迟和高吞吐量,为生成式和对话式AI应用提供了实时推理能力。
Groq编译器完全确定性,确保每个内存负载和操作都按需精确安排,最大限度地提高了性能。
使用SRAM作为内存,比GPU使用的HBM内存快100倍,减少了程序优化复杂性。
LPU设计优先考虑能效,减少了片外数据流动,能效是当前最节能GPU的10倍。
这种设计不仅降低了能耗,还减少了冷却需求,有助于降低整体计算成本和碳足迹。
Groq 已经多轮融资筹集了超过 3.67 亿美元。最新一轮融资计划在 2024 年第二季度,由BlackRock领投,目标融资金额为 3 亿美元,估值可能达到 25 亿美元。这轮融资将用于加速公司增长,推进下一代产品开发,并扩大在AI芯片市场的竞争力B-Sports,特别是挑战Nvidia的主导地位。
独立硬件供应商(IHVs):合作提供根据各种规格和客户需求定制的服务器和机架。
Groq通过其先进的LPU推理引擎和GroqCloud™平台,在低延迟、高能效AI推理领域实现了显著的技术突破和市场扩展。其独特的技术优势和供应链战略使其在快速增长的AI芯片市场中占据了有利位置,展现出巨大的市场前景和发展潜力。