芯片专家详解刷屏的Groq芯片-云上资源整合网

免费获取chatGPT 3.5 账户，或购买GPT 4.0plus 会员账户，扫描文章内微信公众号二维码，或加微信：yuke36

芯片专家解读刷屏的Groq芯片

腾讯科技

02/2110:28

相比于“一个个蹦出字符，半天能够回答完毕”的GPT，Groq“一秒一屏”，速率惊人。背后的核心技术是LPU，但成本比GPU高太多，还不能成为英伟达的竞争对手。

财报发布前三天，英伟达忽然冒下来一个劲敌。

一家名叫Groq的公司昨天在AI圈内刷屏，杀招就一个：快。

在传统的生成式AI中，等待是稀松平时的事情，字符一个个蹦出，半天能够回答完毕。但在Groq明天开放的云服务体验平台上，你看见的会是1秒一屏。当模型收到提示后，几乎就能立刻生成答案。这种答案除了真实可信，还附有引用，厚度更是达到数百个词组。

电子电邮初创企业AI的首席执行官兼联合创始人马特·舒默（Matt）在演示中亲自体验了Groq的强悍功能。他赞扬Groq快如闪电，就能在不到一秒钟的时间内生成数百个词组的事实性、引用性答案。更令人吃惊的是，它超过3/4的时间用于搜索信息，而生成答案的时间却短到只有几分之1秒。

其实昨晚才刷屏，但Groq公司并非初出茅庐的新创企业。实际上，该公司创立于2016年，并在那时就注册了Groq商标。今年11月，当马斯克发布人工智能模型Grok时，Groq公司的开发者们就发了一篇文章说马斯克撞名自己的公司。信写的挺逗的，但这波流量她们是一点没吃到。

图片[1]-芯片专家详解刷屏的Groq芯片-云上资源整合网

这一次她们之所以能忽然爆发，主要是由于Groq云服务的上线，让你们真的能亲身体会一下不卡顿的AI用上去有多爽。

有从事人工智能开发的用户赞许，Groq是追求低延后产品的“游戏规则改变者”，低延后指的是从处理恳求到获得响应所需的时间。另一位用户则表示，Groq的LPU在未来有望对GPU在人工智能应用需求方面实现“革命性提高”，并觉得它可能成为英伟达A100和H100芯片的“高性能硬件”的有力代替品。

Groq芯片，能在速率上获胜的核心技术是LPU

依照其模型的首次公开基准测试结果，Groq云服务搭载的或模型在估算和响应速率上远超。这一卓越性能的背后，是Groq团队为大语言模型（LLM）量身定做的专用芯片（ASIC），它促使Groq每秒可以生成高达500个token。相比之下，目前-3.5的公开版本每秒只能生成大概40个token。

图片[2]-芯片专家详解刷屏的Groq芯片-云上资源整合网

这一芯片能在速率上获胜的核心技术是Groq首创的LPU技术。

按照脸书上与Groq关系密切的投资人分享，LPU的工作原理与GPU迥然不同。它采用了时序指令集计算机（Set）构架，这意味着它无需像使用高带宽储存器（HBM）的GPU那样频繁地从显存中加载数据。这一特性除了有助于防止HBM匮乏的问题，能够有效减少成本。

图片[3]-芯片专家详解刷屏的Groq芯片-云上资源整合网

不同于GPU须要依赖高速数据传输，Groq的LPU在其系统中没有采用高带宽储存器（HBM）。它使用的是SRAM，其速率比GPU所用的储存器快约20倍。

鉴于AI的推理估算相较于模型训练须要的数据量远小，Groq的LPU因而更节能。在执行推理任务时，它从外部显存读取的数据更少，消耗的电量也高于的GPU。

假如在AI处理场景中采用Groq的LPU，可能就无需为GPU配置特殊的储存解决方案。LPU并不像GPU那样对储存速率有极高要求。Groq公司声称，其技术才能通过其强悍的芯片和软件，在AI任务中代替GPU的角色。

另一位喀布尔学院的助教更形象的解释了一下LPU和GPU的差异，“想象一下，你有两个工人，一个来自Groq（我们称她们为“LPU”），另一个来自（我们称之为“GPU”）。二人的任务都是尽早整理一大堆文件。

GPU如同一个速率很快的工人，但也须要使用高速传送系统（这如同高带宽储存器或HBM）将所有文件快速传送到她们的办公桌上。这个系统可能很高昂，有时很难得到（由于HBM产能有限）。

另一方面，Groq的LPU如同一个高效组织任务的工人，她们不须要这么快地交付文件，所以用了一张就置于她们身边的更小的椅子（这如同SRAM，一种更快但更小的储存器），所以她们几乎可以立刻获得所需的东西。这意味着她们可以在不依赖快速交付系统的情况下快速工作。

对于不须要查看堆中每一篇文件的任务（类似于不使用这么多数据的人工智能任务），LPU甚至更好。它不须要像往常一样来回联通，既节约了能源，又能快速完成工作。

图片[4]-芯片专家详解刷屏的Groq芯片-云上资源整合网

LPU结构

LPU组织工作的特殊方法（这是动词指令集计算机体系结构）意味着它毋须仍然站上去从堆里抢更多的论文。这与GPU不同，GPU不断须要高速系统提供更多的文件。”

运用LPU这一技术，Groq生产了加速器单元，按照其网站介绍尺寸如下：

图片[5]-芯片专家详解刷屏的Groq芯片-云上资源整合网

图片[6]-芯片专家详解刷屏的Groq芯片-云上资源整合网

其特殊显存SRAM的容量是230MB，带宽80TB/s，在INT8、FP16下算力为。确实快，而且贵，目前并不能成为英伟达的竞争对手

在Groq刚才刷屏的时侯，AI行业都沉溺在它闪电速率的惊艳之中。但是惊艳之后，好多行业大鳄一算账，发觉这个快的代价可能有点高。

贾扬清在脸书上算了一笔账，由于Groq小的可怜的显存容量（230MB），在运行Llama-270b模型时，须要305张Groq卡才足够，而用H100则只须要8张卡。从目前的价钱来看，这意味着在同等吞吐量下，Groq的硬件成本是H100的40倍，煤耗成本是10倍。

图片[7]-芯片专家详解刷屏的Groq芯片-云上资源整合网

芯片专家姚金鑫（J叔）向腾讯科技进行了更详尽的解释：

根据Groq的信息，这颗AI芯片的尺寸如下：

图片[8]-芯片专家详解刷屏的Groq芯片-云上资源整合网

从芯片的尺寸中，可以看见几个关键信息点：SRAM的容量是230MB，带宽80TB/s，FP16的算力是。

根据当前对大模型的推理布署，7B的模型大概须要14G以上的显存容量，这么为了布署一个7B的模型，大概须要70片左右的芯片，按照透漏的信息，一颗芯片对应一张估算卡，根据4U服务器配置8张估算卡来估算，就须要9台4U服务器（几乎占了一个标准机柜了），总共72颗估算芯片，在这些情况下，算力（在FP16下）也达到了惊人的188T*72=13.5P，倘若依照INT8来算就是54P。54P的算力来推理7B的大模型，用大炮打虫子来形容一点也不为过。

目前社交媒体广泛传播的文章对标的是英伟达H100，其采用的是80G的HBM，这个容量可以布署5个7B的大模型实例；我们再来看算力，稀疏化后，H100在FP16下的算力将近2P，在INT8上也将近4P。

这么就可以做个对比，倘若从同等算力来看，假如都是用INT8来推理，采用Groq的方案须要9台包含72片的服务器集群，而假如是H100，达到同等算力大概须要2台8卡服务器，此时的INT8算力早已到64P，可以同时布署的7B大模型数目达到80多个。

原文中提及，Groq对-7B的Token生成速率是750/s，假如对标的是H100服务器，那这2台总共16颗的H100芯片，并发吞吐就高到不晓得那里去了。倘若从成本的角度，9台的Groq服务器，也是远远贵过2台H100的服务器（虽然此刻价钱早已高到离谱）。

●Groq：2万美元*72=144万美元，服务器2万美元*9=18万美元，纯的BOM成本160万美元以上（全部都是根据最低方法来估算）。

●H100：30万美元*2=60万美元（美国），300万人民币*2=600万人民币（国外实际市场价）

若果是70B的模型，同样是INT8，要用到起码600张卡，将近80台服务器，成本会更高。

这还没有算机架相关费用，和消耗的水费（9台4U服务器几乎占用整个标准机柜）。

实际上，布署推理性价比最高的，恰恰是4090这些神卡。

Groq是否真的赶超了英伟达？对此，姚金鑫（J叔）也抒发了自己不同的见解：

“英伟达在本次AI浪潮中的绝对领先地位，促使全球都翘首以盼挑战者。每次吸引眼珠的文章，总会在最初被人相信，不仅这个诱因之外，还是由于在做对比时的“套路”，故意忽视其他诱因，用单一维度来做比较。这就好比那句格言“抛开事实不谈，莫非你就没有一点错的地方吗？”

摒弃场景来谈对比，虽然是不合适的。对于Groq这些构架来讲，也有其展现长处的应用场景，虽然如此高的带宽，对许多须要频繁数据搬运的场景来说，那就是再好不过了。

总结上去，Groq的构架构建在小显存，大算力上，因而有限的被处理的内容对应着极高的算力，致使其速率十分快。