免费获取chatGPT 3.5 账户,或购买GPT 4.0plus 会员账户,扫描文章内微信公众号二维码,或加微信:yuke36
芯片专家解读刷屏的Groq芯片
腾讯科技
02/2110:28
相比于“一个个蹦出字符,半天能够回答完毕”的GPT,Groq“一秒一屏”,速率惊人。背后的核心技术是LPU,但成本比GPU高太多,还不能成为英伟达的竞争对手。
财报发布前三天,英伟达忽然冒下来一个劲敌。
一家名叫Groq的公司昨天在AI圈内刷屏,杀招就一个:快。
在传统的生成式AI中,等待是稀松平时的事情,字符一个个蹦出,半天能够回答完毕。但在Groq明天开放的云服务体验平台上,你看见的会是1秒一屏。当模型收到提示后,几乎就能立刻生成答案。这种答案除了真实可信,还附有引用,厚度更是达到数百个词组。
电子电邮初创企业AI的首席执行官兼联合创始人马特·舒默(Matt)在演示中亲自体验了Groq的强悍功能。他赞扬Groq快如闪电,就能在不到一秒钟的时间内生成数百个词组的事实性、引用性答案。更令人吃惊的是,它超过3/4的时间用于搜索信息,而生成答案的时间却短到只有几分之1秒。
其实昨晚才刷屏,但Groq公司并非初出茅庐的新创企业。实际上,该公司创立于2016年,并在那时就注册了Groq商标。今年11月,当马斯克发布人工智能模型Grok时,Groq公司的开发者们就发了一篇文章说马斯克撞名自己的公司。信写的挺逗的,但这波流量她们是一点没吃到。
这一次她们之所以能忽然爆发,主要是由于Groq云服务的上线,让你们真的能亲身体会一下不卡顿的AI用上去有多爽。
有从事人工智能开发的用户赞许,Groq是追求低延后产品的“游戏规则改变者”,低延后指的是从处理恳求到获得响应所需的时间。另一位用户则表示,Groq的LPU在未来有望对GPU在人工智能应用需求方面实现“革命性提高”,并觉得它可能成为英伟达A100和H100芯片的“高性能硬件”的有力代替品。
Groq芯片,能在速率上获胜的核心技术是LPU
依照其模型的首次公开基准测试结果,Groq云服务搭载的或模型在估算和响应速率上远超。这一卓越性能的背后,是Groq团队为大语言模型(LLM)量身定做的专用芯片(ASIC),它促使Groq每秒可以生成高达500个token。相比之下,目前-3.5的公开版本每秒只能生成大概40个token。
这一芯片能在速率上获胜的核心技术是Groq首创的LPU技术。
按照脸书上与Groq关系密切的投资人分享,LPU的工作原理与GPU迥然不同。它采用了时序指令集计算机(Set)构架,这意味着它无需像使用高带宽储存器(HBM)的GPU那样频繁地从显存中加载数据。这一特性除了有助于防止HBM匮乏的问题,能够有效减少成本。
不同于GPU须要依赖高速数据传输,Groq的LPU在其系统中没有采用高带宽储存器(HBM)。它使用的是SRAM,其速率比GPU所用的储存器快约20倍。
鉴于AI的推理估算相较于模型训练须要的数据量远小,Groq的LPU因而更节能。在执行推理任务时,它从外部显存读取的数据更少,消耗的电量也高于的GPU。
假如在AI处理场景中采用Groq的LPU,可能就无需为GPU配置特殊的储存解决方案。LPU并不像GPU那样对储存速率有极高要求。Groq公司声称,其技术才能通过其强悍的芯片和软件,在AI任务中代替GPU的角色。
另一位喀布尔学院的助教更形象的解释了一下LPU和GPU的差异,“想象一下,你有两个工人,一个来自Groq(我们称她们为“LPU”),另一个来自(我们称之为“GPU”)。二人的任务都是尽早整理一大堆文件。
GPU如同一个速率很快的工人,但也须要使用高速传送系统(这如同高带宽储存器或HBM)将所有文件快速传送到她们的办公桌上。这个系统可能很高昂,有时很难得到(由于HBM产能有限)。
另一方面,Groq的LPU如同一个高效组织任务的工人,她们不须要这么快地交付文件,所以用了一张就置于她们身边的更小的椅子(这如同SRAM,一种更快但更小的储存器),所以她们几乎可以立刻获得所需的东西。这意味着她们可以在不依赖快速交付系统的情况下快速工作。
对于不须要查看堆中每一篇文件的任务(类似于不使用这么多数据的人工智能任务),LPU甚至更好。它不须要像往常一样来回联通,既节约了能源,又能快速完成工作。
LPU结构
LPU组织工作的特殊方法(这是动词指令集计算机体系结构)意味着它毋须仍然站上去从堆里抢更多的论文。这与GPU不同,GPU不断须要高速系统提供更多的文件。”
运用LPU这一技术,Groq生产了加速器单元,按照其网站介绍尺寸如下:
其特殊显存SRAM的容量是230MB,带宽80TB/s,在INT8、FP16下算力为。确实快,而且贵,目前并不能成为英伟达的竞争对手
在Groq刚才刷屏的时侯,AI行业都沉溺在它闪电速率的惊艳之中。但是惊艳之后,好多行业大鳄一算账,发觉这个快的代价可能有点高。
贾扬清在脸书上算了一笔账,由于Groq小的可怜的显存容量(230MB),在运行Llama-270b模型时,须要305张Groq卡才足够,而用H100则只须要8张卡。从目前的价钱来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,煤耗成本是10倍。
芯片专家姚金鑫(J叔)向腾讯科技进行了更详尽的解释:
根据Groq的信息,这颗AI芯片的尺寸如下:
从芯片的尺寸中,可以看见几个关键信息点:SRAM的容量是230MB,带宽80TB/s,FP16的算力是。
根据当前对大模型的推理布署,7B的模型大概须要14G以上的显存容量,这么为了布署一个7B的模型,大概须要70片左右的芯片,按照透漏的信息,一颗芯片对应一张估算卡,根据4U服务器配置8张估算卡来估算,就须要9台4U服务器(几乎占了一个标准机柜了),总共72颗估算芯片,在这些情况下,算力(在FP16下)也达到了惊人的188T*72=13.5P,倘若依照INT8来算就是54P。54P的算力来推理7B的大模型,用大炮打虫子来形容一点也不为过。
目前社交媒体广泛传播的文章对标的是英伟达H100,其采用的是80G的HBM,这个容量可以布署5个7B的大模型实例;我们再来看算力,稀疏化后,H100在FP16下的算力将近2P,在INT8上也将近4P。
这么就可以做个对比,倘若从同等算力来看,假如都是用INT8来推理,采用Groq的方案须要9台包含72片的服务器集群,而假如是H100,达到同等算力大概须要2台8卡服务器,此时的INT8算力早已到64P,可以同时布署的7B大模型数目达到80多个。
原文中提及,Groq对-7B的Token生成速率是750/s,假如对标的是H100服务器,那这2台总共16颗的H100芯片,并发吞吐就高到不晓得那里去了。倘若从成本的角度,9台的Groq服务器,也是远远贵过2台H100的服务器(虽然此刻价钱早已高到离谱)。
●Groq:2万美元*72=144万美元,服务器2万美元*9=18万美元,纯的BOM成本160万美元以上(全部都是根据最低方法来估算)。
●H100:30万美元*2=60万美元(美国),300万人民币*2=600万人民币(国外实际市场价)
若果是70B的模型,同样是INT8,要用到起码600张卡,将近80台服务器,成本会更高。
这还没有算机架相关费用,和消耗的水费(9台4U服务器几乎占用整个标准机柜)。
实际上,布署推理性价比最高的,恰恰是4090这些神卡。
Groq是否真的赶超了英伟达?对此,姚金鑫(J叔)也抒发了自己不同的见解:
“英伟达在本次AI浪潮中的绝对领先地位,促使全球都翘首以盼挑战者。每次吸引眼珠的文章,总会在最初被人相信,不仅这个诱因之外,还是由于在做对比时的“套路”,故意忽视其他诱因,用单一维度来做比较。这就好比那句格言“抛开事实不谈,莫非你就没有一点错的地方吗?”
摒弃场景来谈对比,虽然是不合适的。对于Groq这些构架来讲,也有其展现长处的应用场景,虽然如此高的带宽,对许多须要频繁数据搬运的场景来说,那就是再好不过了。
总结上去,Groq的构架构建在小显存,大算力上,因而有限的被处理的内容对应着极高的算力,致使其速率十分快。
如今把句话反过来,Groq极高的速率是构建在很有限的单卡吞吐能力上的。要保证和H100同样吞吐量,你就须要更多的卡。
速率,在这儿成了Groq的双刃剑。
传奇CEO,小团队
尽管Groq还面对着好多潜在的问题,但它还是让人看见了GPU之外的可能路径。这主要得益于其背后的强悍团队。
Groq的CEO是被称为“TPU之父”的前微软职工乔纳森·罗斯;联合创始人道格拉斯·怀特曼也来自微软TPU团队,并先后成立了四家公司。该公司首席技术官吉姆·米勒曾是亚马逊云估算服务AWS设估算力硬件的负责人,CMO曾主导了苹果的市场发布。
Groq目前的团队也相对较小,其总部坐落加洲山景城,该公司仅有180余名职工,甚至还不到英特尔等小型芯片制造商所需工程师数目的四分之一。
罗斯等人的目标是在Groq复制他在微软的成功经验,构建一个内部芯片项目,推动整个行业向新技术迈入。他希望吸引少数关键顾客,通过广泛布署Groq芯片为公司提供稳定的收入来源,促进公司的独立发展。目前,这家初创公司已开始向潜在顾客发送样品。
“这如同捕杀小象,”罗斯说道,“你只须要少数猎物能够维持自己的生命,尤其在我们还这么弱小的时侯。”
本文作者:郝博阳、郭晓静,来源:腾讯科技,原文标题:《芯片专家解读刷屏的Groq芯片:目前并不能取代英伟达》
免费获取chatGPT 3.5 账户,或购买GPT 4.0plus 会员账户,扫描文章内微信公众号二维码,或加微信:yuke36
暂无评论内容