文丨猎云网 邵延港
市值超1.7万亿美元的AI军火商英伟达, 开始感觉到“危机”,需要警惕各路“对手”们了。
几天前,孙正义被曝计划筹资1000亿美元,创立一家AI芯片企业,旨在挑战英伟达。近日,一家AI芯片创业公司Groq,也透露了要颠覆的英伟达的意愿。
英伟达在AI芯片市场如入无人之境,2024财年,英伟达的销售额已经连续三个季度实现三位数的同比增长。毫无疑问,能够让英伟达近一年多疯狂的资本,来自当前市场中持续高涨AI大模型风口。连续多个季度的亮眼财报,英伟达的市值一路狂飙,近一年的区间涨幅超过2.3倍。
这一切都与数据中心人工智能驱动的支出速度有关,因为英伟达的GPU是运行生成式人工智能应用程序的唯一选择。
但“市场苦英伟达久矣”,凭借超高的算力性能和量产交付能力,英伟达独占全球90%的AI芯片市场份额,遥遥领先竞争对手,很多时候还“一卡难求”。
现在,不光是AMD、英特尔等传统芯片巨头在筹划抢占英伟达的市场,微软、Open AI、谷歌等AI巨头,以及像Groq、Cerebras等这样实力强劲的初创公司也在剑走偏锋,与英伟达一较高下。
现在,又一个能够让英伟达警惕的对手出现了。
近日,一家名为Groq的美国AI芯片企业站在聚光灯下,推出来当前最快的大模型推理芯片LPU。从数据来看,Groq自研LPU推理速度是英伟达GPU的10倍,甚至成本只有其1/10。
很对,Groq就在国内外网络上刷屏,使用者的直观反馈就是快。基于Groq自研芯片可以做到在大模型推理时每秒处理将近500个token,帮助Groq的大模型输出速度比GPT-3.5快18倍。
的横空出世打了英伟达一个出其不意。美东时间2月20日,英伟达股价收报694.52美元/股,跌4.35%,盘中跌幅接近7%。
英伟达现在已经在对手的包围圈中,Groq出其不意地给了当头一棒,那它能成为英伟达的替代吗?
比英伟达速度快10倍,能替代英伟达吗?
Groq能够刷屏的重要原因,就是快。
今年1月份,Groq进行了大模型推理性能的首次测试,Meta AI 的 Llama 2 70B 大模型在 Groq LPU推理引擎上运行,其性能优于所有其他基于云的推理提供商,输出token量提高了 18 倍。
2月份,Groq进行了第二次大模型基准测试,这次是 Artificial Analysis.ai,测试显示,Groq 在几乎所有类别中都优于其他推理引擎提供商。
目前,Groq已经在官网开放免费使用,从社交平台上使用者的反馈来看,确实很快。此前的AI生成内容需要一些时间缓冲,但在Groq开放的云服务体验平台上,几乎感觉不到卡顿。
Groq能做到这一点,依靠的是其自研的特殊芯片,这款芯片是Groq专为大模型而研制,团队将其定义为语言处理单元,即LPU。
据悉,LPU不同于英伟达的GPU,它是专为图形渲染而设计、包含数百个核心的并行处理器,能够为AI计算提供稳定的性能。其核心技术是TSP微架构设计,全称叫做张量流处理器,TSP通过独特的功能切片设计、确定性执行以及软件定义的方法来实现高性能和高效率的张量计算。
Groq的思路是通过TSP设计专用于AI推理的芯片,业界叫ASIC。由于工作原理与主流的GPU不同,LPU无需像GPU那样频繁地从内存中加载数据,它使用的是SRAM,其速度比GPU所用的存储器快约20倍。
根据相关报道,Groq设计的第一款TSP ASIC实现了超过每平方毫米硅片1万亿次操作/秒的计算密度,在900 MHz的标称时钟频率下,这款25×29 mm的14nm芯片运行时表现卓越。在ResNet50图像分类任务上,TSP能够在批次大小为1的情况下达到每秒处理20.4K张图片的速度,相较于现代GPU和其他加速器,性能提升了4倍。
据Groq的测试结果,其LPU运行的大模型生成速度接近每秒500 tokens,碾压ChatGPT-3.5大约40 tokens/秒的速度。极限情况下,Groq的Llama2 7B甚至能实现每秒750 tokens,为GPT-3.5的18倍。
虽说天下武功唯快不破,但只是快,并不能让Groq将英伟达挑于马下。
AI科学家贾扬清近日在社交平台上发文称,因为Groq小得可怜的内存容量(230MB),在运行Llama-2 70b模型时,需要305张Groq卡才足够,而用H100则只需要8张卡。从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。
Groq背后:谷歌TPU团队离职创业
对于创业者来说,想要与巨头竞争,更好的方式是差异化竞争,尽管在颠覆英伟达的实力上还遭受质疑,但Groq也为“挑战英伟达的算力霸权”提供了思路。
Groq作为一家在加州山景城创立8年的初创公司,很早之前便是芯片市场备受瞩目的存在。
Groq的CEO是被称为“TPU之父”的前谷歌员工乔纳森·罗斯。乔纳森·罗斯参与的谷歌TPU项目,曾开发了谷歌的张量处理器。2016年,谷歌将该芯片用于其数据中心使用的定制机器学习芯片。后来,该芯片帮助谷歌的AlphaGo击败了韩国围棋选手李世石。
从那场“人机大战”起,AI闯入更多普通人的世界,全球包括中国也掀起了一轮AI浪潮。
2016年,乔纳森·罗斯从谷歌离职,在加州创办了Groq。值得注意的是,Google TPU项目的十个原始成员中,有八个人也加入了Groq团队。乔纳森·罗斯等人的目标是在Groq复制他在谷歌的成功经验。
来源:Groq官网截图
这支团队实力强劲却非常低调。2017年4月,才有媒体报道称,Groq拿到了风险投资家查玛斯·帕里哈皮迪亚等人投资的的1030万美元的启动资金,Groq才渐渐出现在公众视野。
这支团队也很任性,敢直接放市场“鸽子”。2017年,Groq宣布将在次年,也就是2018年发布第一代AI芯片产品,当时这款芯片号称运算速度将可以达到400 TOPS,每瓦特能进行8万亿次的运算。而当时谷歌最新一代的TPU算力才达到180TOPS,这意味着Groq性能将超谷歌TPU两倍还多。
由于创始团队都出自谷歌TPU团队,当时谷歌也是在约14个月的时间里发布首个TPU,所以对于Groq的flag并没有质疑。
但2018年,Groq并没有拿出自己的芯片产品。
2019年9月,Groq被曝将参展美国计算机历史博物馆举办的AI硬件峰会,人们正期待Groq成为这场峰会的焦点时,Groq却放了鸽子,没有出席。乔纳森·罗斯当时的解释是:他们本打算在AI硬件峰会上做演示,但他们不得不将资源转移给客户,无法进行演示,因此他们决定退出。
好在在创立的前5年中,Groq顺利开发出了第一款人工智能芯片,并将其投入市场,客户遍及数据中心和自动驾驶领域,推进了商业化进程。
来源:Groq官网截图
Groq再次吸引目光,是在2021年4月,彼时,Groq宣布筹集到3亿美元融资,由Tiger Global Management和亿万富翁投资者丹·桑德海姆的D1 Capital领投。该轮融资使Groq的估值超过10亿美元,而当时,Groq的团队才只有100多人。
近年来,资本市场一直在证明新的产品路径比英伟达的GPU更适合于AI,Groq也一直被推为挑战英伟达的主力军之一。对于能否超越并替代英伟达,Groq似乎也有信心,因为一名自称Groq工作人员的用户在互动时表示,要在3年内赶超英伟达。
对于英伟达来说,独特的市场地位,让其一直处在被围攻的地位,不知道这次黄仁勋能扛过来吗?