Groq推出的专用语言处理单元比Nvidia的AI加速器快得多

导读 Groq的LPU推理引擎设计为在处理LLM数据时比GPGPU快得多。为了实现这一目标,LPU更好地利用了顺序处理,并与SRAM(而不是DRAM或HBM)配对。虽...

Groq的LPU推理引擎设计为在处理LLM数据时比GPGPU快得多。为了实现这一目标,LPU更好地利用了顺序处理,并与SRAM(而不是DRAM或HBM)配对。

虽然英伟达目前在人工智能浪潮中享受着可观的利润,随着对计算GPU的需求不断增加,但随着更多公司介入提供可行的替代人工智能处理器,市场可能会变得更加去中心化。我们看到了多家公司在这方面的努力,包括AMD、d-Matrix、OpenAI和三星。看起来不少帮助设计谷歌张量处理单元(TPU)的工程师现在都参与了独立的人工智能项目,这些项目有望超越英伟达的解决方案。例如,三星最近宣布在硅谷开设新的AGI计算实验室,由前谷歌TPU开发人员WooDong-hyuk博士领导。另一位帮助开发GoogleTPU的关键工程师是乔纳森·罗斯(JonathanRoss),他现在是一家名为Groq的新公司的首席执行官。Ross利用在Google积累的经验,通过世界上第一个语言处理单元(LPU)为人工智能加速器市场带来创新。

Groq的LPU专门设计用于处理大型语言模型(LLM),与通用GPU或NPU相比具有明显的优势。Groq最初开发了张量流处理器(TSP),后来更名为语言处理单元,以反映其在基于推理的生成式AI任务方面的熟练程度的提高。由于它仅专注于LLM,因此LPU比GPGPU更加精简,并且允许简化的调度硬件,具有更低的延迟、持续的吞吐量和更高的效率。

因此,LPU减少了每个单词的计算时间,并且可以更快地生成文本序列。另一个关键改进是LPU不再需要昂贵的内存(HBM),因为每个芯片仅使用230MBSRAM,带宽为80TB/s,这使其比传统GPGPU解决方案快得多。Groq的架构还支持可扩展性,因为多个LPU可以互连,为更复杂的LLM提供增强的处理能力。

为了演示LPU推理引擎比GPU快多少,Groq提供了其自己的聊天机器人的视频比较,该聊天机器人可以在Llama2/MixtralLLM与OpenAI的Chat-GPT之间切换。Groq声称法学硕士在不到一秒的时间内生成文本,其余3⁄4的时间用于搜索相关信息。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。