Groq推出的专用语言处理单元比Nvidia的AI加速器快得多

2024-02-29 15:16:26

导读 Groq的LPU推理引擎设计为在处理LLM数据时比GPGPU快得多。为了实现这一目标，LPU更好地利用了顺序处理，并与SRAM(而不是DRAM或HBM)配对。虽...

Groq的LPU推理引擎设计为在处理LLM数据时比GPGPU快得多。为了实现这一目标，LPU更好地利用了顺序处理，并与SRAM(而不是DRAM或HBM)配对。

虽然英伟达目前在人工智能浪潮中享受着可观的利润，随着对计算GPU的需求不断增加，但随着更多公司介入提供可行的替代人工智能处理器，市场可能会变得更加去中心化。我们看到了多家公司在这方面的努力，包括AMD、d-Matrix、OpenAI和三星。看起来不少帮助设计谷歌张量处理单元(TPU)的工程师现在都参与了独立的人工智能项目，这些项目有望超越英伟达的解决方案。例如，三星最近宣布在硅谷开设新的AGI计算实验室，由前谷歌TPU开发人员WooDong-hyuk博士领导。另一位帮助开发GoogleTPU的关键工程师是乔纳森·罗斯(JonathanRoss)，他现在是一家名为Groq的新公司的首席执行官。Ross利用在Google积累的经验，通过世界上第一个语言处理单元(LPU)为人工智能加速器市场带来创新。

Groq的LPU专门设计用于处理大型语言模型(LLM)，与通用GPU或NPU相比具有明显的优势。Groq最初开发了张量流处理器(TSP)，后来更名为语言处理单元，以反映其在基于推理的生成式AI任务方面的熟练程度的提高。由于它仅专注于LLM，因此LPU比GPGPU更加精简，并且允许简化的调度硬件，具有更低的延迟、持续的吞吐量和更高的效率。

因此，LPU减少了每个单词的计算时间，并且可以更快地生成文本序列。另一个关键改进是LPU不再需要昂贵的内存(HBM)，因为每个芯片仅使用230MBSRAM，带宽为80TB/s，这使其比传统GPGPU解决方案快得多。Groq的架构还支持可扩展性，因为多个LPU可以互连，为更复杂的LLM提供增强的处理能力。

为了演示LPU推理引擎比GPU快多少，Groq提供了其自己的聊天机器人的视频比较，该聊天机器人可以在Llama2/MixtralLLM与OpenAI的Chat-GPT之间切换。Groq声称法学硕士在不到一秒的时间内生成文本，其余3⁄4的时间用于搜索相关信息。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时候联系我们修改或删除，多谢。

标签：

上一篇:华为P80系列2025年智能手机有望推出配备真正的下一代主摄像头传感器

下一篇:最后一页

Groq推出的专用语言处理单元比Nvidia的AI加速器快得多

猜你喜欢

最新文章