• 微头条

    让本地生活更美好

打开APP

研究人员通过消除矩阵乘法打破AI常规,提高效率

2024-06-25 科技汇总
研究人员通过消除矩阵乘法打破AI常规,提高效率

Source: Slashdot

加州圣克鲁斯分校、戴维斯分校、LuxiTech和东吴大学的研究人员开发了一种新方法,通过消除矩阵乘法更有效地运行AI语言模型,潜在地降低了AI系统的环境影响和运营成本。《Ars Technica》的Benj Edwards报道:矩阵乘法(简写为“MatMul”)目前是大多数神经网络计算任务的核心,而GPU特别擅长快速执行这一数学操作,因为它们可以并行执行大量的乘法运算。在题为“可扩展MatMul免费语言建模”的新论文中,研究人员描述了创建了一个自定义的27亿参数模型,而不使用MatMul,其性能与传统的大型语言模型(LLMs)相似。他们还展示了在GPU上运行了一个13亿参数模型,在定制的使用约13瓦特功率的FPGA芯片的加速下,每秒可达到23.8个标记(不包括GPU的功率消耗)。

这意味着更高效的FPGA“为更高效和硬件友好的架构的开发铺平了道路”,他们写道。文章没有提供传统LLMs的功耗估算,但加州圣克鲁斯的一篇文章估计传统模型约为700瓦。然而,根据我们的经验,你可以在家用PC上运行一个RTX 3060(峰值约200瓦)供500瓦电源的情况下,胜任运行Llama 2的27亿参数版本。所以,如果你可以在FPGA上仅以13瓦的功耗完全运行LLM(不需要GPU),那将是功耗减少38倍。

这项技术尚未经过同行评议,但研究人员Rui-Jie Zhu、Yu Zhang、Ethan Sifferman、Tyler Sheaves、Yiqiao Wang、Dustin Richmond、Peng Zhou和Jason Eshraghian声称,他们的工作挑战了矩阵乘法运算对构建高性能语言模型不可或缺的传统观念。他们认为,他们的方法可以使大型语言模型更易获取、高效和可持续,尤其适用于在资源受限硬件(如智能手机)上部署。研究人员认为,在他们的实验中观察到的扩展定律表明,免MatMul语言模型在非常大的规模上也可能胜过传统LLMs。

研究人员预测,他们的方法理论上可以在约10^23 FLOPS的规模上与标准LLMs的性能相交汇并超越,这大致等同于Meta的Llama-3 8B或Llama-2 70B等模型所需的训练计算。但作者指出了他们的工作存在的局限性,即未测试免MatMul LM在极大规模模型(如1000亿参数以上)上,由于计算约束。他们呼吁资源更为丰富的机构投资扩大规模并进一步发展这种轻便的语言建模方法。

在追求AI效率的道路上,消除传统矩阵乘法的方法为构建高性能语言模型开辟了新的可能性。" } ```

特别声明:本文及配图均为用户上传或者转载,本文仅代表作者个人观点和立场,不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实, 对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺,请读者仅作参考, 并请自行核实相关内容。如发现稿件侵权,或作者不愿在本平台发布文章,请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com
来源:https://entertainment.slashdot.org/story/24/06/26/001222/researchers-upend-ai-status-quo-by-eliminating-matrix-multiplication-in-llms?utm_source=rss1.0mainlinkanon&utm_medium=feed https://medial.app/search%3Fq%3DGoogle https://medial.app/
更多阅读