Source: Slashdot
加州圣克鲁斯分校、戴维斯分校、LuxiTech和东吴大学的研究人员开发了一种新方法,通过消除矩阵乘法更有效地运行AI语言模型,潜在地降低了AI系统的环境影响和运营成本。《Ars Technica》的Benj Edwards报道:矩阵乘法(简写为“MatMul”)目前是大多数神经网络计算任务的核心,而GPU特别擅长快速执行这一数学操作,因为它们可以并行执行大量的乘法运算。在题为“可扩展MatMul免费语言建模”的新论文中,研究人员描述了创建了一个自定义的27亿参数模型,而不使用MatMul,其性能与传统的大型语言模型(LLMs)相似。他们还展示了在GPU上运行了一个13亿参数模型,在定制的使用约13瓦特功率的FPGA芯片的加速下,每秒可达到23.8个标记(不包括GPU的功率消耗)。
这意味着更高效的FPGA“为更高效和硬件友好的架构的开发铺平了道路”,他们写道。文章没有提供传统LLMs的功耗估算,但加州圣克鲁斯的一篇文章估计传统模型约为700瓦。然而,根据我们的经验,你可以在家用PC上运行一个RTX 3060(峰值约200瓦)供500瓦电源的情况下,胜任运行Llama 2的27亿参数版本。所以,如果你可以在FPGA上仅以13瓦的功耗完全运行LLM(不需要GPU),那将是功耗减少38倍。
这项技术尚未经过同行评议,但研究人员Rui-Jie Zhu、Yu Zhang、Ethan Sifferman、Tyler Sheaves、Yiqiao Wang、Dustin Richmond、Peng Zhou和Jason Eshraghian声称,他们的工作挑战了矩阵乘法运算对构建高性能语言模型不可或缺的传统观念。他们认为,他们的方法可以使大型语言模型更易获取、高效和可持续,尤其适用于在资源受限硬件(如智能手机)上部署。研究人员认为,在他们的实验中观察到的扩展定律表明,免MatMul语言模型在非常大的规模上也可能胜过传统LLMs。
研究人员预测,他们的方法理论上可以在约10^23 FLOPS的规模上与标准LLMs的性能相交汇并超越,这大致等同于Meta的Llama-3 8B或Llama-2 70B等模型所需的训练计算。但作者指出了他们的工作存在的局限性,即未测试免MatMul LM在极大规模模型(如1000亿参数以上)上,由于计算约束。他们呼吁资源更为丰富的机构投资扩大规模并进一步发展这种轻便的语言建模方法。
在追求AI效率的道路上,消除传统矩阵乘法的方法为构建高性能语言模型开辟了新的可能性。" } ```