• 微头条

    让本地生活更美好

打开APP

Google定制芯片使用于训练苹果AI模型及自身聊天机器人Gemini

2024-08-23 科技汇总
Google定制芯片使用于训练苹果AI模型及自身聊天机器人Gemini

Source: CNBC

在加州山景城谷歌总部的一个庞大实验室内,数百台服务器机架正工作,执行远非运行世界主导搜索引擎或执行Google云数百万客户工作负载那般普遍的任务。相反,它们正在对谷歌自家微处理器进行测试,名为张量处理单元(TPU)。最初用于内部工作负载的Google TPU自2018年起已提供给云客户使用。七月,苹果透露,他们使用TPU训练支撑Apple Intelligence的AI模型。谷歌还依赖TPU来训练和运行其Gemini聊天机器人。目前大部分人都认为所有AI、大型语言模型都是在Nvidia上进行训练的,当然Nvidia拥有训练量的大头。但Google在这里走上了自己的道路,”Futurum Group首席执行官丹尼尔·纽曼说。他自2015年开始报道谷歌定制云芯片。谷歌是第一家推出定制AI芯片的云服务提供商。三年后,亚马逊云服务宣布推出首个云AI芯片Inferentia。微软的第一个定制AI芯片Maia直到2023年底才宣布。然而,在AI芯片领域率先并没有转化为生成式AI总体竞争的第一地位。谷歌因产品发布失败而受到批评,Gemini比OpenAI的ChatGPT晚了一年上市。然而,Google云部分因AI产品的推出而势头强劲。谷歌母公司Alphabet报告称,最近一个季度云收入增长29%,首次突破每季度100亿美元。纽曼表示:“AI云时代彻底改变了企业的面貌,这种硅分化,TPU本身,可能是谷歌从第三云提供商真正被看齐,甚至在某些视角中被认为领先于其他两家云的AI实力的最大原因之一。七月,CNBC首次获得了对谷歌芯片实验室的录像参观,并与定制云芯片主管阿明·瓦达特进行了对话。他在2014年谷歌首次设想制作芯片时已在谷歌工作。一切始于一个简单而有力的思维实验,”瓦达特说。公司的许多负责人提出了一个问题:如果Google用户每天只用语音与Google互动30秒,会发生什么?我们需要多少计算能力来支持我们的用户?”小组确定,Google需要将数据中心中的计算机数量增加一倍。

因此,他们寻找了更好的解决方案。我们意识到我们可以制造定制硬件,不是通用硬件,而是定制硬件——在这种情况下是张量处理单元——来更有效地支持这个目标。事实上,比原先高效100倍,”瓦达特说。谷歌数据中心仍然依赖通用中央处理单元(CPU)和Nvidia的图形处理单元(GPU)。谷歌的TPU是一种称为应用特定集成电路(ASIC)的不同类型的芯片,专为特定目的定制。TPU专注于AI。谷歌还制造另一种专注于视频的ASIC,称为视频编码单元。谷歌还为自己的设备制造定制芯片,类似于苹果的定制硅策略。张量G4为谷歌新的AI启用Pixel 9提供动力,其新A1芯片为Pixel Buds Pro 2提供动力。然而,TPU是谷歌脱颖而出的地方。2015年推出时是首个其类产品。根据Futurum Group的数据,谷歌TPU仍占据定制云AI加速器市场份额的58%。谷歌基于代数术语“张量”创造了这一术语,指的是快速进行高级AI应用的大规模矩阵乘法。通过2018年第二代TPU的推出,谷歌将焦点从推理扩展到训练,并将其提供给云客户运行工作负载,与市场领先的Nvidia GPU并驾齐驱。如果你正在使用GPU,它们更可编程,更灵活。但它们供不应求,”伯恩斯坦研究所负责半导体研究的高级分析师斯泰西·拉斯贡说。AI繁荣使Nvidia的股价飙升,将该芯片制造商推向了2023年6月3万亿美元的市值,超过Alphabet,同时与苹果和微软争夺全球最有价值上市公司的位置。坦率地说,这些专用AI加速器既不具备Nvidia平台的灵活性也不如其强大,市场也在等待看到:任何人都能在这个领域有所作为吗?”纽曼说。现在我们知道苹果正在使用谷歌的TPU来训练其AI模型,真正的考验将在明年这些完整的AI功能在iPhone和Mac上推出时出现。

开发替代Nvidia的AI引擎并非易事。谷歌的第六代TPU,名为特里利姆,预计将于今年晚些时候推出。这篇文章的成本很高。你需要大量的规模,”拉斯贡说。因此,并非所有人都能这么做。但这些超大规模运算公司有规模、资金和资源继续走下去。这个过程如此复杂昂贵,以至于即使超大规模运算公司也无法独自完成。自第一个TPU以来,谷歌与Broadcom等芯片开发商合作,后者还帮助美塔设计其AI芯片。Broadcom表示,他们已经花费超过30亿美元来实现这些合作。AI芯片——非常复杂。上面有很多东西。所以谷歌提供计算能力,”拉斯贡说。Broadcom负责周边设备。他们做I/O和SerDes,周围计算的所有不同部分。他们还做封装。然后最终设计被送往刻蚀厂(fab)进行制造,主要由全球最大的芯片制造商台湾积体电路制造公司拥有,他们制造了全球92%最先进的半导体。当被问及谷歌是否有任何应对中美间地缘政治局势恶化的安全措施时,瓦达特表示:“这肯定是我们备考和思考的事情,我们也希望实际上不会需要启动这方面的措施。为了防范这些风险,美国白宫正在向在美国建厂的公司提供520亿美元的CHIPS法案资金,其中迄今最大的部分规模将提供给英特尔、台积电和三星。除了风险外,谷歌刚刚迈出了另一个重要的芯片举措,宣布其首个通用CPU Axion将于年底前推出。

现在我们有能力引入 puzzle 最后的一块 —— CPU,”瓦达特说。因此我们的众多内部服务,不管是BigQuery、Spanner,YouTube广告等,都在Axion上运行。谷歌在CPU领域有所迟缓。亚马逊于2018年发布了其Graviton处理器。阿里巴巴于2021年推出了其服务器芯片。微软于11月宣布了其CPU。当被问及为什么谷歌没有更早推出CPU时,瓦达特表示:“我们的重点是在哪里能为我们的客户提供最大价值,那时开始于TPU、我们的视频编码单元、我们的网络。我们真的认为现在是时候了。所有这些非芯片制造商的处理器,包括谷歌的处理器,都得益于Arm芯片架构——一种更具可定制性、节能的替代品,正在超越英特尔和AMD传统x86模型。节能至关重要,因为到2027年,AI服务器据预测将消耗与阿根廷等国家每年相当的电力。谷歌最新的环境报告显示,由于为AI供电的数据中心规模的增长,温室气体排放从2019年增加了近50%。瓦达特表示:“没有这些芯片的效率,数字可能会产生完全不同的结果。我们致力于在24/7的情况下驱动碳排放,将数字推向零。冷却训练和运行AI服务器所需的服务器需要大量的水。这就是为什么谷歌第三代TPU开始使用亲芯片冷却,这种方法使用的水要少得多。这也是Nvidia如何冷却最新的Blackwell GPUs的方法。尽管面临从地缘政治到电力和水资源等各种挑战,谷歌仍致力于其生成式AI工具和自制芯片。我从未见过像这样的事情,而且目前还没有任何迹象表明它会放缓,”瓦达特说。硬件将在其中扮演一个非常重要的角色。

巨头们在AI芯片领域展开激烈竞争,硅分化令谷歌超越,AI云时代崛起,谷歌的计算力量或将影响整个AI领域。" } ```

特别声明:本文及配图均为用户上传或者转载,本文仅代表作者个人观点和立场,不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实, 对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺,请读者仅作参考, 并请自行核实相关内容。如发现稿件侵权,或作者不愿在本平台发布文章,请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com
来源:https://www.cnbc.com/2024/08/23/how-google-makes-custom-cloud-chips-that-power-apple-ai-and-gemini.html https://www.macrumors.com/guide/apple-gpt/ https://www.cnbc.com/2024/07/12/biggest-risks-of-gen-ai-in-your-private-life-chatgpt-gemini-copilot.html
更多阅读