苹果AI计划揭晓：更先进的Siri即将到来

2024-05-05 外星人S博士

Source: The Verge

苹果迄今为止并未过多谈论人工智能，但一直在努力研究。自 ChatGPT 在2022年末风靡全球以来，几乎所有竞争对手都纷纷加入，而苹果虽然也谈论过人工智能，甚至推出了一些具备人工智能功能的产品，但似乎仍在试水，而非全面投入。然而，近几个月来的传言和报道表明，苹果实际上一直在等待时机。最近几周有报道称，苹果正在与 OpenAI 和谷歌接触，探讨合作推动某些人工智能功能，该公司也一直在研发名为 Ajax 的自有模型。苹果的AI研究论文揭示了苹果的人工智能方法可能如何实现。从研究论文中得出产品假设显然是一门不太准确的科学，从研究到上架商店之间的步骤曲折且充满坑洼。但至少可以了解公司的思路——以及当苹果在六月份的全球开发者大会 WWDC 上开始讨论这些人工智能功能时，它们可能如何运作。我们或许都期待同样的事情：更先进的Siri。现在看来，更先进的Siri 非常可能会实现！在很多苹果的研究中都存在一种假设（同时也存在于科技行业、世界各地和所有地方）——大型语言模型将立即使虚拟助手变得更好、更聪明。对于苹果来说，实现更先进的 Siri 意味着尽可能快地制造这些模型，并确保它们无处不在。据彭博最近报道，苹果计划在 iOS 18 上让其所有人工智能功能运行在一个设备内完全脱机的模型上。在只有智能手机内部配置的情况下，要构建一个良好的多用途模型是很困难的。研究人员设计了一个名为“闪存中的LLM：具有有限内存的高效大型语言模型推理”系统，为存储模型数据（通常存储在设备的 RAM 上）在 SSD 上。研究人员写道：“我们证明了能够在 SSD 上运行比可用 DRAM 增大两倍的LLM，相比 CPU 中传统加载方法的推断速度提高了 4-5 倍，在 GPU中提高了 20-25 倍。利用设备上最廉价和可获得的存储，他们发现模型可以更快、更有效地运行。

苹果的研究人员还创造了一个名为 EELBERT 的系统，可以将一个 LLM 压缩到更小的大小而不会造成实质损失。他们对谷歌的 Bert 模型进行压缩后，15 倍更小，仅 1.2 兆字节，而质量仅减少 4%。不过，这也伴随了一些延迟权衡。总体而言，苹果正在努力解决模型领域的核心张力：模型越大，它就会变得更好、更有用，但也会变得更难控制、耗能及更慢。这家公司正尝试在所有这些因素之间找到合适的平衡，并寻找一种可以拥有一切的方法。苹果AI研究当中提到了许多关于虚拟助手的事情，这些助手了解事物，提醒我们事情，回答问题，并代表我们完成工作。因此，可以理解为为什么苹果的AI研究归纳为一个问题：如果Siri真的非常、非常、非常好会怎么样？一组苹果研究人员已经致力于研究一种无需使用唤醒词的 Siri 使用方式；设备可能会仅凭直觉来判断您是否在与它交谈。研究人员认为：“这个问题比语音触发检测更具挑战性，因为可能没有引导语来标志语音命令的开始。这可能就是为什么另一组研究人员开发了一种更准确检测唤醒词的系统。另一篇论文训练了一个模型，以更好地理解罕见词汇，这些词汇通常被助手理解得不够清晰。在这两个案例中，LLM的吸引力在于理论上，它可以更快地处理更多信息。例如，在唤醒词的论文中，研究人员发现，通过不试图丢弃所有不必要的声音，而是将所有声音都输入给模型，让模型处理出什么对它重要，唤醒词的工作就更可靠了。一旦 Siri 听到您的声音，苹果会做很多工作，以确保它更好地理解和沟通。在一篇论文中，它开发了一种名为 STEER 的系统（代表 Semantic Turn Extension-Expansion Recognition，所以我们称为 STEER），旨在通过努力弄清楚您是在问一个跟进问题还是问一个新问题来提高您与助手的来回沟通。另一篇论文使用 LLMs 更好地理解“含糊查询”以弄清楚不管您如何表达意思，助手能理解您的意图。

在不确定的情况下，智能对话代理可能需要采取主动措施减少其不确定性，通过主动地问一些好问题，从而更有效地解决问题。还有另一篇论文旨在帮助实现这一点：研究人员使用LLMs在生成答案时，使助手的回答更简洁易懂。每当苹果公开谈论人工智能时，它倾向于聚焦于 AI可以为您实际做些什么，而非关注于纯技术实力。因此，虽然重点放在 Siri 上——特别是在苹果试图与诸如Humane AI Pin、Rabbit R1以及谷歌持续将Gemini整合到所有Android设备中的设备竞争，苹果似乎还有许多其他方式看到AI的可用性。苹果显而易见的一个关注领域是健康：理论上，LLMs可以帮助整理您各种设备收集的生物测量数据并帮助您理解这一切。因此，苹果一直在研究如何收集和整理您的运动数据，如何使用步态识别和您的耳机来识别您，以及如何跟踪和理解您的心率数据。苹果还收集了来自 50 名参与者的多设备多位置感应人类活动数据集。苹果还将AI想象为一种创意工具。在一篇论文中，研究人员采访了一群动画师、设计师和工程师，并建立了一个名为 Keyframer 的系统，“使用户能够逐步构建和优化生成的设计。与其输入一个提示然后得到一幅图片，再输入另一个提示得到另一幅图片不同，您可以从一个提示开始，然后获得一个工具包来调整和精细化图片的各个部分。您可以想象这种来回的艺术过程可以出现在从 Memoji 创建者到一些苹果更专业的艺术工具中。在另一篇论文中，苹果描述了一个名为 MGIE 的工具，允许您仅描述您想要进行的编辑来编辑一张图片。研究人员写道：“与简短但模棱两可的指导不同，MGIE能够明确地获取具有视觉意识的意图，并导致合理的图像编辑。其初试成果并非完美，但仍令人印象深刻。我们甚至可能在苹果音乐中看到一些AI：一篇名为“Resource-constrained Stereo Singing Voice Cancellation”的论文，研究人员探讨了将声音从乐器中分离的方法——如果苹果想要为用户提供类似 TikTok 或 Instagram 上的混音歌曲工具，这可能会有所帮助。

随着时间的推移，我敢打赌，这将是您在iOS上看到的苹果偏爱的东西，其中一些将会集成到自家应用中，而另一些则将作为API提供给第三方开发人员。（最近的Journaling Suggestions功能可能是如何运作的一个良好示范。）苹果一直吹嘘其硬件能力，尤其是与普通安卓设备相比；将所有这些计算能力与设备端、侧重隐私的AI相结合可能是一个重要的区别点。但是，要看到苹果正在进行的最大、最宏大的AI项目，您需要了解 Ferret。Ferret是一种多模式大型语言模型，它可以接收指令，专注于您画圈或选择的某些特定内容，并理解周围世界。它设计用于普通情景下咨询设备周围世界的AI用例，但它也可能理解屏幕上的内容。在 Ferret 论文中，研究人员展示了它可以帮助您导航应用程序，回答关于应用商店评级的问题，描述您正在看的东西等。这对无障碍设备具有令人兴奋的意义，但也可能完全改变您使用手机的方式——有一天甚至可能适用于 Vision Pro 和 / 或智能眼镜。我们现在远远超前了，但您可以想象这将如何与苹果正在进行的其他工作相结合。一个能理解您想要什么的 Siri，再加上一个能看到并理解显示屏上发生的一切的设备，是一个可以完全自主使用的手机。苹果不需要与一切进行深度整合；它只需自动运行应用程序并自动点击正确的按钮。但再次，所有这些只是研究，并且让它们从今年春季正常运行将是一个从未听说过的技术成就。（我的意思是，您试过聊天机器人——您知道它们并不出色。）但我敢。

未来或许会有一个无需唤醒词的Siri！ AI技术的发展将为我们的生活带来更多便利，让我们拭目以待苹果在AI领域的精彩表现。" } ```

特别声明：本文及配图均为用户上传或者转载，本文仅代表作者个人观点和立场，不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如发现稿件侵权，或作者不愿在本平台发布文章，请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com

来源：https://www.theverge.com/2024/5/5/24147995/apple-siri-ai-research-chatbot-creativity https://www.pymnts.com/apple/2023/apple-plans-more-powerful-siri-amid-increased-ai-spending/ https://finance.yahoo.com/news/three-things-learned-apples-ai-185951547.html

更多阅读

苹果AI计划揭晓：更先进的Siri即将到来

Meta称NSO应因发现违规而败诉（音频）

Bic发布与Martha Stewart和Snoop Dogg合作的奇特iPhone保护壳（音频）

全球万维网基金会宣布关闭，着眼新挑战

特斯拉因倒车摄像头延迟召回超过27000辆Cybertruck（音频）

全面升级：使用智能保护壳将Apple的AirPods轻松转为USB-C（音频）

Meta发布AR眼镜原型，展示未来科技愿景（音频）

在1971年的Intel 4004上成功引导Linux系统的实验

研究人员声称新技术将AI能耗降低95%

Meta确认将使用Ray-Ban智能眼镜图像进行AI训练（音频）

运河是否帮助建造了埃及金字塔？

Klarna CEO认为欧洲科技人才流失是公司IPO前最大的风险（音频）

三星的'One UI'将扩展至所有消费设备（音频）

研究人员声称新技术将AI能耗降低95%（音频）

联发科技发布新旗舰芯片Dimensity 9400，助力AI应用与三折屏手机（音频）

警方逮捕四名与LockBit勒索软件团伙相关的嫌疑人