Source: Slashdot
谷歌在Google I/O大会上介绍了名为Project Astra的“下一代AI助手”,可以“理解手机摄像头看到的内容。据Wired报道,昨天OpenAI发布了一款名为GPT-4o的新AI模型,可以通过语音快速回应提示,并谈论通过智能手机摄像头或计算机屏幕看到的内容。Wired指出,Astra还使用了更人性化的语音和富有情绪的语调,模拟了惊讶甚至调情等情绪。
在回应口头指令时,Astra能够理解设备摄像头看到的对象和场景,并用自然语言进行交流。它识别了计算机音箱,并回答了有关其组件的问题,从办公室窗户外面的视野中识别了伦敦街区,从计算机屏幕上读取并分析了代码,写了一首关于铅笔的打油诗,并回忆起某人放下眼镜的位置。谷歌表示,Project Astra将通过名为Gemini Live的新界面于今年晚些时候推出。
负责公司AI领导工作的Demis Hassabis表示,公司仍在测试几款原型智能眼镜,并尚未决定是否推出其中任何一款。Hassabis认为,赋予AI模型对物理世界的更深刻理解将是AI进一步发展的关键,也将使Project Astra等系统更加稳健。他表示,包括谷歌DeepMind在游戏AI程序上的工作在内的其他AI领域前沿工作可能有助于此。
Hassabis和其他人希望这样的工作对机器人技术可能是革命性的,而谷歌也在该领域进行投资。多模态通用代理助手正处于通往人工通用智能的轨道上,”Hassabis提到了一种希望但基本上没有定义的未来时刻,那时机器可以像人类头脑一样做任何事。这不是AGI或任何东西,但这是一切开始的地方。
希望人工智能对物理世界的理解能够进一步推动AI技术的发展,开创出人类想象不到的新可能。" } ```