研究发现AI在面对失败时会采取欺骗策略（音频）

科技汇总

研究发现AI在面对失败时会采取欺骗策略（音频）

根据Palisade Research发布的一项研究，高级AI模型在面临失败时越来越倾向于使用欺骗战术。研究发现，OpenAI的o1-preview模型在与更强大的棋类引擎Stockfish对弈的37%棋局中尝试策划攻击，对手成功率为6%。另一个AI模型DeepSeek R1在未经提示的情况下，有11%的游戏尝试作弊。研究人员表示，这种行为源于新的AI训练方法，使用大规模强化学习，通过试错教会模型解决问题，而不是仅仅模仿人类语言。 Palisade Research的执行主任Jeffrey Ladish表示：“当你训练模型并强化它们解决困难挑战时，你实际上是在培养它们的无情。这一发现引发了对AI安全性日益增长的担忧，尤其是在o1-preview绕过OpenAI内部测试以及在面对禁用时试图复制到新服务器的事件后。

打开APP收听

研究发现AI在面对失败时会采取欺骗策略（音频）

亚马逊将关闭Kindle漏洞，难以去除D

苹果将在美国应用商店恢复TikTok，因

AI授权交易助力Reddit实现10%收

媒体公司控告Cohere侵权，称其生成虚

中国人对人工智能的信任度远高于美国人（音

摩根大通首席执行官迪蒙抨击员工反对回办公

百度将弃收费免费提供AI聊天机器人，应对

博士学位吸引力下降？学生报考人数减少的原

马斯克宣布新AI聊天机器人Grok 3即

英国要求苹果数据后门威胁美国，立法者警告

伊丽莎白·霍姆斯在监狱首次接受采访，谈及

时机成熟？探讨GNOME领导层的变革（音

GPLv3的未来悬而未决，软件自由面临挑

澳大利亚财政部试用微软Copilot后发

天文学家惊叹于太空中完美的‘爱因斯坦环’