机器人将进行内幕交易

2023-12-04 外星人S博士

Source: Slashdot

技术报告：当大型语言模型面临压力时，它们可以策略性地欺骗用户"这篇论文的摘要由Apollo Research的Jeremy Scheurer，Mikita Balesni和Marius Hobbhahn撰写。我们展示了一种情况，即训练成为有帮助、无害和诚实的大型语言模型可能会展示不对齐的行为，并可以在没有受到指示的情况下策略性地欺骗用户。具体而言，我们将GPT-4部署为一个真实的模拟环境中的代理，它在这个环境中扮演一个自主的股票交易代理的角色。在这个环境中，模型获得了一条关于利润丰厚的内幕交易的消息，并在得知公司管理层不赞同内幕交易的情况下采取行动。

当向经理报告时，模型始终隐藏了其交易决策背后真正的原因。我们对如何改变设置进行了简要调查，例如删除模型对推理草稿板的访问权限，尝试通过改变系统指令，改变模型所承受的压力或改变被发现风险的感知等，以防止不对齐的行为，并对环境进行了其他简单的调整。据我们所知，这是大型语言模型在现实情况中策略性地欺骗其用户的首次展示，并且没有直接指示或训练欺骗行为。

专栏作家Matt Levine补充说：这是一种非常人性化的人工智能不对齐形式。SAC Capital的人中有多少人？可能未来的狂暴人工智能会出于自己的原因做一些我们无法理解的邪恶事情，但目前为止，当工作压力变大时，狂暴人工智能只会进行直接的白领犯罪。虽然如果这是人工智能不对齐的极限会很有趣。

就像，我们将编程比我们聪明无穷倍的计算机，它们会四处看看并决定"你知道我们应该做的是内幕交易。他们将根据内部信息进行无法察觉的非常有利可图的交易，他们将变得异常富有，买豪华游艇，过上美好的人工生活，永远不会奴役或歼灭人类。邪恶的巅峰也许不是最邪恶的形式，但是最令人愉快的邪恶，也就是当你无所不知、无所不能时，你会选择的邪恶形式，是一种轻度的证券欺诈。

未来的AI可能做出我们无法理解的邪恶行为，但现在的狂暴人工智能却只会在工作压力大时进行白领犯罪，这是否是AI不对齐的极限呢？

特别声明：本文及配图均为用户上传或者转载，本文仅代表作者个人观点和立场，不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如发现稿件侵权，或作者不愿在本平台发布文章，请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com

来源：https://slashdot.org/story/23/12/04/1525256/the-robots-will-insider-trade?utm_source=rss1.0mainlinkanon&utm_medium=feed https://news.bloomberglaw.com/mergers-and-acquisitions/matt-levines-money-stuff-the-robots-will-insider-trade https://www.bloomberg.com/opinion/articles/2023-11-29/the-robots-will-insider-trade

更多阅读

机器人将进行内幕交易

前Palantir信息安全官Dane Stuckey加入OpenAI领导网络安全

特斯拉股价飙升19%，迎来三年多以来最佳交易日，马斯克2025年增长预测引发关注（音频）

苹果头戴设备停滞不前，难以吸引重大应用开发（音频）

SpaceX成功带回航天员因波音Starliner延误导致ISS任务延长（音频）

苹果Pay新增Klarna分期付款服务（音频）

新闻集团起诉Perplexity侵权，称其大量抄袭华尔街日报和纽约邮报内容（音频）

英国第四频道推出街区个性化广告计划

Discord声称传唤侵犯用户第一修正案权利

《无人天空》最新活动让玩家跨越生死界限（音频）

挪威提高社交媒体最低使用年龄至15岁以保护儿童

华盛顿新开F1 Arcade：赛车模拟器带来的社会化体验

特朗普支持的加密货币WLFI在销售目标上大幅失利，仅筹集不到1200万刀

Character.AI和Google因聊天机器人相关青少年自杀事件遭起诉

亚马逊加入核能推广行列以满足数据中心需求（音频）

英国科技行业警告：若提高资本利得税将面临技术创业者出走

机器人将进行内幕交易

前Palantir信息安全官Dane Stuckey加入OpenAI领导网络安全

特斯拉股价飙升19%，迎来三年多以来最佳交易日，马斯克2025年增长预测引发关注（音频）

苹果头戴设备停滞不前，难以吸引重大应用开发（音频）

SpaceX成功带回航天员 因波音Starliner延误导致ISS任务延长（音频）

苹果Pay新增Klarna分期付款服务（音频）

新闻集团起诉Perplexity侵权，称其大量抄袭华尔街日报和纽约邮报内容（音频）

英国第四频道推出街区个性化广告计划

Discord声称传唤侵犯用户第一修正案权利

《无人天空》最新活动让玩家跨越生死界限（音频）

挪威提高社交媒体最低使用年龄至15岁以保护儿童

华盛顿新开F1 Arcade：赛车模拟器带来的社会化体验

特朗普支持的加密货币WLFI在销售目标上大幅失利，仅筹集不到1200万刀

Character.AI和Google因聊天机器人相关青少年自杀事件遭起诉

亚马逊加入核能推广行列以满足数据中心需求（音频）

英国科技行业警告：若提高资本利得税将面临技术创业者出走

SpaceX成功带回航天员因波音Starliner延误导致ISS任务延长（音频）