OpenAI内部倡议利用更多AI来阻止AI失控

2023-12-17 外星人S博士

Source: Slashdot

MIT Technology Review报道，OpenAI“宣布了其超对齐小组（superalignment team）的首批研究结果，该小组是公司的内部倡议，旨在防止一种超级智能--一种可以比人类更聪明的未来计算机失控。与公司的许多公告不同，这次公告并没有宣布任何重大突破。在一篇低调的研究论文中，该团队描述了一种让一种较弱但规模较大的语言模型监督一种更强大的语言模型的技术，并建议这可能是关于如何让人类监督超智能机器的一小步... 许多研究人员认为，机器是否会与人类智能相匹配，更不用说超过人类智能。OpenAI的团队则认为机器最终会变得更强大。超对齐小组的研究员Leopold Aschenbrenner表示：“过去几年来，人工智能的进展非常迅猛。

我们一直在打破各种记录，并且这种进展还在不断继续。对于Aschenbrenner和公司其他人来说，具备类似人类能力的模型只是指日可待。但事情并不会止步于此，”他说道，“我们将会拥有超级智能的模型，模型将比我们聪明得多。这带来了一些全新的技术挑战。今年7月，Sutskever和OpenAI科学家Jan Leike共同成立了超对齐小组以应对这些挑战。

我是出于自身利益而这么做的，”Sutskever在9月接受MIT Technology Review采访时说道。很显然，任何人开发的超级智能都不应该失控。显然....” 超对齐小组的研究不是探讨人类如何监督超级智能机器，而是讨论五年前OpenAI发布的模型GPT-2如何监督OpenAI最新、也是最强大的模型GPT-4。小组成员Collin Burns表示：“如果你可以做到这一点，那可能是使用类似技术让人类监督超级智能模型的证据。

研究的结果各有千秋。团队测量了GPT-2对GPT-4的训练结果与GPT-4正确答案训练之间的表现差距。他们发现，由GPT-2训练的GPT-4在语言任务上的表现比GPT-2要好20%至70%，但在棋局题中表现较差...他们得出结论认为这种方法有潜力，但需要进一步研究... 与这一研究更新同时，该公司宣布设立了一个新的1000万刀的基金，用于资助从事超对齐研究的人员。他们将向大学实验室、非营利组织和独立研究人员提供高达200万刀的拨款以及为研究生提供为期一年的15万刀的奖学金。

当人工智能变得超越人类智能时，如何避免AI失去控制是一个重要的技术挑战，也是我们需要认真思考的问题

特别声明：本文及配图均为用户上传或者转载，本文仅代表作者个人观点和立场，不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如发现稿件侵权，或作者不愿在本平台发布文章，请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com

来源：https://slashdot.org/story/23/12/17/1950238/openais-in-house-initiative-explores-stopping-an-ai-from-going-rogue---with-more-ai?utm_source=rss1.0mainlinkanon&utm_medium=feed https://openai.com/blog/introducing-superalignment https://www.technologyreview.com/2023/12/15/1085460/the-download-beyond-crispr-and-openais-superalignment-findings/

更多阅读

OpenAI内部倡议利用更多AI来阻止AI失控

谷歌声称其突破性的量子芯片无法破解现代加密技术

英特尔Arc B580显卡热销，终于迎来突破（音频）

电动飞机初创公司Lilium停止运营，1000名员工被裁员

欧盟对TikTok展开选举干预调查

研究发现强制回办公室政策导致公司失去最佳人才（音频）

Threads开始测试定时发布功能，力求加强用户控制

西班牙推出打击网络假新闻的新法案（音频）

西班牙推出打击网络假新闻的新法案

欧盟对TikTok展开选举干预调查（音频）

SpaceX申请将Starbase纳入德克萨斯州官方城市（音频）

欧盟签署协议发展IRIS2卫星星座以对抗Starlink（音频）

魔法世界新篇章：首次揭晓《巫师4》游戏资讯

美国电信泄密是否不可避免：警示后门安全无法保障？

Waymo机器出租车将于2025年登陆东京

英特尔高管称制造业务分拆成可能选择