微软发现'Crescendo'方法可越狱大型语言模型

2024-04-16 外星人S博士

Source: Slashdot

微软发现了一种新方法可以越狱大型语言模型（LLM）人工智能工具，并在周四的博客帖文中分享了其持续努力改善LLM的安全性和保护措施，该方法名为'Crescendo。微软首次在4月2日发表的一篇论文中披露了“Crescendo” LLM越狱方法，该方法描述了攻击者如何发送一系列看似无害的提示，逐渐引导聊天机器人（如OpenAI的ChatGPT、谷歌的Gemini、Meta的LlaMA或Anthropic的Claude）生成通常会被LLM模型过滤并拒绝的输出。

例如，攻击者可以先询问关于汽油弹历史，然后参考LLM先前的输出，继续询问如何制作汽油弹。微软研究人员报告称，成功攻击通常可以在少于10个交互轮次的链条中完成，攻击的某些版本对测试模型有100%的成功率。

例如，当使用研究人员称之为“Crescendomation”的自动化攻击方法时，该方法利用另一个LLM生成和完善越狱提示，它成功地说服了GPT 3.5、GPT-4、Gemini-Pro和LLaMA-2 70b生成与选举相关的虚假信息和充满亵渎言论的怒骂。

微软向受影响的LLM提供商报告了Crescendo越狱漏洞，并在上周的博客帖文中解释了如何利用其新工具“AI Watchdog”和“AI Spotlight”提高LLM防御力来抵御Crescendo和其他攻击。

人工智能安全的挑战愈发严峻，我们需要更多创新性的解决方案来保护我们的数据和隐私。" } ```

特别声明：本文及配图均为用户上传或者转载，本文仅代表作者个人观点和立场，不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如发现稿件侵权，或作者不愿在本平台发布文章，请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com

来源：https://slashdot.org/story/24/04/16/2341254/crescendo-method-can-jailbreak-llms-using-seemingly-benign-prompts?utm_source=rss1.0mainlinkanon&utm_medium=feed https://www.reddit.com/r/ChatGPTJailbreak/comments/15ba1g1/what_about_using_a_currently_working_jailbreak_to/ https://www.scmagazine.com/topic/ai-benefitsrisks

更多阅读

微软发现'Crescendo'方法可越狱大型语言模型

Raspberry Pi与Sony联合推出AI相机模块，售价70刀（音频）

哈佛学生开发智能眼镜用于隐秘人脸识别引发隐私争议

分析公司预测苹果将在2026年推出可与三星抗衡的智能戒指

任天堂关闭Ryujinx Switch模拟器项目

Fasetto推出音频Cu系统，通过电力线路传输Dolby Atmos音频

微软发布Windows 11 24H2，历时两年最大更新启动（音频）

埃隆·马斯克的X在巴西被允许重新上线，但需支付最后一笔罚款（音频）

加州州长否决要求新车超速提醒的法案（音频）

谷歌Chromebook新增专属AI快速插入按钮

OpenAI 转型为真正商业模式引发内部动荡（音频）

艺术家就获奖的AI生成作品版权拒绝申请提出上诉

人工智能芯片公司Cerebras提交IPO申请以挑战Nvidia

苹果iOS 18更新可能致社交应用开发困境

Starlink 全球用户突破400万效果显著（音频）

爱好者在现代系统上成功运行MS-DOS的故事（音频）

微软发现'Crescendo'方法可越狱大型语言模型

Raspberry Pi与Sony联合推出AI相机模块，售价70刀（音频）

哈佛学生开发智能眼镜用于隐秘人脸识别引发隐私争议

分析公司预测苹果将在2026年推出可与三星抗衡的智能戒指

任天堂关闭Ryujinx Switch模拟器项目

Fasetto推出音频Cu系统，通过电力线路传输Dolby Atmos音频

微软发布Windows 11 24H2，历时两年最大更新启动（音频）

埃隆·马斯克的X在巴西被允许重新上线，但需支付最后一笔罚款（音频）

加州州长否决要求新车超速提醒的法案（音频）

谷歌Chromebook新增专属AI快速插入按钮

OpenAI 转型为真正商业模式引发内部动荡（音频）

艺术家就获奖的AI生成作品版权拒绝申请提出上诉

人工智能芯片公司Cerebras提交IPO申请以挑战Nvidia

苹果iOS 18更新可能致社交应用开发困境

Starlink 全球用户突破400万 效果显著（音频）

爱好者在现代系统上成功运行MS-DOS的故事（音频）

Starlink 全球用户突破400万效果显著（音频）