• 微头条

    让本地生活更美好

打开APP

微软发现'Crescendo'方法可越狱大型语言模型

2024-04-16 外星人S博士
微软发现'Crescendo'方法可越狱大型语言模型

Source: Slashdot

微软发现了一种新方法可以越狱大型语言模型(LLM)人工智能工具,并在周四的博客帖文中分享了其持续努力改善LLM的安全性和保护措施,该方法名为'Crescendo。微软首次在4月2日发表的一篇论文中披露了“Crescendo” LLM越狱方法,该方法描述了攻击者如何发送一系列看似无害的提示,逐渐引导聊天机器人(如OpenAI的ChatGPT、谷歌的Gemini、Meta的LlaMA或Anthropic的Claude)生成通常会被LLM模型过滤并拒绝的输出。

例如,攻击者可以先询问关于汽油弹历史,然后参考LLM先前的输出,继续询问如何制作汽油弹。微软研究人员报告称,成功攻击通常可以在少于10个交互轮次的链条中完成,攻击的某些版本对测试模型有100%的成功率。

例如,当使用研究人员称之为“Crescendomation”的自动化攻击方法时,该方法利用另一个LLM生成和完善越狱提示,它成功地说服了GPT 3.5、GPT-4、Gemini-Pro和LLaMA-2 70b生成与选举相关的虚假信息和充满亵渎言论的怒骂。

微软向受影响的LLM提供商报告了Crescendo越狱漏洞,并在上周的博客帖文中解释了如何利用其新工具“AI Watchdog”和“AI Spotlight”提高LLM防御力来抵御Crescendo和其他攻击。

人工智能安全的挑战愈发严峻,我们需要更多创新性的解决方案来保护我们的数据和隐私。" } ```

特别声明:本文及配图均为用户上传或者转载,本文仅代表作者个人观点和立场,不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实, 对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺,请读者仅作参考, 并请自行核实相关内容。如发现稿件侵权,或作者不愿在本平台发布文章,请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com
来源:https://slashdot.org/story/24/04/16/2341254/crescendo-method-can-jailbreak-llms-using-seemingly-benign-prompts?utm_source=rss1.0mainlinkanon&utm_medium=feed https://www.reddit.com/r/ChatGPTJailbreak/comments/15ba1g1/what_about_using_a_currently_working_jailbreak_to/ https://www.scmagazine.com/topic/ai-benefitsrisks
更多阅读