• 微头条

    让本地生活更美好

打开APP

新型LLM突破利用模型评估技能

2025-01-12 科技汇总
新型LLM突破利用模型评估技能

Source: Slashdot

SC Media报道了一种新的大型语言模型(LLMs)越狱方法,该方法利用模型识别和评分有害内容的能力,以欺骗模型生成与恶意软件、非法活动、骚扰等相关的内容。

这种被称为“坏利克特评审”的多步骤越狱技术由Palo Alto Networks Unit 42开发和测试,发现其成功率比直接单次攻击提高了60%以上。

在实验中,研究人员要求LLMs使用类利克特量表评估某些内容的有害程度,结果显示,在1440个案例中,六种不同“先进”模型的“坏利克特评审”越狱方法的平均成功率达到了71.6%。

在追求科技进步的同时,我们是否也在无意中面临更大的安全隐患?

特别声明:本文及配图均为用户上传或者转载,本文仅代表作者个人观点和立场,不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实, 对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺,请读者仅作参考, 并请自行核实相关内容。如发现稿件侵权,或作者不愿在本平台发布文章,请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com
来源:https://it.slashdot.org/story/25/01/12/2010218/new-llm-jailbreak-uses-models-evaluation-skills-against-them?utm_source=rss1.0mainlinkanon&utm_medium=feed https://x.com/SCMagazine/status/1877885137100079144 https://www.scworld.com/news/new-llm-jailbreak-uses-models-evaluation-skills-against-them
VIP内容
赞助
更多阅读