• 微头条

    让本地生活更美好

打开APP
科技汇总
新型LLM突破利用模型评估技能(音频)

SC Media报道了一种新的大型语言模型(LLMs)越狱方法,该方法利用模型识别和评分有害内容的能力,以欺骗模型生成与恶意软件、非法活动、骚扰等相关的内容。 这种被称为“坏利克特评审”的多步骤越狱技术由Palo Alto Networks Unit 42开发和测试,发现其成功率比直接单次攻击提高了60%以上。 在实验中,研究人员要求LLMs使用类利克特量表评估某些内容的有害程度,结果显示,在1440个案例中,六种不同“先进”模型的“坏利克特评审”越狱方法的平均成功率达到了71.6%。

打开APP收听

VIP内容
赞助
更多推荐