Source: The Verge
微软的产品负责人莎拉·伯德在接受《The Verge》采访时表示,她的团队设计了几项新的安全功能,可供Azure客户使用,不需要聘请一组红队来测试他们建立的AI服务。微软表示,这些由LLM驱动的工具可以检测潜在漏洞,监控“可能合理但没有证据支持”的幻觉,并实时阻止恶意提示,适用于在平台上托管任何模型的Azure AI客户。现在,在Azure AI的预览版中可用的三个功能包括:提示屏蔽,用于阻止来自外部文档的提示注入或恶意提示,导致模型违背其训练;基础检测,用于发现和阻止幻觉;安全评估,用于评估模型的漏洞,另外还会很快推出两个功能,用于将模型引导到安全输出和跟踪提示以标记潜在问题用户。无论用户是输入提示还是模型正在处理第三方数据,监控系统都会评估其是否会触发任何被禁止的词汇或隐藏提示,然后再决定将其发送到模型以作回答。
此外,回答模型的系统会查看模型是否产生了不在文档或提示中的信息。针对谷歌Gemini图像,用于减少偏见的滤镜产生了意想不到的效果,这是微软表示其Azure AI工具将实现更自定义控制的领域。伯德承认,人们担心微软和其他公司可能在决定什么对于AI模型来说是合适或不合适,因此她的团队为Azure客户添加了一个方式来切换模型看到和阻止的仇恨言论或暴力内容的筛选。
未来,Azure用户还可以得到一份试图触发不安全输出的用户报告。伯德表示,这使系统管理员可以确定哪些用户是自己团队的红队成员,哪些可能是有更恶意意图的人。伯德表示,安全功能立即添加到GPT-4和其他流行模型,如Llama 2中。
但由于Azure的模型库包含许多AI模型,使用较小、不常使用的开源系统的用户可能需要手动将安全功能指向这些模型。微软一直在利用AI来增强其软件的安全性,尤其是在越来越多的客户对使用Azure访问AI模型感兴趣的情况下。该公司还努力扩大其提供的强大AI模型数量,最近与法国AI公司Mistral达成独家协议,在Azure上提供Mistral Large模型。
AI技术发展的同时,如何确保其安全性与公平性,是我们需要共同思考的重要问题。