Source: Slashdot
人工智能领域的学者已经开始使用生成式人工智能服务来帮助他们审查同行的机器学习工作。在一篇发表在arXiv上的新论文中,研究人员分析了提交给领先人工智能会议(包括ICLR 2024、NeurIPS 2023、CoRL 2023和EMNLP 2023)的论文的同行评审。Register报道了研究结果:作者们采用了两组数据,即一组由人类撰写,另一组由机器撰写。他们使用这两组文本来评估评估 - 会议人工智能论文的同行评审中特定形容词的频率。
我们所有的计算仅依赖于每个文件中包含的形容词,”他们解释说。我们发现这种词汇选择比使用其他词性(如副词、动词、名词或所有可能的标记)更稳定。原来,大型语言模型(LLMs)倾向于更频繁地使用“值得赞扬”、“创新”和“全面”等形容词,超出人类作者的使用频率。此类词语使用的统计差异使科学家们能够识别出可能使用LLM辅助的论文评审。
我们的结果表明,提交给这些会议的同行评审文本中有6.5%至16.9%可能已经受到LLMs的实质性修改,即超出拼写检查或轻微的文字更新,”作者们辩称,指出《自然》科学杂志的工作审查未表现出机械化辅助的迹象。有几个因素与更大型化的LLM使用相关。其中一个是时间紧迫:研究人员发现在截止日期前三天内提交的评论中,明显的LLM使用增加了一点但是一贯存在。研究人员强调,他们的目的不是对使用AI写作辅助做出评判,也不是声称他们评估的任何论文完全由AI模型撰写。
但他们辩称,科学界需要更透明地讨论LLMs的使用。他们声称,这种做法可能使那些被审阅工作的人失去了来自专家的多样反馈。更重要的是,人工智能反馈会产生一种向AI模型偏见倾斜而远离有意义见解的同质化效果。
使用人工智能进行写作辅助引发了对透明度与专家多样反馈的思考,科学界需警惕同质化效果与模型偏见。" } ```