Source: The Verge
Google Books,作为学术界不可或缺的索引工具,开始对低质量作品进行索引,可能影响其语言追踪工具Ngram的信息提供方式。根据404Media报道,Google Books包括一些AI可能写作的书籍。报道披露了通过搜索“as of my last knowledge update”这个ChatGPT等聊天机器人常用短语查找Google Books。
结果显示,搜索结果的前几页大多是关于AI的著作,但也有一些看起来像是机器人写作的作品。404Media称发现的书籍,如Tristin McIver的《Bears, Bulls, and Wolves: Stock Trading for the Twenty-Year-Old》,看起来像是从维基百科中获取有关金融事件的信息并包含了“as of my last knowledge update”这个句子。其他关于Twitter等主题的书籍仍然包含了2021年的信息,而有些AI模型最后接受训练数据是在2021年。
Google Books提供大部分支持其Ngram查看器的数据,Ngram作为一项追踪语言演变方式的研究工具,从书面作品获取信息展示语言如何演变。Google Books扫描和索引可以追溯到1500年代的书面作品,而Ngram最后更新的引用数据是在2019年。
虽然Ngram并非完美,但许多语言学家和其他学者都会使用这个工具进行研究。Google告诉404Media,最近的Google Books作品不会出现在Ngram的结果中,但这些作品可能会在未来的数据更新中出现。
探讨AI生成作品在Google Books中被索引的现象,引发对科技发展对文学价值和数据可信性的思考。