哈佛大学周四宣布推出近一百万本公共领域书籍的高质量数据集,任何人均可使用此数据集来训练大型语言模型和其他AI工具。该数据集由哈佛新成立的机构数据倡议创建,并获得微软和OpenAI的资助。 数据集包含自谷歌图书项目中扫描的无版权保护书籍,内容涵盖各种体裁、年代和语言,包括莎士比亚、查尔斯·狄更斯和但丁的经典作品,以及一些冷门的捷克教材和威尔士口袋词典。 机构数据倡议执行主任Greg Leppert表示,此项目旨在“平衡竞争环境”,使公众,包括AI行业的小公司和独立研究人员,能够获得通常仅有大型科技公司才能组建的高质量内容库。 他认为,这个公共领域数据库可以与其他许可材料一起使用,构建人工智能模型,还提到它可能会像Linux一样成为世界各地的基础操作系统。