Source: Slashdot
哈佛大学周四宣布推出近一百万本公共领域书籍的高质量数据集,任何人均可使用此数据集来训练大型语言模型和其他AI工具。该数据集由哈佛新成立的机构数据倡议创建,并获得微软和OpenAI的资助。
数据集包含自谷歌图书项目中扫描的无版权保护书籍,内容涵盖各种体裁、年代和语言,包括莎士比亚、查尔斯·狄更斯和但丁的经典作品,以及一些冷门的捷克教材和威尔士口袋词典。
机构数据倡议执行主任Greg Leppert表示,此项目旨在“平衡竞争环境”,使公众,包括AI行业的小公司和独立研究人员,能够获得通常仅有大型科技公司才能组建的高质量内容库。
他认为,这个公共领域数据库可以与其他许可材料一起使用,构建人工智能模型,还提到它可能会像Linux一样成为世界各地的基础操作系统。
在AI迅猛发展的今天,开放共享的精神能否真正助力每一个创造者,实现数字平等?
特别声明:本文及配图均为用户上传或者转载,本文仅代表作者个人观点和立场,不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实,
对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺,请读者仅作参考,
并请自行核实相关内容。如发现稿件侵权,或作者不愿在本平台发布文章,请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios)
posted above belong to the User who shared or the third-party website which the User shared from.
If you found your copyright have been infringed, please send a DMCA takedown notice to
info@microheadline.com
来源:https://slashdot.org/story/24/12/12/0734228/harvard-is-releasing-a-massive-free-ai-training-dataset-funded-by-openai-and-microsoft?utm_source=rss1.0mainlinkanon&utm_medium=feed
https://www.facebook.com/100059568037979/posts/877766184218975/
https://cyber.harvard.edu/topics/ethics-and-governance-ai