Source: Slashdot
当OpenAI在2021年用完英语训练数据后发生了什么?他们开发了一个语音识别工具,可以转录YouTube视频的音频,指出技术公司“包括OpenAI、Google和Meta在寻找AI训练数据方面有所疏忽、无视公司政策和辩论屈服于法律。一些OpenAI员工讨论了这一举动可能违反YouTube规定的问题,据了解有知情人说。属于Google的YouTube禁止将视频用于与视频平台“独立”无关的应用。最终,一个OpenAI团队转录了超过100万小时的YouTube视频,据了解。团队中包括OpenAI的总裁Greg Brockman,据两名知情人说,他亲自帮助收集视频。
随后,这些文本被输入名为GPT-4的系统… Meta公司,拥有Facebook和Instagram,去年经理、律师和工程师讨论了购买出版社Simon & Schuster以获取长篇作品,根据时报获得的内部会议录音。他们还就从互联网收集受版权保护的数据进行了讨论,即使需要面对诉讼。他们表示与出版商、艺术家、音乐家和新闻业者协商许可将需要太长时间。与OpenAI类似,据了解Google转录了YouTube视频以获取文本用于其AI模型的五名人士说。
这可能侵犯了视频的版权,这些版权属于其创作者。去年,Google还扩大了其服务条款。据获悉公司隐私团队成员和时报查看的内部消息称,其中一个改变的动机是允许Google能够利用公开可用的谷歌文档、Google地图上的餐厅评论和其他在线材料用于更多的AI产品… 据了解这两家公司的人说,一些Google员工知道OpenAI提取了YouTube视频的数据。但由于Google曾使用YouTube视频的抄本来训练其AI模型,这些人说,他们并未阻止OpenAI。
这一做法可能侵犯了YouTube创作者的版权。因此,如果Google对OpenAI大惊小怪,可能会引起对其自身方法的公众强烈抗议,这些人说。文章补充称,一些科技公司现在甚至正在开发“合成”信息来训练AI。这不是人类创建的有机数据,而是AI模型生成的文本、图像和代码,换句话说,这些系统从它们自己生成的内容学习。
科技发展日新月异,AI数据获取方式牵涉版权问题,引发思考未来数据合规发展路径。" } ```