YouTube视频成AI训练新宠:OpenAI和Meta策略引关注

YouTube视频成AI训练新宠:OpenAI和Meta策略引关注

随着人工智能技术的飞速发展,数据成为驱动AI模型进步的关键要素。然而,本周早些时候,《华尔街日报》报道指出,AI公司在收集高质量训练数据方面遭遇了前所未有的困难。今日,《纽约时报》进一步披露了AI公司处理这一问题的策略,涉及到了AI版权法的模糊地带。

OpenAI,作为AI领域的领军企业,对训练数据的需求尤为迫切。据报道,为克服数据短缺的难题,OpenAI开发了Whisper音频转录模型,转录了超过100万小时的YouTube视频,用于训练其先进的大型语言模型GPT-4。此外,该公司还从Github获取计算机代码、国际象棋走棋数据库以及Quizlet的作业内容等多元数据资源。

然而,这一做法在法律层面引发了争议。尽管OpenAI认为其使用数据属于合理范围,但《泰晤士报》透露,OpenAI总裁Greg Brockman亲自参与了所使用视频的收集工作,这进一步加剧了版权问题的复杂性。

OpenAI发言人在接受The Verge采访时表示,公司为每个模型策划了独特的数据集,旨在帮助他们更好地了解世界,并保持全球研究竞争力。同时,发言人还提到,公司正在考虑生成自己的合成数据,以缓解对外部数据源的依赖。

另一方面,谷歌也对OpenAI的行为表示了关注。谷歌发言人在一封电子邮件中称,公司看到了有关OpenAI活动的未经证实的报告,并强调其robots.txt文件和服务条款均禁止未经授权的抓取或下载YouTube内容。

YouTube首席执行官Neal Mohan也在最近的采访中公开表示,尽管没有直接证据表明OpenAI使用YouTube视频训练Sora模型,但这种行为违反了YouTube现行的平台服务条款。

与此同时,Meta也面临着数据可用性的限制。据《泰晤士报》报道,Meta的AI团队在讨论追赶OpenAI的过程中,考虑了未经许可使用版权作品的情况。为了扩大数据集,Meta浏览了互联网上的大量英语书籍、散文、诗歌和新闻文章,并考虑采取措施如支付图书许可费用,甚至直接收购大型出版商。

这一系列事件凸显了AI行业在数据收集和使用方面所面临的法律与伦理挑战。随着技术的不断进步,如何在保护版权的同时推动AI模型的发展,成为业界亟待解决的问题。未来,AI公司和相关监管机构需要共同努力,制定更加明确和合理的法规,以促进AI技术的健康、可持续发展。

原创文章,作者:小丸子,如若转载,请注明出处:https://www.kejixun.com/article/643935.html

(0)
小丸子的头像小丸子认证作者

相关推荐

发表回复

登录后才能评论