
人工智能领域的飞速发展,正逐渐揭开其背后数据使用的复杂面纱。近年来,大型AI模型的构建过程中,数据源的合法性争议愈发激烈,尤其是涉及未授权版权内容的使用。多家科技巨头在构建AI模型时,被指采用大量未经许可的版权材料,这一行为如同在业界投下了一颗震撼弹。
2023年,《纽约时报》首次对OpenAI和Microsoft提起诉讼,正式打开了这场法律战的大门。不久之后,Meta 因其 Llama 模型涉嫌使用盗版书籍而面临集体诉讼,而 Anthropic 也面临有关其 Claude 模型训练数据的指控。几乎所有主要参与者现在都面临着法律挑战:未经授权使用受版权保护的作品作为 AI 训练数据是否被视为“合理使用”?
2025年6月,Anthropic案的一纸判决,为这场版权风波带来了关键转折。法院明确指出,尽管AI模型训练被视为一种创新性的使用方式,但若数据源涉及盗版,则无法逃避侵权的法律责任。据悉,Anthropic可能面临天文数字的赔偿,高达7500亿美元,这一消息无疑在整个AI行业引发了巨大震动。
为了满足数据需求,各大模型公司采取了各种“创造性”的方式来获取数据,有的甚至走在了法律的边缘。例如,OpenAI使用网络爬虫广泛抓取在线内容,甚至在抓取过程中删除版权信息;而在优质文本资源开始减少后,AI公司转向视频、纸质书等其他格式,通过技术手段提取数据。
更为极端的是,一些公司直接采用了盗版书籍作为训练数据。meta在训练Llama模型时,就被曝出使用了来自“影子图书馆”的盗版书籍。相比之下,苹果等谨慎派企业则选择了合法授权和自有数据,以规避潜在的法律风险。
随着法律诉讼的推进,版权所有者的策略逐渐发生转变,关注的焦点不再是AI如何使用数据,而是数据的获取是否合法。法院裁决表明,虽然AI的训练活动可能不构成直接侵权,但盗版资源的使用将受到严厉打击。
如今,AI行业正置身于一场前所未有的版权纷争之中。如何在法律的框架内寻求创新,成为了科技巨头们亟待解决的棘手问题。


发表回复