2023年12月27日,美国《纽约时报》指控微软及OpenAI未经许可使用该报数百万篇文章训练其聊天机器人,要求销毁所有涉及纽约时报新闻作品的ChatGPT或其他大型语言模型和训练集、并赔偿数十亿美元的法定损害赔偿和实际损失。纽约时报此举被认为是迄今为止规模最大、最具代表性和轰动性的案例。这一事件是对大模型企业合规性的一次考验,未来将产生深远影响。
针对大模型企业的版权诉讼主要聚焦模型训练和输出阶段的侵权行为
国内外大模型企业面临多起版权诉讼。据不完全统计,自2022年 11月至2023年10月,仅美国加州北区法院便已受理10起针对大模型企业的版权诉讼案件1。2023年6月,国内笔笔神作文发布声明表示学而思AI大模型侵权、12月多位创作者起诉小红书AI模型涉嫌使用这些画师的作品训练。
(一)模型训练阶段的版权利用行为成为多数版权纠纷的焦点
自行收集数据 (如通过网络爬虫等技术手段收集数据等 )与经授权获取数据 (如采购第三方数据库等 ) 是获取训练数据的两类典型途径,均存在侵权风险。一是使用网络爬虫抓取的内容受网络爬虫协议条款约束,如果违反robots.txt文件抓取的作品可能构成侵权。二是签订授权协议或者通过著作权集体管理机构合法授权获得的内容,通常难以做到百分百的准确授权,可能会出现超出授权范围的侵权行为、或因授权方数据来源不正当等引发的侵权行为,如在笔神作文与学而思的纠纷中,笔神作文认为学而思通过‘爬虫’技术非法访问、缓存笔神作文APP服务器数据多达258万次,违反了双方数据授权相关的合同条款,包括“甲方(注:三体云联公司)不得随意泄露、使用、传播或缓存乙方(注:一笔两划公司)服务接口中的作文范本及相关内容,否则造成的损失将由甲方全额赔偿”、“甲方不得在未经乙方允许的情况下用于任何其他用途,包括缓存,存储,作为语料进行计算,训练等”2。
(二)大模型生成内容与原始作品过于相似引发的侵权风险
一是与他人作品存在“实质性相似”而直接侵犯了原有内容,如《纽约时报》起诉微软、OpenAI的证明材料中显示GPT-4输出内容与纽约时报的原文,高度一致。二是相似内容可能会误导公众或混淆原始作品来源,而对原有内容造成市场挤占。如有著权人起诉Stability AI公司未经权利人许可、获取与利用其版权作品作为Stable Diffusion的“训练图像”,导致数百万权利人则因生成的“新”图像对原作品交易市场的挤占而遭受损失。三是丰富的模型服务模式有可能绕过版权方的商业限制,如在《纽约时报》起诉微软、OpenAI的证明材料中显示必应搜索索引复制和分类《纽约时报》的在线内容,提供未经授权的详细摘要。
国外大模型技术提供商正通过多种手段加强合规应对
(一)从训练数据来源加强风险防范
一是确保训练数据来自可信的、可靠的来源,包括权威机构、专业组织、可验证的数据仓库或其他公认的数据提供者等,如上海人工智能实验室发布人工智能开放数据平台OpenDataLab提供5500多个高质量数据集,上海数据交易所官网正式上线语料库、累计挂牌近30个语料数据产品。二是多样化训练数据来源,在最新一项以Stable Diffusion等AI扩散生成模型为研究对象的实验中,马里兰大学和纽约大学的联合研究团队指出,利用Stable Diffusion生成的内容与数据集作品相似度超过50%的可能性不足2%。三是规范使用爬虫、OpenAPI等技术手段获取训练数据,尤其应重点评估爬虫行为合规性、抓取数据行为是否破坏数据源所预设的技术防护措施等。四是尽量避免强版权性作品和数据的使用,如若无法避免、则应提前获取合法有效授权、明确授权范围,并在授权范围内合规使用。
(二)在数据处理过程提高数据合规性
一是注重数据标注和清洗过程,包括经过培训的专业人员进行,并且需要进行验证和审核,以确保标注的正确性,去除重复项、噪声数据和错误数据,通过数据脱敏、去标识化、数据掩码等技术去除数据中的敏感信息。二是设置训练数据退出机制。如谷歌Bard设置 “‘Bard活动记录’开关”,为用户提供自主选择是否允许Bard收集存储用户数据的权利,同时设置“手动删除”功能、方便用户自由选择保留和删除何种数据;Stability AI允许权利人从后续发布的Stable Diffusion 3.0的训练数据集中删除自己的作品,版权人可在“Have I Been Trained”网站上找到自己的作品,选择退出数据训练集。
(三)加强模型内容输出阶段的合规性
在服务协议、用户协议等文件中增加生成内容的权利归属约定、侵权责任承担、使用限制等条款已成为大模型企业加强合规性、避免版权风险的常用方法。除此之外,还可通过以下三种途径加强模型内容的合规性。一是利用版权过滤技术、相似度检测技术等手段对模型输出内容进行识别、审查和过滤等,如OpenAI使用GPT-4进行内容审核,在审核效果上GPT-4的标记质量与经过轻度训练的人类审核员类似。二是建立敏感词数据库并预设“安全响应”或“针对性拒绝”等响应机制,防止生成并传播敏感内容。例如,有研究者引入了一个敏感主题分类器来识别上下文的“政治”、“宗教”、“药物”、“医疗建议”和“NSFW”的内容,当检测到敏感主题时,会触发预设响应3。三是建立内容侵权投诉反馈渠道,对于确定的侵权内容及时采取断开链接、删除、通知使用用户等措施。
对国内大模型企业的启示
(一) 注重治理组织和制度建设
一是响应《科技伦理审查办法》,自建或委托第三方科技伦理审查委员会,对企业人工智能业务开展全生命周期开展伦理审查与自我监管。二是推进算法、数据、内容安全合规的制度化建设,包括对模型的输入输出内容进行审查、定期进行模型的合规性检查、对数据采集的合规性审查等,三是面向企业内部开展版权合规、伦理通识的培训宣传。
(二)加大技术研发与资源投入
一是持续增加对大模型可信技术的研发投入,如数据清洗、增强模型可解释性、模型内容自动化审核等。二是关注用户反馈与需求,包括在模型服务或产品的协议中列明用户数据用途、用户数据退出机制、用户反馈渠道等。三是加大对高质量、合规数据的资源投入,如丰富数据来源、加大数据授权、规范数据采集和处理等行为。
(三)增强外部沟通与合作
一是与政府和相关监管机构建立常态化对话与沟通机制,既是了解政策动向和监管要求,并为人工智能治理、知识产权等相关的政策、法律法规制定提供行业实践和技术建议。二是与同行企业、学术研究机构、国际组织等共同研发可信AI、合规等技术标准,分享最佳实践案例,协同应对潜在的技术、安全和伦理挑战。三是定期发布包括模型的研发、应用、影响评估以及面临的挑战和解决方案等在内的责任报告、白皮书,或开展论坛和讲座,提升企业人工智能治理、合规等方面的透明度,树立企业负责任的品牌形象。