作者:宋海燕 陈佩龄
ChatGPT,一款由美国科技公司OpenAI于2022年11月30日发布的AI聊天机器人,一经面世便引发全球热议。随着其热度不断升高,与之相关的诸多版权争议受到广泛关注,训练数据侵权问题便是其中之一。
作为语言生成式模型,ChatGPT训练数据由大量文本数据组成。目前各国对生成式AI训练数据的使用仍未单独制定成文法规定,但域外对文本与数据挖掘(Text Data Mining,后称“TDM”)技术的法律规制却具有重要借鉴意义。TDM指的是利用自动分析技术分析文本与数据的模式、趋势以及其他有价值的信息,是以计算机为基础的,从文本或数据导出或组织信息的过程。从技术原理来看,ChatGPT训练数据库的建构与TDM均以文本和数据输入为基础,二者在著作权法上具有相似意义。而在法律层面上,基于制度衔接与法律秩序稳定性的考量,针对使用主体、使用目的、使用方式、限制条件等问题,二者的法律适用应当存在一定程度上的延续与联系。因此,本文将围绕ChatGPT训练数据之合理使用展开分析,从比较法视野分析英国、欧盟、美国及中国对TDM所制定的合理使用制度,继而分析现行法律框架下ChatGPT所实施的数据挖掘行为是否具有合法性依据。