浅析ChatGPT训练数据之合理使用

By King & Wood on May 15, 2023

作者：宋海燕陈佩龄

ChatGPT，一款由美国科技公司OpenAI于2022年11月30日发布的AI聊天机器人，一经面世便引发全球热议。随着其热度不断升高，与之相关的诸多版权争议受到广泛关注，训练数据侵权问题便是其中之一。

作为语言生成式模型，ChatGPT训练数据由大量文本数据组成。目前各国对生成式AI训练数据的使用仍未单独制定成文法规定，但域外对文本与数据挖掘（Text Data Mining，后称“TDM”）技术的法律规制却具有重要借鉴意义。TDM指的是利用自动分析技术分析文本与数据的模式、趋势以及其他有价值的信息，是以计算机为基础的，从文本或数据导出或组织信息的过程。从技术原理来看，ChatGPT训练数据库的建构与TDM均以文本和数据输入为基础，二者在著作权法上具有相似意义。而在法律层面上，基于制度衔接与法律秩序稳定性的考量，针对使用主体、使用目的、使用方式、限制条件等问题，二者的法律适用应当存在一定程度上的延续与联系。因此，本文将围绕ChatGPT训练数据之合理使用展开分析，从比较法视野分析英国、欧盟、美国及中国对TDM所制定的合理使用制度，继而分析现行法律框架下ChatGPT所实施的数据挖掘行为是否具有合法性依据。

menu

浅析ChatGPT训练数据之合理使用

About our Firm