从“不正当竞争”角度思考AI模型训练中“爬虫行为”的违法边界——欧盟与中国之比较

By King & Wood on August 15, 2024

作者：宋海燕刘芳源

当前，生成式人工智能（generative artificial intelligence，以下简称“生成式AI”）的发展突飞猛进，而此过程需要海量数据的支持，尤其是在模型训练阶段。故而，实践中很多生成式AI模型的训练往往依赖于爬虫工具从互联网上大量爬取数据。例如，OpenAI公司的ChatGPT模型曾通过互联网爬取第三方网站中的电子书籍、文章、数据库等570GB、超过3000亿个单词用于训练AI模型。

menu

从“不正当竞争”角度思考AI模型训练中“爬虫行为”的违法边界——欧盟与中国之比较

About our Firm