作者:宋海燕 刘芳源
当前,生成式人工智能(generative artificial intelligence,以下简称“生成式AI”)的发展突飞猛进,而此过程需要海量数据的支持,尤其是在模型训练阶段。故而,实践中很多生成式AI模型的训练往往依赖于爬虫工具从互联网上大量爬取数据。例如,OpenAI公司的ChatGPT模型曾通过互联网爬取第三方网站中的电子书籍、文章、数据库等570GB、超过3000亿个单词用于训练AI模型。
作者:宋海燕 刘芳源
当前,生成式人工智能(generative artificial intelligence,以下简称“生成式AI”)的发展突飞猛进,而此过程需要海量数据的支持,尤其是在模型训练阶段。故而,实践中很多生成式AI模型的训练往往依赖于爬虫工具从互联网上大量爬取数据。例如,OpenAI公司的ChatGPT模型曾通过互联网爬取第三方网站中的电子书籍、文章、数据库等570GB、超过3000亿个单词用于训练AI模型。