返回
列表 上一篇
文章 下一篇
文章

首页

新闻中心

专题文章

四川数据标注的流通

发布时间：2024.01.09 17:12:40

分享到：

尽管国内数据资源丰富，但由于数据挖掘不足，四川数据标注的数据无法自由在市场上流通等现状，优质中文优质数据集仍然稀缺。ChatGPT训练数据中英文资料占比超过92.6%，而中文资料比重不足千分之一，为0.0991%。据加利福尼亚大学和Google研究机构发现，机器学习和自然语言处理模型使用的数据集50%由12家Top机构提供，其中10家为美国机构，1家为德国机构，仅1家机构来自中国，为香港中文大学。值得一提的是，数据集与数据机构的基尼系数有升高的趋势，即数据集被少数Top机构或特定数据库掌控的集中有所增加。

据专家访谈，训练一个1.0版本的千亿级别大模型（类似GPT-4的MOE架构），在数据标注上的花费约5000万元人民币。预训练数据的来源主要有三个，一是类似海外大语言模型，来自互联网抓取数据、网络百科全书、书籍等，占比约15%，尽管当前技术路径正向无监督训练阶段倾斜，但对于部分嘈杂数据，仍需进行数据清洗、标注等处理；二是充分借助已有的高质量开源数据集，占比约25%；三是基于数据标注商提供的定制化数据集，占比约60%。

聚合川渝人才响应全球服务

Aggregate Sichuan And Chongqing Talents To Respond To Global Services

联系方式