返回
列表
上一篇
文章
下一篇
文章
四川数据标注的流通
发布时间:2024.01.09 17:12:40
分享到:

尽管国内数据资源丰富,但由于数据挖掘不足,四川数据标注的数据无法自由在市场上流通等现状,优质中文优质数据集仍然稀缺。ChatGPT训练数据中英文资料占比超过92.6%,而中文资料比重不足千分之一,为0.0991%。据加利福尼亚大学和Google研究机构发现,机器学习和自然语言处理模型使用的数据集50%由12家Top机构提供,其中10家为美国机构,1家为德国机构,仅1家机构来自中国,为香港中文大学。值得一提的是,数据集与数据机构的基尼系数有升高的趋势,即数据集被少数Top机构或特定数据库掌控的集中有所增加。

据专家访谈,训练一个1.0版本的千亿级别大模型(类似GPT-4的MOE架构),在数据标注上的花费约5000万元人民币。预训练数据的来源主要有三个,一是类似海外大语言模型,来自互联网抓取数据、网络百科全书、书籍等,占比约15%,尽管当前技术路径正向无监督训练阶段倾斜,但对于部分嘈杂数据,仍需进行数据清洗、标注等处理;二是充分借助已有的高质量开源数据集,占比约25%;三是基于数据标注商提供的定制化数据集,占比约60%。

留言反馈
企业名称
所在区域
姓名
电子邮箱
联系电话
问题描述
上传图片