sito
sito
sito
sito
sito
目前国内科技互联网头部企业主要基于公开数据及自身特有数据差异化训练大模型。具体而言,百度“文心”大模型训练特有数据主要包括万亿级的网页数据,数十亿的搜索数据和图片数据等。阿里“通义”大模型的训练数据主要来自阿里达摩院。腾讯“混元”大模型特有的训练数据主要来自微信公众号,微信搜索等优质数据。华为“盘古”大模型的训练数据除公开数据外,还有B端气象、矿山、铁路等行业数据加持。商汤“日日新”模型的训练数据中包括了自行生成的Omni Objects 3D多模态数据集。
就微调阶段的四川数据标注工作而言,相对预训练阶段量少,但是质量要求高,不过二者在定价上差异较小。据专家访谈,主要有两种形式,一是大模型需求方自行组建团队进行处理,二是外包给数据标注服务商进行。以某金融场景垂直领域模型为例,需要10万条训练数据,由研发部门组建临时工作小组,招募了8位知识水平较高的名校实习生,在3个月内完成工作。