返回
列表
上一篇
文章
下一篇
文章
四川数据标注产业发展加快提升人工智能高质量数据供给能力
发布时间:2024.06.24 16:25:23
分享到:

数据标注一直是人工智能技术研发的关键环节,主要对原始数据进行处理使得数据可以被人工智能算法所理解和使用,如果说数据是人工智能生产要素,那么数据标注则是重要生产力。就四川数据标注来说,以下是三点重要观察。

观察一:大模型发展需要高水平数据标注

大模型快速发展,对训练数据的量与质都提出更高要求。2021年发布的Gopher模型训练数据集已达10550GB,GPT-3的训练数据量达到45TB,据推测GPT-4的训练文本数据量达到13万亿个词元(Token)。但是,针对目前大模型训练高质量中文语料占比过少,建立利于中文语境表达及产业应用的大模型预训练语料库,才可以保证我国人工智能可控和可持续发展。未来,训练数据的规模和质量将成为决定模型竞争力的关键因素。

观察二:新一代数据标注产业具有“三高”特点一是知识含量高,二是技术水平高,三是价值密度高。

观察三:数据标注产业发展需要抓好6个关键点。数据标注产业发展,需要抓住技术工具、行业应用、生态培育、标准制定、人才培育、数据安全六个方面要素。

 


留言反馈
企业名称
所在区域
姓名
电子邮箱
联系电话
问题描述
上传图片