sito
sito
sito
sito
sito
四川数据标注,是基于训练人工智能模型的需要,对文本、图像、音频、视频等原始数据添加标签的过程。标注后的数据成为人工智能的训练数据,可以根据不同的训练任务创建为不同类型的训练数据集。目前衡量大模型训练水平的一个重要指标就是训练数据集的数量和质量。OpenAI 的 GPT3 就是以 45TB 的数据数量领先。关于数据质量,涉及特殊领域专业知识,涉及的文本、图像、音频、视频,都需要经过数据标注,大模型才能“读懂学会”。OpenAI 训练 GPT 的语料雇佣了大量肯尼亚劳工进行数据标注。百度的智能驾驶,就有数千人从事交通信息数据标注。文化数据标注的专业知识要求,背后是高昂的人力成本,极大限制了文化行业大模型研发。伦敦大学的一个人工智能研究团队做爵士乐音符数据标注,因为招募职业音乐家成本太高,只能限于小规模学术性研究,这是这一领域全球性普遍存在问题。我国不同,大量文化机构从业人员及高等教育持续不断输出文化专业人才,具有得天独厚的人资资源优势,完全可以支撑文化行业大模型训练所需海量高质量文化数据标注。2020 年,国家职业分类目录中增加了人工智能训练师这一新职业,其中包含的两个工种之一就是数据标注员。因此,建立大规模高水平文化资源数据标注工作体系,并在文化行业应用大模型国际竞争中取得领先,不仅有必要性也有可行性。