sito
sito
sito
sito
sito
四川数据标注的质量直接关系到模型训练的优劣程度,因此要为数据标注建立一套完整既定的数据标注流程,对图像、语音、文本等进行有序而有效的标注。
1、数据采集。数据采集与获取是整个数据标注的首要环节。目前对于数据标注的众包平台而言,其数据主要源于提出标注需求的人工智能企业。人工智能企业通过互联网获取公开数据集与专业数据集。数据采集的方式包括内部数据库提取数据、下载政府、科研机构、政府的公开数据集,也可以通过网络爬虫爬取知乎、豆瓣、网易的数据。
2、数据清洗。在获取数据后,并不是每一条数据都能够正常使用,有的数据是不完整、不一致、有噪声的脏数据,需要经过数据预处理,才能真正投入问题的分析研究中。在数据预处理中,要把“脏数据”洗掉。数据清洗旨在对采集的数据进行筛选,去掉重复的、无关的内容,对于异常值与缺失值进行查漏补缺,同时平滑噪声数据,以帮助训练更为准确的数据模型和算法。
3、数据标注。数据经过清洗后,就进入标注的环节。在正式标注前,需求方的算法工程师会给出标注样板,并为标注员详细阐述标注需求与标注规则,在充分讨论和沟通之下,保证数据输出的方式、格式以及质量,这就是试标过程。试标后,标注工程师按照要求对数据进行标注,对图像、视频、语音、文本等素材进行分类、标框、描点等操作,打上不同的标签,满足人工智能的应用需要。
4、数据质检。不管是数据采集、数据清洗,还是数据标注,通过人工处理的方式并不能保证完全正确。为了提高输出数据的正确率,数据质检成为重要的一环,而最终通过质检环节的数据才算是真正过关。质检可以通过抽查或者排查的方式。检查时,一名或多名审核员,对数据层层把关,如果数据不合格,就交由数据标注人员返工,知道最终审核通过为止。