大模型时代到来,以数据为中心的AI开发模式加速走向台前。数据标注是人工智能发展的基石,人工智能的发展又催生了巨大的就业需求。一方面,由于互联网上的公开数据质量参差不齐,需要对数据进行分类,去除低质量和重复的内容,留下高质量的语料进行基础训练;另一方面,伴随着AI在自动驾驶、金融、医疗、安防等多个垂直场景的深度落地,数据训练需求海量增长,数据标注也摆脱了传统劳动密集型行业的局限性,向高技术含量、高知识密度和高价值等特性发展,有更多的高质量人才需求。
在我们的日常生活中,人工智能无处不在。不管是智慧医疗、自动驾驶、智能政务等大型应用,还是手机扫码、人脸识别、语音转文字以及智能客服等小型场景,人工智能给我们的生活带来了极大的便捷体验,这其中,数据标注发挥了无可替代的作用。作为人工智能算法有效运行的关键环节,数据标注能够把需要机器识别和分辨的数据贴上标签,通过让计算机不断学习这些数据的特征,使其最终实现自主识别,从而让人工智能在各个领域发挥更大的作用。作为人工智能算法有效运行的关键环节,在中国人工智能产业高速增长的背景下,数据标注行业也呈现出整体向上的发展趋势。相关机构根据国内需求方与供应方营收增长情况推算,预计2024年数据标注市场规模为130亿~180亿元,2025年市场规模为200亿~300亿元。未来,随着人工智能进入多元行业和场景落地阶段,自动驾驶、医疗、法律、金融等有一定专业性要求的垂直化场景将成为主要需求,从而带动行业进一步朝着垂直化、定制化方向发展。这将使得专业性要求越来越高,市场准入门槛显著提高。部分标注员岗位要求比较高,学历要求基本都是本科起,某些还会要求一本或211/985院校,除了硬性的学历要求,对专业能力或综合能力要求也比较高,某些会要求专业领域经验。目前数据标注主要是由标注师和质检员组成,完成标注后,直接交给算法工程师,通过数据对大模型做测试,然后再有针对性的做下一轮标注和调试。未来,随着行业的发展,还会出现更细分、更专业的发展方向,而且岗位需求量也会不断增大,预计未来五年,数据标注相关专业人才缺口将达百万量级。