sito
sito
sito
sito
sito
在实际工作中,特别是针对专业领域的智能问答等场景中,除了标注所需的工具和原始数据处理方式外,四川数据标注工作对标注人员业务逻辑的要求将显著提升。
例如,商业银行的细分领域大模型应用中,业务部门和科技部门均对内部制度规范等场景的问答诉求较高,原因一方面是负责该领域的专家较少,日常工作难以找到准确的人快速提问;另一方面是长期积累的制度规范数量庞大,就算是专业领域专家可能也一时难以准确回答。
这类模型的训练需克服两大难点:一是通用大模型的训练过程中往往缺失专业领域的文档学习,需要大量的优质专业数据集进行增强训练,但这类内部问答场景较难像对客场景具备较多真实数据,其数据基础往往缺失;二是在此基础上,这类数据的准备强依赖于专家,进行数据准备的成本将非常高。
为更好地、有针对性地组织推进相关工作,根据是否具备上述两大难点,可以将数据标注划分为分类式标注和训练式标注两类。
分类式标注有两大特征:一是有明确的标注规则,无需复杂的业务逻辑介入,多为通用性对象的识别;二是无专业知识的人员可经过短期培训掌握标注方法,无需强依赖专家,例如OCR图片标注、语音转写、文本分类等场景。
与之相反,训练式标注的特征为:一是无法形成明确的标注规则,需要广泛的业务逻辑;二是需要由具备业务领域专业知识的人员完成,难以短期培养标注人员,例如专业领域的问答标注。