文本标注应用范围很广泛,具体来说,文本数据标注应用比较多的场景包括新零售行业、客服行业、广告行业、金融行业和医疗行业等:应用类型主要有数据清洗、语义识别、实体识别、场景识别、情绪识别以及应答识别等。
1、客服行业
在客服行业文本标注主要集中在场景识别和应答识别,客服基本可分为人工客服和电子客服,其中人工客服又可细分为文字客服、视频客服和语音客服三类。
以不少电商平台的智能客服机器为列,当用户在购物遇到问题,需要与机机器人沟通交流时人工智能将根据用户的咨询内容且对应的场景,然后让用户选择更细分的应答模式,再定位到用户的实际场景中,根据用户的具体问题给出对应的回答,整个过程就好比是把用户的问题的用漏斗状的筛子过一遍。
在初期建立应答体系的时候,需要对海量用户咨询语言所产生的文字材料进行分类,把应对的用户咨询的问题事先标记好,然后放进对应的模型中,例如我看到的这台电视电脑CPU是什么型号
在这一步中,数据标注的具体工作就是给句子的场景打标,将用户问题细分应对的场景中,在进行这种标注时需要人工智能非常熟悉本行业的业务逻辑数,其实这就是建立机器人的应答知识库,机器人在收到用户发出的指令时,需要识别这些指令和哪个细分问题的,你额度最高,然后选取哪个问题的答案作为给用户的答案。
2、新零售行业
新零售是指个人、企业以互联网为依托,通过运用大数据、人工智能等先进技术手段,对商品的生产、流通与销售过程进行升级改造,进而重塑业态结构与生态圈,并对线上服务、线下体验以及现代物流进行深度融合的零售新模式。在此过程中,需要对客户的问题进行精准定位,既需要对客户的问题进行量身定制,又需要考虑多数客户的共性要求,这就需要借助文本数据标注的方法,将顾客的相应问题做出标记。
3、金融行业
线上平台标注和线下表格标注是金融行业文本标注主要的标注形式。以现代商业的企业签约举例:在企业的商务合同中,对关键信息的读取就显得尤为重要。
例如,合同中提到的公司名称,合同编号、发票编号、相关金额,到期日期和风险提示等,这些内容囊括了甲乙双方公司的核心信息。对于一个规模较大的公司来说,每天的签约合同非常之多,如果采用一个或几个人对这些合同中的相关信息加以提收乃至核对,这项任务就显得十分繁重而且意义不大。在人工智能时代,可以考虑建立一个企业合同分析模型,对合同中的相关信息进行提取,从而可以减少劳动量,降低人力成本,提高工作效率。
4、广告行业
广告行业是在市场经济充分发展的条件下逐步形成的,从单一的广告活动发展成为独立的广告行业经历了漫长的过程。广告制作作为广告行业的重点工作之一,雷要广告设计工作者的辛勤劳动。
考虑到未来商品市场的发展趋势。以及单个商品的文案设计与广告宜他工作,类别相近且销量较高的商品文案可相互借鉴,将已有的单个商品文案进行综合,取其精华、去其根粕,通过文本数据标注将文案中的“精华”与“糟粕”标记出来,让文案设计工作者可以在案例中进行提取综合,这无疑将提高工作效率。
5、医疗行业
在医疗行业对自然语言进行标注处理,对专业度要求比较高,需要专门的医学人才才能进行标注,往往本行业的标注的对象是从病列中抽取出来的一些字段,病例里面的体查项和既往病史是有模板的,直接识别可以,替换项的结果就可以,这往往比较容易的。但是主诉和医生对患者的描述通常每次都会有所差异。
我们在做标注的时候可以这样处理,首先明确每个词的属性,记每个词在这种语境下面具备怎样的属性,然后标注每个词在句子中的作用,举个例子患者主诉为腰痛2年,伴左下肢放射痛10日余。