sito
sito
sito
sito
sito
语音识别会四川数据标注的内容、角色、性别、广告声音、铃声。语义识别更为复杂,涉及词性、属性、动作、主体等标注。标注结果数据以文本形式存储,并与语音文件对应,最后用于模型训练。文本标注是根据业务需求打上相应标签,比如:我要办卡,我要办宽带,就会打一个业务标签,叫办卡或者叫办宽带。
行业无统一的标注标准,企业根据业务需求制定,如只做情绪或性别识别,无需关注其他细节。购买数据时,供应商会明确其标注规范。各家的语音识别引擎和模型算法均为自行开发,可能内核相同但应用不同。内核即神经网络算法,包括讯飞、百度、阿里、腾讯、字节等公司的语音识别算法,核心算法相似,皆源自2006年加拿大科学家提出的神经网络算法。使用此算法后,语音识别效果从70%提升至80%,现在超过90%。该算法最大优点是数据标注越多,准确率越高。
各大公司均有标注平台,外部也有许多数据标注公司。讯飞的标注团队,规模不大,同时也有外包服务商 “爱标客”,也曾与标贝、海天瑞声合作。比较紧急会购买部分数据,大部分数据由自有人员和外包团队标注。