返回
列表 上一篇
文章 下一篇
文章

首页

新闻中心

专题文章

四川语音内容审核识别技术与能力

发布时间：2024.11.12 13:40:34

分享到：

语音在专业角度划分为两种：音频与视频。

语音（音频）识别的应用场景较多，比如AI智能音响常用到的语音识别，电话通话视频中的语音视频，甚至是直播平台中主播在讲的音频内容。音频等于说话，说话包含说了什么？（涉政、涉黄、涉赌还是广告信息）。

在音频技术识别方面，针对不同的内容有不同识别技术。针对说话内容有语音识别、关键词检索等；针对语种的判别有语种识别的技术；针对说话人的识别有声纹识别技术；针对说话内容无关的通常采用音频比对的技术来进行检测。通常一般短视频，直播或者音频平台，对音频对比、声纹的技术较为重视，是保证录音质量及外放声音很有效的一种运营手段，但对内容语音识别，则不太关注，毕竟语音识别技术对这些企业的应用场景不是刚需。

基于语音识别的关键词检索是将语音识别的结构构建成一个索引网络，然后把关键词从索引网络中找出来。首先把语音进行识别处理，从里面提取索引构建索引网络，进行关键词检索的时候，在通过关键词表在网络中进行频率，找到概率最高的，输出其关键词匹配结果。（在这一步可通过垃圾文本处理及上下语义分，对转化的文本进行处理）

目前音频的识别技术能力还远远达不到准确阶段，比如音频出现的“娇喘声”单靠技术根本无法识别，或识别（转化）出来就是一串乱字。再如在人潮拥挤的杂音中，出现的音频，也无法准确的转化成文字识别。遇到这种隐晦场景下的文本，通常还是需要人工去审核。