sito
sito
sito
sito
sito
OCR(文本识别技术):主要用来识别图片中存在的文字。许多违规内容,包括联系方式、色情信息、广告信息等为了规避审核,都会以图片的方式呈现。
人脸识别技术:通常用来识别政治、宗教类人物,识别到后可以直接删除或者进行风险标记。
语音识别技术:语音识别的应用场景比较多,但在内容审核领域仍然不是刚需,所以使用的较少。但也有些直播或音频平台比较重视音频对比、声纹识别技术,可以轻易识别到一些固定模式的违法违规声音。
视频识别≈图片识别:视频是画面与音频组成的以帧为单位的画面,通常采取截帧上传与服务器数据对比来识别。审核模式和图片审核相同,比如通过画面皮肤裸露状态来判断是否过于性感、是否是色情内容。
上下文语义识别技术:这种技术用来判断一句话是否能跟上下文结合,是否是一段垃圾文本。比如说,在评论区随便输入一串奇怪的文本,如果系统认为和上下文不相关,就有理由将内容放入审核区。
技术是很酷,用好了可以大量减少我们的工作,但内容审核技术的实施是一件很难一劳永逸的事情,其中的尺度和参数都需要人来不断维护,而且人工审核仍然是非常有必要的,并且需要的人工可能越来越多。内容审核技术的应用,仍然任重道远。