前些时间在做笔记类产品,由于对发布文章内容审核监测不严,而被政府约谈,功能也险些被下掉,为此特意研究了内容审核的一些基础知识。审核机制分为:先审后发、先发后审,先发后审:对时效性要求比较高,比如微博、直播等产品,大部分内容的时效性较强,所以一般是先发后审。
先审后发:适用于对内容的时效性要求不高,但是对内容的质量要求较高。
举例说明:对于像优酷、爱奇艺这样的大型视频网站采取的是先审后发,而且更突出的是PGC部分的内容。然而在国内,多数UGC都是“先发后审”的,尤其在直播/短视频领域,强调草根主播,强调时效性。当然由于每天新产生的内容量太大,为了减轻审核工作,他们也有很多窍门,比如短视频领域中,会对新用户和高危用户的上传会优先审核,是“重点关注对象”;明星、大V等账号会被设置成为信任账户,默认他们发布的视频不用通过审核。在系统方面,则会建立反垃圾屏蔽系统,记录用户行为、关键词、头像MD5识别等进行用户和垃圾拦截;对于直播领域,则会要求在画面播出前完成机器审核(直播一般会有5-60s不等的延迟),避免“造人事件”再次发生。
审核内容不同,审核方法也随着改变:
1. 文字
(1)使用敏感词过滤系统
信息审核工作都是在信息审核平台上进行的,网站的运营审核系统中会预先设定一批关键词库并对词组进行排列组合,这批词库又会根据敏感性进行分类。系统会阻止用户发布敏感词汇,或将用户发出来的含有敏感词的内容直接删除。 对于某些敏感性较低的词汇,发出来不会立即删除,需要经过审核人员过目进行二次审核。
(2)建立反垃圾信息(anti-spam)机制
我们经常会遇到一些垃圾信息,比如邮箱中收到的各种垃圾邮件、新浪微博的僵尸粉以及论坛中层出不穷的广告贴等等。有人会不停的去寻找网站的漏洞以及规则,使用机器发布这些垃圾广告从而达到营利目的。anti-spam主要是指通过技术手段对数据进行过滤和筛选,将我们认定为不合格的数据清理掉,将系统认为可疑的信息进行提示分类。anti-spam对审核工作也是一个相辅相成的内容。
2、图片
(1)人工审核。对于图片内容的审核,传统的审核方式主要依赖于人工。图片不同于文字,无法提取关键词,对于大多数互联网公司在技术上无法达到,否则也就不会出现鉴黄师这样的职业了。
(2)基于人工智能的审核方式。但是对于图片更新量千万级的产品,人工审核显然是不现实的,同时很多中小型公司组建人工智能审核团队也有比较大的挑战。所以产品很多都是直接调用第三方公司成熟的API接口,如图普科技的图像识别云平台,可以辅助网站进行机器审核。这种方式主要是基于深度学习图像识别云,通过针对目标特征专门训练的素材库和识别模型来甄别存在的违规图片。使用虽然很简单——只需接入API调用识别服务即可,但是后期也需要少许人力来配合。
3、视频
任何文件都有且只有一个独一无二的MD5信息值,MD5可以说是文件的“数字指纹”。对于含有视频内容的网盘或视频网站,采取的方式是建立涉黄文件的MD5数据库,用户上传后自动分析MD5是否合法,则能避免涉黄文件的重复分享。审核人员再对通过自动检测的每条视频进行审查。