内容审核基础:审核方式、流程与审核维度
何为内容审核?
简单来说就是:对用户在社交平台上上传、发布或共享的内容(文字,图片,音频,视频)进行审查。
其主要目的是对低质庸俗的内容进行过滤筛选,从而生产高质量的内容、防止降低用户体验、保持良好的内容调性。
而在这个过程中,平台会对于内容有一个专业的标准作为参考,这个时候有一个很大的问题就是人工筛选效率低,而且成本大。
所以很多内容平台采用了算法进行过滤,通过人工和算法的有效结合来提升效率。
经过过滤后的内容基本上能保证无害,即使质量不高,但也不存在风险问题。这时企业就会面对选择是先发后审还是先审后发:
- “先发后审”:即用户先发表UGC内容,再经过审核;
- “先审后发”:即用户提交UGC内容后,先经过审核,审核通过后才能发表上线。
“先发后审”和“先审后发”的适用场景:
- “先发后审”:适用于对发表内容时效性要求较高的场景,如阅读、听歌等场景下的用户评论,此时用户发表评论更多出于即兴,因此从用户的角度考虑,希望自己发表的评论能够马上看到成功、有效。比如:网易云音乐评论。
- “先审后发”:适用于在社区、论坛、新闻平台等场景下发表文章、观点、讨论等,此时对于平台方来说需要对内容负责、并构建权威性,因此通常要审核后才能发表。比如:抖音、写的,而是这个词被系统自动替换。平台不希望出现这个关键词,但用别的代替读者通常也能读懂。比如一些政治、宗教、不文明用语类词语,都有可能被自动替换。
当然,管理员在添加关键词时,很多时候并不是直接把关键词添加到后台。否则用户用很简单的方式就可以避过关键词过滤,比如在关键词内加一个空格,系统就难以匹配到。
所以,一般后台都会支持限定符{x} 以限定相邻两字符间可忽略的文字,x 是忽略的字节数。在Discuz!网站后台有明确说明,如 “a{1}s{2}s”(不含引号) 可以过滤 “ass” 也可过滤 “axsxs” 和 “axsxxs” 等等。
对于中文字符,若使用 GBK、Big-5 版本,每个中文字符相当于 2 个字节;若使用 UTF-8 版本,每个中文字符相当于 3 个字节。
另外,关键词还可以支持正则表达式,来匹配具有一定模式的关键词。比如”/1\d{10}([^\d]+|$)/”(不包括引号)用来匹配手机号码。正则表达式的内容过多,大家有兴趣可以搜索学习一下。
2. 用户发布次数限制
主要限制一名用户无限制地发送评论。
对这种情况可以设置同一用户一分钟内最多发送一条评论;一小时内最多发送10条评论,一天最多发送三十条评论,评论次数如果超出时则弹出toast“发言太多累了吧,请休息下”的提示。
其实这个限制上线后,发现发广告的人会不断注册新号来规避这个问题,后续可以考虑再加上。新用户需注册多长时间才可发布评论,或需绑定手机号才可以发布评论这些严格的条件。
3. 重复内容过滤
这种一般都是对于发广告的。
对比时去掉除汉字外的任何符号,如“抖丶音”、“快aabb手”,对比时用“抖音”“快手”;将评论与同一用户上条评论作对比,10个汉字以上的若与其中一条重复率达70%(20,60%;30,50%)则弹出toast“请不要发布重复内容”;同时将评论仅与评论库最近发布50条的评论作对比,20个汉字以上的若与其中一条重复率达80%则机审失败(30,70%;50,60%);
在对比重复内容时一定要去掉一些无关的符号。因为很多小广告喜欢加空格,逗号这些。他们也通常备用好几条文案,可以将评论库的拿出来对比;这样也可以规避他们换号,换文案的问题。
4. 白名单用户,黑名单用户
白名单用户、黑名单用户需要有个可编辑的后台,可随时增减;若同一用户一天内机审失败的评论超过10,则自动列入黑名单。
白名单的用户不受发布次数限制,但内容需要检查广告词、敏感词、屏蔽词,如果一天内发布的评论超过10条机审失败,也自动列入黑名单。列在黑名单的用户发布评论时,弹出toast“您暂时无法发布评论”或机审直接失败。
最后补充下,其实没有对IP进行限制是因为在公共区域的wifi好像IP是一样的,尽管非常希望处理掉垃圾评论这一问题,但我还是希望在不影响到普通用户的前提下。
以上基本是一个内容审核都需要了解的点了。
本文作者 @咩咩咩
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!