用“斗渣男”的方法，与低质内容做斗争

珂然 2023-07-25 21:29:20

直击灵魂一问：你遇到过渣男吗？

直击灵魂二问：你被渣过吗？

直击灵魂三问：你被渣过后，怎样反击？

要是没有，这篇文章就到这儿结束了？

不！结束不了！

现在没遇到，可以看看渣男的套路，防患于未然。

反渣男套路四部曲：

第一步：发现—透过蛛丝马迹，发现存疑迹象
第二步：分析—寻找证据，证明他的身份
第三步：识别—利用确凿证据，坐实渣男身份
第四步：反击—多种手段齐上阵，绝地反击

净化生态，打击低质内容，同样适用四部曲：

第一步：发现—透过蛛丝马迹，发现疑似低质
第二步：分析—寻找证据，证明它是低质内容
第三步：识别—利用模型、人工，精准识别低质
第四步：反击—降权、过滤等手段齐上阵，绝地反击

一、透过蛛丝马迹，寻找证据，揪住低质内容

我们都知道，世上渣男千千万，普遍性中都带有独特性，先来看看常见的有哪些？那些不常见的，可以通过什么方法来发现？

最常见的就是徒有外表，没有内涵，利用精致外表来迷惑人心，让你放下戒备，彻底沦陷。

另外就是花言巧语，利用人性的弱点，让你放下戒备，彻底沦陷。

看到这里，也许你会反问！

只要外表光鲜，就是渣男吗？
只要花言巧语，就是渣男吗？
……

其实不然，这些只是列举的存疑迹象，当出现这些迹象后，我们需要小心啦，进一步搜集证据，进行综合分析。

试探他对你的各种表达，是否忽冷忽热？是否行为异常？
看他是否向你坦白过往的历史，日常所做的事，是否有所隐瞒？
看他是否会把你介绍他的朋友，是否允许你进入他的世界，承认你的存在？
走访他的周边朋友，听最“真实的反馈”

当然，要是有最直接的证据，就不用费力去做这些了。

比如《三十而已》中，顾佳似乎已经通过许幻山的异常行为发现了端倪，始终没有直接证据。直到通过林有有身上的饰品，以及闺蜜拍的照片等直接证据，才坐实了许幻山出轨的事实。

……

当把这些渣男特征投射到内容上，分别对应着标题党与低俗色情内容等，这类内容利用各类吸引眼球的关键字，夸大其词，刺激用户点击欲望。利用人性的弱点，刺激荷尔蒙分泌，刺激用户点击的欲望。

低质内容特征除了这些之外，还有很多很多，随着自媒体的发展，自媒体创作者发挥着无穷无尽的“聪明才智”获取流量。

对于可枚举低质内容，按照不同内容体裁可有以下枚举值：

对于不可枚举低质内容，没法通过模型或者人工立马将其干掉，但可通过一些蛛丝马迹，将其揪出重点监控与分析。

1. 用户反馈-最真实的声音

内容类产品都有设置用户反馈渠道，除了固定反馈选项，用户也可主动填写意见建议，那么应该怎样用好这些资源？

A）搭建数据监控报表，针对每一类负反馈选项，整体负反馈投诉等，监测小时级、天级的用户反馈趋势变化，定期进行分析。建立报警机制，当某类投诉超出一定阈值（比如xx小时内投诉内容猛增xxx+）,发出报警信息，重点排查监控。

B）定期分析用户主动填写的意见反馈，除了人工一条条查阅总结，也可通过python切词进行词频分析，统计用户负向反馈集中于哪些方向。笔者拉出了所在公司一定时间周期内用户负反馈数据，用python切词处理得到如下结果：

通过词频统计发现，用户反馈比较高频的词语基本没什么实际意义，但也不乏“胡说八道”“废话”等反应用户情绪的词语，再联系情景语境与被反馈的文章内容，也可总结出一批低质内容特征（慢工出细活，这里需要很强的总结归纳能力）。

附上python切词代码，墙裂推荐超好用的一款工具-VS code。

import jieba

txt=open(“d:负反馈内容.txt”,”r”,encoding=’utf-8′).read()

words=jieba.lcut(txt)

counts={}

forwordinwords:

iflen(word)==1:

continue

else:

counts[word]=counts.get(word,0)+1

items=list(counts.items())

items.sort(key=lambdax:x[1],reverse=True)

foriinrange(1000):

word,count=items[i]

print(“{0:<5}{1:>5}”.format(word,count))

2. 审核当好把门关

随着自媒体时代到来，人人都是发声者，每日海量内容涌入各大平台，内容安全变得越来越重要。机器模型无法做到100%准确识别，人工的力量变的愈发重要。

众所周知，审核同学会在审核时为内容打标（主要针对既有的枚举低质内容标签），业界常规做法是利用机器模型辅助人审，提升审核效率。

无法枚举的低质内容，该怎样发现，监控爆发增长趋势？

此刻，搭建一套监控机制体系显得尤为重要！

第一步：审核工具增加“疑似低质”tag选项，标识没有被既有低质标签覆盖的内容。

注意点：加强审核人员培训，包括内容审核标准培训（了解实际工作，提升专业能力）、业务培训（拓展知识边界，加深业务理解）等，只有审核同学更了解业务，才能在审核打标时理解更透彻。

第二步：建立监控报表，针对每一类既有低质内容，疑似低质内容等，监测这些标签内容在不同类目、不同时段的数量变化趋势，对于一定周期内爆发式增长、某个类目爆发式增长的低质内容，重点监控与排查分析。

第三步：定期分析疑似低质内容，从中总结归纳新的低质内容，建立模型标准，推进样本标注与模型训练，输出满足上线要求的内容质量模型，辅助人审或者应用线上。

二、精准识别低质内容，绝地反击

我们透过蛛丝马迹，发现了渣男的可疑迹象，通过各种方法搜集到证据，怎样让他现出原形？

当面对质
将他说的假话念给他听
将隐瞒的种种事实说给他听
将朋友的真实反馈说给他听
将最直接的证据扔他脸上
……

如果

渣男，鉴定无疑，怎么处理？

当然，一脚把它踢开呀！

那么，通过模型、人审精准识别的低质内容，应该怎样处理？

想要回答这个问题，首先我们来看看推荐系统怎样运转。

推荐系统大致分为5个环节：推荐内容候选池（正排）→召回→粗排→精排→机制策略

推荐内容候选池：从内容库中通过一定过滤条件，筛选可用内容。
召回：从推荐内容候选池中，通过一定规则（内容特征特征、模型、功能等）找到对应内容。
粗排：针对各路召回内容，利用用户特征、内容特征、环境特征、交叉特征等进行粗粒度排序。
精排：再次利用精细化特征信息，利用cyr预估等模型，为内容打分排序，产生一个用户的待推荐内容列表。
机制策略：使用各种机制策略（打散、去重、提权、过滤等）得到用户最终推荐内容列表。

由此来看，处理低质内容可作用于召回、机制策略等环节。

1. 作用于召回-召回过滤

适用范围：严重影响用户阅读体验的强低质内容，比如视频无声音、模糊、音画不同步等。

实现形式：直接将命中的tag内容过滤掉，不会进入排序环节。

2. 作用于机制策略-推荐降权

适用范围：不严重影响用户阅读体验，比如标题党、低俗等内容。

实现形式：

1）机制策略侧加上降权逻辑，降低此类内容在推荐列表排序，从而减小曝光量。

注意点：对于标题党、低俗等内容打压，势必会对大盘数据造成影响，因此需要AB实验验证打压策略的实际效果。

AB实验随机分桶，进行小流量实验
关注核心数据指标：人均人均点击、人均阅读时长、次日留存、3日留存等。
若实验收益负向，观察核心指标浮动区间是否稳定，找到平衡点，再上报领导层，对于实验的负向收益区间是否可接受。若可接受，可分阶段扩大流量上线。若不可接受，需要调整策略（建立低质内容分档分级，由严重到一般分级打压，给用户适应周期）。

2）搭建一套生态净化平台工具，灵活管控内容生态

生态净化工具可大致分为三个模块：模型内容特征参数配置→净化过滤任务配置→生效范围配置

模型内容特征参数配置：可实现对不同模型内容特征设定阈值，卡档分级，根据模型迭代优化效果，灵活调整参数配置。可支持随时增添新模型内容特征配置。
净化过滤任务配置：针对图文/视频/小视频等不同体裁分别配置过滤任务，可从一二级分类、标题关键字、内容属性特征（模型特征+人审标签）等维度进行配置。可支持随时添加新模型特征与人审标签。
生效范围配置：针对配置好的净化过滤任务，再次配置生效范围，可从用户性别与年龄，地域、手机型号与系统、bucket（流量分桶）等进行生效用户圈定。可支持随时添加新的特征字段。