如何定性内容?先有标准后有天,用算法的眼光看内容

有一条视频描述了这样的场景:在某综艺节目中,一个篮球明星表演踢足球。

那么这条内容应该属于什么主题合适呢?

运营甲认为是综艺,因为视频的上下文是综艺节目;运营乙认为是足球,因为视频内主要的活动是在踢足球;运营丙则认为是篮球,因为主要人物是个篮球明星。

公说公有理婆说婆有理,大家各执一词最后无法形成共识,各自按各自的想法工作,导致统计口径不一致,严重影响业务的判断。

1. 为什么需要标准?

内容识别主要运用在内容分发和内容决策两个方面,在分发之前系统需要利用规则或者模型识别出内容的特征,方便给用户匹配感兴趣的内容。

以主题分类为例,我们需要一个模型能够自动识别一篇文章的主题是新闻、体育还是其它。而模型的训练很大程度上依赖于样本的标注,如果标注同学没有依据统一的标准进行标注,那标注的准确率就会很低,而以这些低准确度样本训练的模型准确率必然更低,这将直接导致主题模型不可用。

从内容决策的角度,错误的识别结果将直接导致错误的运营决策。假设上面训练出的错误模型会把新闻类的内容都标注成体育,这样运营人员误以为体育类内容很受欢迎从而大力引入、扶植体育类内容。最后不但导致浪费了大量资源,而且用户真正感兴趣的新闻类内容受到挤占,体验也相应地变差。

“标”是投射器,“准”是靶心。标准合用,意为行为和结果要相符,常用于工业生产领域。

国家标准GB/T 3935.1—83定义:

“标准是对重复性事物和概念所做的统一规定,它以科学、技术和实践经验的综合为基础,经过有关方面协商一致,由主管机构批准,以特定的形式发布,作为共同遵守的准则和依据。”

从国标的定义可以看出标准针对重复性的事物,结合实践,目的是让参与各方达成一致共同遵守。标准的一般呈现形式是一个文档,可以附带解释说明的文件。

对于给内容分类打标这样重复性的工作,主观性极强,如果不能统一参与同学的想法,打标效果就会有很大的水分。而且后面新来的同学也不能利用之前积累的经验,一开始工作可能无从下手,效率极低。

因此我们需要套用工业领域的标准,在内容领域建立内容标准,统一所以参与者的判断,出现不一致的情况下也能有据可依。

2. 如何制定标准

定制标准也是一门技术活,并非单纯罗列条款那么简单。我们接下来聊聊什么样的内容标准才是合格的,并用一个内容标准的实例来加以说明。

(1)标准的标准

标准的核心目标是让使用者能够快速与标准的描述达成一致,为了制订提高标准的质量和效率,可以给标准也规范标准,这样在后续制订各种不同标准的时候就有了参考依据。

  • 明确目标:首先需要明确的是标准的目标,整个标准主要面向什么类型的内容,有什么目的。让使用者充分意识到它的使用场景和价值,这样有利于标准后续的推动和执行;
  • 描述清晰:标准的描述语言尽量客观中立,不容易引起歧义,用定性的语言让使用者大致了解描述的是什么样的内容,给使用者一个大致的预期。但是定性描述还是含糊的,这时候需要定量描述来补充说明。如判断图片模糊的标准有两条候选。第一条是“图片模糊不清”;而第二条则更细致,“人物五官不清晰,出现明显的锯齿或马赛克或图片一半以上的面积模糊不清”。两边对比显然后者不容易产生歧义,方便执行;
  • 抓大放小:标准创作者的精力和知识有限,不可能穷举所有的情况。因此优先描述主要情况,对于不常见的情况可以忽略或简单描述。至于哪些是常见情况可以抽样统计获得;
  • 突出案例:如同英美法系以判例为重要依据,在标准的条款中加入真实的案例远比文字描述更加生动形象。值得注意的是反例和正例一样重要,反例就是那些容易出错的例子,加入到标准中有助于避免此类情况发生;
  • 明确边界:对于模糊有歧义的情况或者经常被误判的情况应当专门加以说明。

(2)一个典型的标准

下面展示一个实际被运用且符合上诉标准的“恶心(gross)内容标准”,由于案例图片可能引起读者不适就不在此呈现,但是真实标准中需要体现:

1)标准目标

部分内容中含有令消费者感到恶心不适的内容,直接展示给用户会严重影响观感。其中严重的部分会引起大多数人的强烈反感,应当直接下架处理;恶心情节较轻的内容,有部分用户不敏感,部分厌恶,则可以限制其曝光范围。本标准目标是识别此类内容,减少用户感到恶心的机会。

2)标准条款

情节严重者,使大部分用户会感到强烈不适,对未成年人有严重不良影响,应当做下架处理:

  1. 尸体:人体或动物恶心的尸体特写、人体或动物不完整尸体、大面积血腥的尸体;
  2. 伤口:人体或动物伤口的化脓感染的画面,大面积创伤等极度血腥的画面,解剖画面,器官流出带血画面;
  3. 女性来姨妈漏出,带血的卫生巾。

情节较轻者,部分用户感兴趣,部分用户不感兴趣,应限制其展示的范围,如仅关注的用户可以看到:

  1. 蠕虫、蛆、蚯蚓、黄鳝、寄生虫等无脊椎腔肠类动物特写场景;
  2. 蛇、蜈蚣、蟑螂等容易引起部分人恐惧的画面;
  3. 密集场景,容易触发密集恐惧症的画面;
  4. 痘痘、湿疹等密集出现或挤黑头、挤痘痘的视频;
  5. 耳屎、鼻屎等人体排泄物。

3)例外情况

  1. 游戏中爆头不算真人,血腥面积低于四分之一的可以放行;
  2. 纯医学研究内容中含血腥伤口和解剖画面可以关注可见。

(3)标准的执行

定制完标准后必然要实际运用起来,但是如果运用过程中不讲究技巧,容易造成推进困难导致标准被束之高阁,或者执行不到位。落地的第一步是要让新同学掌握新标准。

1)在检验中执行

握新标准需要经历如果1两个步骤:

首先由制定者或者熟练掌握的同学对新同学进行培训,从文档到新同学掌握需要一个转化过程,面对面的培训可以提高转化率。而且培训的过程中主讲人还可以根据新同学的反馈适当修改标准使之更容易理解。

培训完成后趁热打铁进行“试标注”以检验培训成果。标注的样本要求有足够多(经验值是半个工作日能完成的工作,一般500条以上),而其足够地均匀可以覆盖多数场景,这样检验的结果才有可信度。

熟练掌握标注的同学会整理一份“标注答案”然后于新同学的结果对比,相同即为准确。如果准确率达标则说明新同学已经熟练掌握,否则要进入下一轮培训,直到准确率合格。考虑到标准结果的重要性,通常要求准确率90%以上才算合格。

如何定性内容?先有标准后有天,用算法的眼光看内容

图1标准培训流程

2)在执行中检验

机器分类的过程如图2所示,从真实分类开始经历了标准制定、样本标注、模型训练到实际应用四个步骤,每个步骤的准确度和召回率召回率都有损失。

在实际操作中由于进文的变化会导致内容结构的变化,也就是真实分类变了,原本能覆盖大部分内容的标准会慢慢退化,最后与实际生产脱节。另外标注同学的标准水准也不是固定的,时常会忽高忽低有波动。同理模型也会退化,识别效果会逐步变差。

如何定性内容?先有标准后有天,用算法的眼光看内容

图2 真实分类与实际应用准确率的转化漏斗

因此整个漏洞中所有的步骤都要定期更新以保障最后实践的准确率能够维持在可用水平。特别是低俗低质内容和涉证敏感内容中,经常有新的变种出现,会导致模型遗漏。如果不及时更新标准和模型会给平台带来巨大的风险。

那么什么时候更新呢?

我们可以持续抽查线上内容的实际识别效果,如果低于某一阈值就需要及时更新漏斗中转化率的步骤。

[召回率] Recall Ratio,筛选出准确分类的内容量占实际分类内容量的占比。如总样本中有20条体育内容,但是实际被标注出了10条,那召回率就只有50%。

 

本文作者 @内容黑客 。

版权声明

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部