知识图谱在内容类产品中的应用
一、前言
知识图谱相信大家已经不陌生,已经大家比较熟知的一个词汇了。最早知识图谱是谷歌为了优化搜索引擎提出的一套理论体系。最常见的大家如果搜索“王健林的儿子是谁”,有了知识图谱的加持,搜索引擎会直接告诉你答案是王思聪,而不是去检索“王健林的儿子是谁”这句话。
如今的知识图谱已经广泛应用于各种智能场景。例如在金融领域反欺诈的应用,最常见的我们发现两个不同的信贷客户使用的竟然是同一个手机号,发现这类异常,我们再去进一步深挖原因,避免欺诈情况发生。
在NLP(Natural Language Processing,自然语言处理)中,知识图谱常用于实体统一。正常的NLP如果没有特殊配置,计算机一定是不理解“ICBC”就是指的是“中国工商银行”。通过知识图谱将“ICBC”都统一为“中国工商银行”。
另外通过知识图谱在指代消解中的应用,增加计算机对于文本理解的准确率。知识图谱适用的领域还非常多,在此就不列举了。
本文主要讨论通过知识图谱在内容类产品中的应用,提高内容类产品的品质,进而提升客户满意度与产品的竞争力。
二、我们的痛点
目前处于信息大爆炸的时代,我们每时每刻都接收大量信息。当我们在搜索引擎或是内容类应用去查看信息时,往往会给我们呈现许多与我们不相关的垃圾信息。有些信息是在内容创作阶段,通过各种抄袭拼凑而生成文章,最后呈现给用户结果虽然很多,但毫无价值,也提升了用户的检索成本。
相信大家在日常使用中,也有同感,当我们去搜索想要的信息时,往往会出来一大堆,信息过于分散,也不成体系。
我们需要有一种平台,可以给我们提供相对比较纯净、权威的信息。我们的生活需要高品质,不论是物质生活还是精神生活。信息是我们精神生活的重要组成部分,同样我们也需要有成体系的、有深度的内容出现。
三、目前现状
目前内容类的应用很多。几乎每个领域都有每个领域的核心内容供应商。比如自己查看产品相关文章,几乎不会去使用搜索引擎检索文章,而是到相应的产品网站去查看或检索内容。主要是一种信任感。所以平台内容的品质很重要。
通常内容创造,主要分为:OGC(Occupationally Generated Content, 职业生产内容)、PGC(Professionally Generated Content,专业人士输出内容)和UGC(User Generated Content,用户输出内容)。一般OGC和PGC生成的内容品质较高,但毕竟人力有限,依赖UGC可以短时间内产生大量内容,但内容的品质不能保证,过多的垃圾内容,反而会降低内容平台的权威性。
如何能提高内容数量的同时,又不影响内容的品质,这是内容类产品必然要考虑的一个问题。
四、知识图谱如何应用于内容类产品
对于内容类产品,如果你是内容类产品的产品经理,需要制定一个关于你所负责的内容类产品的“北极星”指标,你会怎么制定?
是产品的DAU(Daily Active User,日活跃用户)、MAU(Monthly Active User,月活跃用户)还是ARPPU(Average Revenue Per Paying User,平均每付费用户贡献的收入)?
这些指标其实都可以人为去干预。就像是公交车总公司要求提升乘客上座率,结果公交车分公司为了提升上座率,减少了公交车的座位数,指标是达到了,但没解决本质问题。
好的产品一定不是通过指标制定出来的。而是去发现本质的问题,解决最核心的问题。对于内容类产品而言,你的内容质量提升了,用户在第一时间很方便找出他们需要的信息,觉得产品整个使用过程简洁流畅,这就可以了。
所以内容类产品的“北极星”指标应该设定为:提升内容品质,增加优质内容数量。
内容品质上去了,浏览量自然就上来了。
如何提升内容类产品的品质?
结合个人多年实际工作经验,我认为最主要有三点:
- 平台的内容不能有重复。很明显,用户到一个平台中,看到的都是一些重复的内容,肯定对这个平台印象很差,就很难产生信任,就更不必说去推荐给其他人了。
- 平台的内容不能有明显的错误。内容类产品内容是其产品最为核心的竞争力。内容要确保其权威性,当用户需要某些信息时,可以很自信地说,来源于XX平台。这就要求平台上的内容要很精准。
- 平台的内容要方便获取。用户需要某些信息时,平台可以很快速地响应用户的诉求,节省用户信息检索成本。如何通过知识图谱实现上述目标?
如上图所示。我们可以按上图所描述的框架进行内容类产品知识图谱的构建。
我们知道,一般OGC和PGC的内容会有专门的人员进行校对和审核,而UGC的内容,平台往往没有非常多的人力去做这个事情。
目前内容类平台,基于AI(Artificial Intelligence,人工智能)技术,主要是NLP技术,对于内容类的应用,主要是用于对非法内容的审核。而对于内容品质的管理——不冗余、准确且易获取,就需要用到上述的知识图谱框架来进行实现。
首先,我们对用户发表的内容进行数据转换与统一,因为用户输入的内容,可能是文字、声音或是视频。根据不同结构的数据统一转换成结构化数据。
其次,我们对转换与统一好的数据进行数据建模,并进行知识抽取。生成基本的知识体系。为后续的知识融合与计算奠定基础。
再次,我们进行知识融合与计算。这一步是知识图谱在内容类产品中的应用关键。在这个步骤中,我们可以发现平台内冗余的内容信息。
例如,某一个用户发表的内容在介绍月球,有如下知识图谱信息(使用JSON表示):
{“实体名称”:”月球”,”实体信息”:[{“英文名称”:”moon”},{“分类”:”卫星”},{“公转周期”:”约27.32天”},]}
如果另一个用户发表的内容,抽象出来的图谱信息和上一个用户的知识图谱内容是一样的,基本我们可以判断是一个冗余信息。只不过我们可以通过设定图谱的权重进一步为内容进行打分。
正常情况下,用户检索内容的时候,更多的是希望获得答案,比如提问“月亮的公转周期是多少?”,我们只需要给用户提供结果“约27.32天”就可以。
另外,在这个知识融合的过程,通过知识图谱可以发现异常与错误的内容。
例如,图谱中,我们已经定义地球是圆的,突然出来用户的文章,说地球是方的。两个内容,抽象出的“地球-形状-圆形”与“地球-形状-方形”,有明显的不一致。就可以快速发现异常信息。经过人工与是计算机AI进一步进行对内容的处理,将优质的信息上浮,使劣质的信息下沉或消亡。
最后,就是知识图谱的最终呈现。
用户希望在平台获得某些内容时,我们除了直接为用户提供其需要的答案外,我们还可以通过知识图谱将结果内容进行关联化展示,使用户清晰地了解到内容以及答案的来龙去脉与因果关系,在内容的广度和深度上服务于用户。
五、小结
未来的互联网会向着元宇宙(Metaverse)方向发展。在这里,就像是电影《黑客帝国》中所描述的场景,我们会通过脑机接口,在一个浩瀚的虚拟的时空中进行集合。在这个时空里,人将会同计算机无缝整合,AI也会达到前所未有的高度。
内容,本身就是一个虚拟世界。内容平台,本身也是一个元宇宙的平台。虚拟的世界,也是世界。内容平台的内容,本身也会像是宇宙一样,浩瀚无边。
虽然说互联网是开放的,但是我们与不能因为开放,而放弃对高品质内容的追求。正是因为开放,我们更要有一种机制来维护这个社区的健康有序发展。
而知识图谱,将会是内容平台中的一种隐形的规则,确保在内容平台中,每个参与者所提供内容的严肃与高品质。这也是未来元宇宙健康蓬勃发展的关键。
#作者#
王佳亮,微信公众号:佳佳原创。中国计算机学会(CCF)会员,专注于互联网产品设计理念分享。
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!