用户人群精推基础算法
编辑导语:随着互联网的发展,越来越多的APP开始进行精准化的算法推荐,算法的应用越来越普及,但算法有利也有弊。近期,国家便对算法进行了整治,但综合来说,算法的精准推送利大于弊。本文就几种基础的算法进行了总结与思考,与大家一同探讨。
随着互联网的发展,越来越多的App开始进行精准化的推荐。随之而来的则是千人千面,算法的应用以及维度的分析越来越精确。是好事也非好事,虽然增加了沉浸式的体验,但在娱乐化的平台则物极必反,自发用户高质量的内容减少,随之而来的则是无趣及用户体验的疲劳。
但是综合来讲精准推荐利大于弊,它是很好的增加用户粘性的一种方式,今天只是说几种最基础的算法,对于精准推荐的利弊,在接下来的文章会进行详细的分析。以下仅个人观点,不喜勿喷。谢谢大家。
我们先以标签为例来进行分析。
一、算法的基础
Apriori算法用于挖掘出数据关联规则的基础算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于我们做一些决策。
比如在常见的超市购物数据集,或者电商的网购数据集中,如果我们找到了频繁出现的数据集,那么对于超市,我们可以优化产品的位置摆放,对于电商,我们可以优化商品所在的仓库位置,达到节约成本,增加经济效益的目的。
同样一个用户总浏览相同的形式的内容,那么你就更加精确发现其兴趣点,及其其他相关产品进行推荐。
Aprior算法是一个非常经典的挖掘算法,很多算法都是基于Aprior算法而产生的,包括FP-Tree、GSP、CBA等。这些算法利用了Aprior算法的思想,但是对算法做了改进。生命的真谛不就是在于不断进步?
二、FP Tree算法
这个算法是我在刚进行算法精推时的首选,结构比较简单,适用于刚刚搭建的阶段。
这里对FP Tree算法流程做一个归纳。FP Tree算法包括以下几步:
1)首先扫描数据,得到所有频繁1项集的的计数。然后删除支持度低于阈值的项,将1项频繁集放入项头表,并按照支持度降序排列。项头表支持度必须大于百分之20才可进行记录其中。
2)其次将原始数据剔除支持度低于百分之20的数值,重新得到数据集。
3)读入排序后的数据集,插入FP树,插入时按照排序后的顺序,插入FP树中,排序靠前的节点是祖先节点,而靠后的是子孙节点。如果有共用的祖先,则对应的公用祖先节点计数加1。插入后,如果有新节点出现,则项头表对应的节点会通过节点链表链接上新节点。直到所有的数据都插入到FP树后,FP树的建立完成。
4)从项头表的底部项依次向上找到项头表项对应的条件模式基递。从条件模式基递归挖掘得到项头表项的频繁项集。
5)如果不限制频繁项集的项数,则返回步骤4所有的频繁项集,否则只返回满足项数要求的频繁项集。
这样有相同的因素出现时,我们可以简单的理解为其相关性,这些相关性我们可以把标签当作一个值来进行系统的初期分配。
同样还有其他的算法GSP, CBA、CBA算法+关联Apriori算法、
机器学习-规则与关联规则模型Apriori、FP-Growth等有待发掘。
三、其他形式
当然算法不能只关注标签的应用。同样以某短视频为例。其搜索的算法还包含,当下热点、用户的浏览记录、关注的事物、以及标签、搜索热词等等。这些均需算法进行推动才可以做到千人千面,达到商业价值。把商业价值做到无感又大的流量曝光才是王道。
这是我前端时间对标签化算法的思考进行一个记录、能力不高请多担待。如有大神还是蛮乐意去学习的。
作者:苗小丰
作者 @汪仔5338
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!