用户人群精推基础算法

2021-09-14 18:55:00

编辑导语：随着互联网的发展，越来越多的APP开始进行精准化的算法推荐，算法的应用越来越普及，但算法有利也有弊。近期，国家便对算法进行了整治，但综合来说，算法的精准推送利大于弊。本文就几种基础的算法进行了总结与思考，与大家一同探讨。

随着互联网的发展，越来越多的App开始进行精准化的推荐。随之而来的则是千人千面，算法的应用以及维度的分析越来越精确。是好事也非好事，虽然增加了沉浸式的体验，但在娱乐化的平台则物极必反，自发用户高质量的内容减少，随之而来的则是无趣及用户体验的疲劳。

但是综合来讲精准推荐利大于弊，它是很好的增加用户粘性的一种方式，今天只是说几种最基础的算法，对于精准推荐的利弊，在接下来的文章会进行详细的分析。以下仅个人观点，不喜勿喷。谢谢大家。

我们先以标签为例来进行分析。

一、算法的基础

Apriori算法用于挖掘出数据关联规则的基础算法，它用来找出数据值中频繁出现的数据集合，找出这些集合的模式有助于我们做一些决策。

比如在常见的超市购物数据集，或者电商的网购数据集中，如果我们找到了频繁出现的数据集，那么对于超市，我们可以优化产品的位置摆放，对于电商，我们可以优化商品所在的仓库位置，达到节约成本，增加经济效益的目的。

同样一个用户总浏览相同的形式的内容，那么你就更加精确发现其兴趣点，及其其他相关产品进行推荐。

Aprior算法是一个非常经典的挖掘算法，很多算法都是基于Aprior算法而产生的，包括FP-Tree、GSP、CBA等。这些算法利用了Aprior算法的思想，但是对算法做了改进。生命的真谛不就是在于不断进步？

这个算法是我在刚进行算法精推时的首选，结构比较简单，适用于刚刚搭建的阶段。

这里对FP Tree算法流程做一个归纳。FP Tree算法包括以下几步：

1）首先扫描数据，得到所有频繁1项集的的计数。然后删除支持度低于阈值的项，将1项频繁集放入项头表，并按照支持度降序排列。项头表支持度必须大于百分之20才可进行记录其中。

2）其次将原始数据剔除支持度低于百分之20的数值，重新得到数据集。

3）读入排序后的数据集，插入FP树，插入时按照排序后的顺序，插入FP树中，排序靠前的节点是祖先节点，而靠后的是子孙节点。如果有共用的祖先，则对应的公用祖先节点计数加1。插入后，如果有新节点出现，则项头表对应的节点会通过节点链表链接上新节点。直到所有的数据都插入到FP树后，FP树的建立完成。

4）从项头表的底部项依次向上找到项头表项对应的条件模式基递。从条件模式基递归挖掘得到项头表项的频繁项集。

5）如果不限制频繁项集的项数，则返回步骤4所有的频繁项集，否则只返回满足项数要求的频繁项集。

这样有相同的因素出现时，我们可以简单的理解为其相关性，这些相关性我们可以把标签当作一个值来进行系统的初期分配。

同样还有其他的算法GSP, CBA、CBA算法+关联Apriori算法、

机器学习-规则与关联规则模型Apriori、FP-Growth等有待发掘。

当然算法不能只关注标签的应用。同样以某短视频为例。其搜索的算法还包含，当下热点、用户的浏览记录、关注的事物、以及标签、搜索热词等等。这些均需算法进行推动才可以做到千人千面，达到商业价值。把商业价值做到无感又大的流量曝光才是王道。

这是我前端时间对标签化算法的思考进行一个记录、能力不高请多担待。如有大神还是蛮乐意去学习的。

作者：苗小丰

作者 @汪仔5338

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！