如何通过数据找到影响用户留存的关键因素？

2021-10-28 22:20:00

编辑导语：随着互联网流量红利见顶以及获客成本的升高，运营人员需要寻找影响用户留存的关键因素，做好存量运营。此时，利用数据分析，也许能够帮助运营人员找到关键因素所在。本篇文章里，作者便总结了如何在海量数据中找到影响用户留存关键因素的方法论，一起来看一下。

根据QuestMobile数据显示，2021年中国移动互联网用户规模保持在近11.6亿，2021年5月同比增速竟首次出现负增长，这意味着流量红利时代结束，进入存量争夺阶段。

而互联网不同赛道的玩家，也不得不把突破增长困局的关键点，放在如何提升存量用户的留存价值上。

在该背景下，作不甘沦为取数工具人的分析师，可以主动深入业务，通过海量数据挖掘出影响用户留存的关键指标，并结合业务逻辑，给出合理可行的建议。

接下来笔者会分享自己在工作中沉淀的一些留存分析方法论，给大家奉献满满的干货，别走开，精彩马上来~

分析框架：

一、确定留存的具体口径

首先要结合用户行为数据，或者基于业务常识，和业务人员对流失或者留存用户的口径达成一致。口径的确认点主要是：【多久（窗口期）】内没有发生【什么关键行为】会被定位为流失。

不同业务模式下的用户核心行为不同，比如对于交易平台，关键行为可能是下单；对于短视频平台，关键行为可能是播放视频；对于工具类APP，关键行为可能是启动APP。

窗口期的长短取决于，用户关键行为的发生频次高低。比如车主用户一般每隔14天加油一次，因此14天可以作为窗口期。

可以基于用户相邻两次关键行为天数间隔的75%分位数的方法确定窗口期的大小。比如，选取昨日发生过关键行为（比如下单、或启动APP）的用户作为研究对象。分析这些用户最近两次关键行为发生的间隔天数。如果75%用户的间隔天数都在 xx 天内，则 xx 天可以作为流失行为的窗口期。

可以选取用户静态画像、活跃行为类指标、付费行为类指标、以及其他核心行为类指标作为指标体系。也可以参考用研团队针对流失和留存用户的调研结果，为指标体系搭建提供新的思路。

一般的，用研团队对流失和留存用户的调研提纲如下：

1）流失用户

2）留存用户

巧妇难为无米之炊，数据是分析师必备的武器。用户调研结束后，数据分析师要尝试对调研结果中用户强烈吐槽或者十分满意的功能体验，尽可能抽象成可观测、可度量的数据指标。

比如用户吐槽刷到内容平台 APP 广告太频繁，可以将广告性质内容的曝光次数作为指标，纳入下一阶段的定量分析中；用户认为平台最大的优势在于有金币领取，可以将金币等指标体系纳入定量分析中。

影响用户留存或者流失的因素非常多，需要从众多指标中筛选出重要度较高的几个指标。以下有两种方法可以提供参考。

1）相关性分析

选出与留存率相关性系数较高的前几个行为，作为关键行为候集；同时还要考虑发生该行为的用户的渗透率高低、留存率提升幅度的高低，即要保证最终的留存人数处于较高的水平（留存人数 = 人数*渗透率*留存率）。

假设某个社交媒体平台 APP ，流失用户被定义为近7日未启动APP的用户。影响留存的指标、各指标与留存率间的相关系数、行为渗透率、留存率提升幅度见下表（具体数值均为模拟数据，请勿参考）。

超级产品经理

从上面的四象限图可以发现，播放短视频、金币页面访问等行为的渗透率较高，且留存率提升幅度也较高，因此可以作为影响留存的关键行为候选集。

2）基于各类树模型

各类树（决策树、随机森林、GBDT等）模型训练结束后，可以输出模型所使用的特征的相对重要度，可以解释哪些因素是对预测有关键影响，因此可以帮助我们快速找出对用户留存影响度高的关键因素。

① 特征选择

② 正负样本构建

先锁定特定日期范围（比如 2021.07.01-2021.07.07）的活跃用户，根据其是否在后续7天（2021.07.08~2021.07.14））活跃来划分正负样本。

正样本：留存用户，即前7-14日（2021.07.01-2021.07.07）启动过APP，近7日（2021.07.08~2021.07.14）启动过APP的用户；
负样本：留存用户，即前7-14日（2021.07.01-2021.07.07）启动过APP，但近7日（2021.07.08~2021.07.14）未启动过APP的用户。

③ 构建模型时的注意点