通过抓包的方式分析一个恋爱交友类 app 数据
前言:
有一次一个人去餐厅吃饭
一个美女走过来问我:帅哥,请问这里有人么?
我羞涩的回答到:嗯美女,没有人
然后。。。她就把椅子搬走了Paste_Image.png
声明:
此文仅用于学习、研究,请不要非法使用。
任何由此引发的法律纠纷自行负责。
鲁迅说过:码农抓到的数据怎么能叫偷呢
鲁迅说过.png
步骤:
- Charles抓包。
- 写python脚本,从抓取的结果里面读取数据。
- 数据塞进sqlite里面。
- 数据导出到csv文件。
- 数据分析:csv文件可以自己写python代码进行分析,也可以上传到类似bdp.cn的网站或者其他类似工具进行分析。
踩坑:
token的期限比较短,app推出后token就会失效,所以app要一直开着。
很多无效的数据,不知道是刷了数据还是有用户被删除,将近8万个连续无效用户数据。之前没有记录这些无效用户,后来还是记录了,打了标记,便于分析。
有的数据里面有‘,’符号,在转json的时候会变成多份数据,解决方法:
'|'.join(decoded['key_info'].split(','))
处理出生地“广东 深圳”,增加两个额外字段:
ht_province, ht_city = decoded['hometown'].split(' ')[0], decoded['hometown'].split(' ')[1]
没开多线程,大概10w条数据,跑的还蛮久的 = =
数据:
日活跃:
日活跃.png
男女比例:
男女比例.png
手机比例:
手机比例.png
付费情况:
占比还挺好的,将近50%的人付费
男生付费用户比女生多一半,女生都很节俭啊,很好
付费情况.png
学历情况:
本科人数最多,大专第二
硕士跟高中学历紧跟其后
像我这种小学生不多
学历情况.png
学校
深大的妹纸很多啊
学校.png
年龄段分布:
年龄主要集中在1983~1994(900人以上)
峰值在1988年
前三甲:1988,1990,1989
看着这么多“中年人”,我们这些老年人也很绝望啊年龄段分布.png
年龄段分布.png
身高分布:
身高分布.png
体重分布:
体重分布.png
职业&企业:
科技行业排第一啊,主要是腾讯
银行,教师,医院,财务,紧跟其后
职业.png
企业.png
婚恋情况:
婚恋情况.png
现居住地:
来的都是深圳人
现居住地.png
用户出生地:
前三甲:深圳,湖南,湖北
用户出生地.png
用户出生地.png
有效用户占比:
为-1的都是无效用户,有效用户大概只有20%
原因未知,不知道是测试数据,还是有用户退出,或者是非法用户被删
这些用户基本上都是连号
Paste_Image.png
生肖:
生肖.png
星座:
星座.png
代码(简陋):
分析数据报表链接:
后记:
- 不研究一下大数据你都不知道有多绝望(妹纸有多难找&创业有多难)!
作者 爱笑的小pp
关键字:产品经理, 数据, png
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!