分析了 130W 字的数据,我知道了用户在想什么

本文作者将介绍一种通过分析用户产生的内容了解用户最近关注的内容,最终帮助改善产品的方法。

网上流传着张小龙的对于乔老爷的一段评价:

乔布斯最厉害的地方是什么?他说乔布斯1秒钟就能变成白痴,这是他最厉害的地方。那马化腾呢?他大概需要5秒钟。而我差不多需要10秒钟。

这里的“白痴”并非字面意思,而是指产品经理在使用产品,构思产品功能的时候,能抛弃掉自己固有的思维身份, 用同理心将自己转变为一个产品的典型用户,站在用户的角度去思考问题,而且能够在多种不同的用户角色之间进行切换。
分析了130W字的数据,我知道了用户在想什么
外人看来好似十分简单,然而真正有过产品工作经验的人都知道,要抛弃掉自己过往的思维习惯,将自己转化为一个用户是多么的困难!
更多的时候我们通过场景分析,来假设自己是产品在某个场景下的特定用户,或通过用户画像来使得用户轮廓清晰起来,但也很难做到短时间内将自己转化为一个用户,真正以用户的思维去体验和思考产品。
“白痴”不易,但用户在想什么还是要知道啊?
怎么办!?
How to do?
常见了解用户的方法有用户调研,用户访谈,用户研究等等
除此之外,常见的还有一种——数据分析,通过数据分析来揣摩用户的心里,猜测用户的需求。
本文要介绍的数据分析和提前在功能上线前埋点,再分析埋点数据来辅助产品决策有所不同。
这类的数据通常是用户产生的内容,没办法直接获取可用的量化数据,特别有几十万的文本内容数据的时候,面对一大段一大段的文字,根本无从下手。
而仅仅分析内容的平均字数显然意义不大,针对内容本身的分析才更有价值。
下面介绍一种 通过分析用户产生的内容了解用户最近关注的内容,最终帮助改善产品的方法。

三步走

1)收集用户的内容数据

2)提取内容关键词

3)分析关键词,运用于产品

第一步的收集用户内容数据中,我通过采集数据的软件收集了用户在某天的咨询问题,共15859条。

通过软件采集获得的数据

· 提取内容

通过第一步抓取用户的数据,成功获得

《带有大量文本内容的 数据 表格》 X1

仅将其中的咨询内容单独拎出,就已经有130W字的内容数据。

咨询的文本数据

但是这些内容数据长短不一且数据量并不小,问的问题也不尽相同 ,例如

“片子是术前的还是术后复查的。术前膝关节是什么症状?目前膝外侧是痛还是肿?偶发的还是一直持续的?”

“谢谢主任的讲解,那到底现在能不能做手术呢?毕竟是肿瘤也不能拖。”

“孩子年龄很小,夜里踢被子很容易胃部受凉而出现上述症状!建议多喝白开水、、少吃多餐、肚脐贴,必要时去医院看看”

如果仅仅针对一个句子一个句子进行分析,不单没法量化,而且需要花费大量的时间,咋办?

一句一句分析的办法肯定行不通,这时候就要祭出提取关键词大法了。

关键词提取

通过关键词提取软件,将上述的大段文本切成不同的词汇,再找出关键词,将关键词按照词频和权重进行排序,就知道哪些词汇是用户提及最多,最重要的。

什么是关键词?

这里可能要问,什么是关键词?

高中时候我们都作过阅读理解,关键词就是在一篇阅读理解中反复出现或比较重要的词汇。

这里我们有两个概念

一个是词频,用来描述出现的次数; 一个是权重,用来表示这个词汇的重要程度。

例如““片子是术前的还是术后复查的。术前膝关节是什么症状?目前膝外侧是痛还是肿?偶发的还是一直持续的?””

切词之后就变成“片子,是,术前,还是,术后,复查…”

“术前”的词频为2,因为它出现了两次,但是“术前”词汇的权重呢?这里无法直接给出,但是 在统计学上,越常词汇的权重就越小 ,例如“我,你,他”,同理,不常见的词汇,例如“肿瘤”,权重就会较大。

不同词汇在不同的语境下的重要程度是不同的 ,假如一篇专门讲述手术的文章,和一篇专门讲述糖尿病的文章都有提及“糖尿病”这个词汇,词汇“糖尿病”明显对于讲述糖尿病的文章是更重要的,但是词汇“糖尿病”在不同的文章中的权重又相同。

这时候如何突出关键词“糖尿病”词汇对于糖尿病文章的重要性呢?

为了思考这个问题,逛了逛知乎,在上面看到了一种关键词提取的理论——TF-IDF法

TF-IDF=词频(TF)*逆文档频率(IDF)

原理这里不展开讲,我们可以简单粗暴的理解为一个关键词的重要程度可以这样判断

关键词重要程度=词频*权重

提取关键词的方法理论比较复杂,但我们不需要了解背后的机制,使用一些切词软件就能帮我们提取出大段内容的关键词,而且还含有词频和权重(至于这些切词软件是否使用的是TD-IDF的理论不得而知,暂且认为是吧。)

这样,通过切词软件,我们终于从一堆长长的文本中提取出了关键词。

得到 《带有词频及权重的关键词表格》 X1

提取皮肤科的关键词

导出Excel表格将关键词的词频和权重分数相乘再倒序排列,这样我们能知道哪些词汇是出现频率高且权重大的关键词。

· 分析关键词,运用于产品

经过前面两步,我们手中已经有了

《带有大量文本内容的 数据 表格》 X1

《带有词频及权重的关键词表格》 X1

对着这两个表格,我们能做些什么?

先说个题外话,前阵子有位仁兄抓取了大量民谣的歌词,统计了歌词中常出现的词汇,同时使用了腾讯文智和哈工大社会计算与信息检索研究中心的自然语言处理模块,对这些词汇的感情色彩进行分析。

得出了如下结论:

在我的统计中,出现最多的几个意象是:再见,姑娘,夜空,孤独,快乐。

如果把民谣拟人化,那应该是一个喜欢南方的北京小伙子,觉得世界很操蛋,但骂归骂,到底是对生活有希望的,憧憬着明天,在春天感到快乐,在冬天感到孤独,没有女朋友,但有几个纠缠不清的前女友,经常和她们见面,见面的地方可能是成都,昆明,南京,上海,武汉。

也许你认为这些关键词最大的用户无非就是写篇文章,博众人一笑,成为闲暇的谈资,那就错了!

既然这些关键词从真实的用户中来,那么通过关键词也能了解用户在想什么,也能用于产品中,例如运用于点评,咨询,文章,内容推荐等等。

关键词的运用场景

1. 点评

如果内容数据从点评中来,那么可以筛选出好评,中评,差评的内容,分别提取出对应评价的关键词。

在产品功能上,提供点评的便捷输入的标签,而标签的内容,就可以是用户常常使用的词汇(既你提取出的关键词)。

点评功能运用关键词草图

提供这些便捷输入能提升点评的体验,也能促使用户点评,提高总体的点评量。

2. 文章

一篇好文章最怕的是没有阅读量,但单单靠标题党绝对不是长久之计,真正从内容下功夫才是王道。

在对的场景中将用户感兴趣的文章推荐给他是提升阅读量的有效方法。

以医疗举例,在皮肤科的专题页面中,通过分析皮肤科用户的咨询数据,了解用户最常咨询的关键词是“湿疹”、“皮疹”、“皮炎”、“皮损”等等,那么文章的选题就可以从这些用户常咨询的关键词入手来展开。

文字选题运用关键词

3. 咨询主诉内容的填写

通过分析咨询内容,在用户填写自己病情的时候,显示出来对应的关键词标签,让用户点击快速输入,减少用户手动输入的内容。

既能帮助用户实现更高效的输入方式,同时通过标签的提醒,也能提醒用户自己是否存在同样的症状,在描述症状是更加的仔细,提高咨询填写主诉的质量。

4. 建立疾病和对应的同义词库

脑洞再大的时候(这里可能不科学,纯属脑洞),我们去分析某个疾病下用户的关键词是什么,将这些描述症状的关键词设为疾病的同义词,让两者建立关联关系。

这样做的好处在于, 让用户在搜索某个疾病的症状的时候,例如牙疼,那么就能通过这些描述症状的关键词去找到对应的疾病名,提示用户可能的疾病是什么,提高搜索的准度。

· 分析关键词,运用于产品

至此,通过三步骤

1) 收集用户的内容数据,我们获得了

《带有大量文本内容的数据表格》 X1

2)通过提取内容关键词,我们获得了

《带有词频及权重的关键词表格》 X1

3)通过分析关键词,运用于产品,我们可能会获得

点评功能 X 数据上涨 ↑

资讯功能 X 数据上涨 ↑

咨询功能 X 数据上涨 ↑

搜索功能 X 数据上涨 ↑

YY模式,还可能获得升职加薪,迎娶白富美,当上CEO,走上人生“癫疯“” :)

关键词运用的场景还能有很多,可以慢慢挖掘。

推荐阅读

有了手机号快捷登录,还需要密码登录吗?

账号体系设计:如何解决手机号二次使用导致的账号问题

作者 朱利安

关键字:数据, 产品经理

版权声明

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部