基于数据分析的帕金森用户需求报告
01 背景介绍
因为工作需要,花了点时间利用数据来分析了下帕金森病用户(不是患者)关注的需求,分析的结果与大家分享。
1.1 分析目标
分析帕金森病用户关注的内容,并了解些内容的重要性。
1.2 研究假设
本次研究过程基于以下假设:
- 用户的行为反应与其关注的内容有强相关性;
- 收集的数据真实的反应了用户的行为;
1.3 研究方式
通过分析用户之间讨论的话题以及用户浏览的资讯了解其关注的内容。
1.4 研究思路
(1)数据收集
话题可以从各个疾病相关的论坛,或者从相关产品的评论、意见反馈中收集。这里选取的是一个与帕金森相关的某论坛以及几个主流的资讯产品。
(2)数据分析
根据话题阅读量,筛选出用户阅读量较高的话题,通过自然语言技术提取内容的主题、标签,然后运用分类算法对主题和标签的进行分类,汇总出用户重点关注的话题内容。
根据资讯阅读量,筛选出阅读量前置的文章和后置的文章,同样进行标签处理归类,并与话题分析的结果比对,以此验证分析结果是否一致。
02 分析过程
2.1 数据概览
在收集到话题数据后先大致浏览下,检查有无缺省项或者无意义的数据,如果量不大可以直接删除掉。
经过统计得到有效话题总量是6840条,这个数量作为单一病种而言是很可观的,积累这么多内容的背后就是一大批用户在使用。
然后再对数据结构进行观察,下面是话题的数据结构。
不难发现这里的发表时间、阅读数、评论数三个指标是值类型(就是可以比较大小的数字),因此可以直接从这三个指标着手分析。
先看发表时间,对数据做个排序就可以知道最近的发表时间是2019年9月9日(数据从10月中旬开始采集),时间距离当前很近,说明目前仍有人在使用。最早的发表是2002年3月4日,距今已有17年半,论坛创建的时间越早,沉淀的内容越多是好事。
发表时间是在时间维度上是一个个的点,为了反映出整体规律,要考虑通过分组聚合。既然时间跨度较大,这里就采用年作为频率(月也可以,只是太细了),按年分组统计各年发表的文章见下图(2002年数据较少,2003年数据缺失所以未计入)。
从上图可以看到该论坛的发贴量大致分为三个周期:2008年以前在均值附近有较大波动,2009年有大幅涨增并至2013年,2014年后几乎逐年下降。从每年的发贴量似乎发现不了什么问题,围绕发表时间这个维度的分析就此打住,该现象背后的原因不在本次分析的范围内就不探究了(本人猜测可能与帕金森患者涨增或社会环境有关(如2013年前后智能机普及))。
接下来看阅读数指标,对所有话题的阅读数汇总后的累计阅读数是22,326,364,这是一个不小的阅读量,平均每年仅话题就有近130万的PV(全国帕金森患者大概200万左右,每年增量约10万),侧面说明采集的数据可以较好地反映帕金森用户关注的问题。
根据阅读数对话题降序处理,然后按10%的发贴数作为累进对阅读数求和,如下图所示。
从上图可以很直观地看有意思的事了,前10%的话题聚中了56.15%的阅读量,20%的话题产生了65.37%,虽然不符合二八规律,但是阅读聚中度依然很明显。因此可以从这20%的话题入手分析用户关注的内容(如果阅读量分布较为均衡就考虑采用分层抽样统计。只选20%的内容一方面是用户行为集中可以更好地突显问题,另一方面留80%的数据是为了选取测试数据作检验)。
2.2 对关注度较高的话题的内容分析
接下来采用自然语言技术对所有话题基于其内容提取出主题标签,浏览主题标签,根据标签内容对话题分类(分类可以手动,可以基于规则,也可以适用回归或决策模型后再调整,对分类后的结果再人工检查一遍),并将归类结果结合测试数据作F检验(与前20%话题的检验结果不一致,说明阅读量的大小与其内容有相关性),反复修整分类的划分,筛选出用户重点关注的问题(具体实现过程省略)。
对阅读数前置20%话题的内容分析结果如下图所示:
在分析之前我以为帕金森用户最关心的是求医的问题,毕竟患者都想找到技术精湛的专家治疗。但从上面可以看到帕金森用户最关注的是药物问题,为什么会出现这个结果,还要结合病种和患者特征解释。
首先,帕金森病目前无法被根治,只能通过医疗手段延缓病情发展,而当前最低成本最快见效的治疗方法就是吃药,因此也就意味着帕金森患者用药群体占有很大的比例(事实上几乎人人必须吃药)。其次,帕金森病发病的症状很多,不同的症状使用的药品也不尽相同,加之该病种主要集中于中老年人群体,受生理机能衰退影响,往往会有其它并发症出现,患者之间用的药品差异比较大。最后,药效影响也较大,即使相同症状的患者使用相同药品,受个体差异的影响,表现的药效也会有较大差异,甚至同个患者不同阶段和时间吃同样的药品反应的效果也会不同,所以药物问题一直备受用户关注。
帕金森用户关注的第二个问题是治疗方法,帕金森患者长期受帕金森困挠,得知一种新的治疗方法就如同有了一线改善的希望,这也是本能驱使。第三个问题是经历分享,帕金森患者的治疗经历大都很曲折,从他人分享的故事中不仅仅是吸取治疗经验,更是能获得百折不挠的情感共鸣,寻求心理慰藉。
并列第四、五位的是日常康复和症状应对,日常康复主要包含运动、饮食、锻炼和睡眠几方面,需要长期坚持并随病情变化做出对应调整;症状应对这类问题主要是患者出现异常症状或病情改善效果持续不佳时寻求帮助,这类帮助往往比较突发且频率不高,话题的深度也视内容而定。除了药物问题外就这四类问题较为受关注,且与病种有关,其它的问题关注度相对少了许多。
既然药物问题是帕金森用户关注的首要问题,因此有必要对药物问题再作细分,细分结果见下图:
对涉及药物相关的话题从讨论的目的这个维度再作细分,就可以发现大致可以分为两类,第一类是调整用药或了解药效(把二者划分为一个问题是因为多数话题中讨论用药效果的最终目的也就是想借鉴他人经验来调整自己用药)。现实场景中帕金森患者要经常找医生调整用药方案,但是就诊过程中医生很难精准掌握患者的病情,因此也难给出精确的用药方案。如果用药方案效果不佳,饱受症状的折磨之下患者自己常常会尝试调整用药方案,而调整的方向很大程度上借鉴其它患者与自己的病情是否相似,需要参考的因素有很多,比如年龄、病龄、严重程度、症状以及历史用药方案等。因此如何及时有效地调整用药方案成为帕金森患者群体中经常讨论的问题。
涉及药物的第二类是购买或转让药品,产生这个问题一方面是帕金森相关的很多药品经常断货或者供货渠道不稳定,为了保证药品的维持,不得不经常关注供货渠道或者托他人从境外代购,另一方面国内出售的帕金森药品并不便宜,而且多数患者用药的品种多且药量大(比如三年病程的帕金森患者经常每天吃四五次药,每次两三种),长期用药必然产生经济压力,被迫服用各类仿制药以降低治疗成本。
为了更直观地了解药物话题的内容,这里将涉及药物话题的主题词抽取出来制作成词云:
上面可以看到较为突出的词语有三类,第一类是药品,如雷沙吉兰、美多芭、森福罗、泰舒达等,第二类是与人相关,如病友、医生、朋友、患者等,第三类是信息词语,如效果、病情、经历等。那么这三类词语融合到一起,大概率就是想表达向这些人了解药品的效果或是了解某种病情下的用药过程。
再对排在第二的治疗方法同样作细分,细分的结果如下图所示。
治疗方法当中关注度最高的是新疗法,新疗法大部分是当前还处于研发或临床阶段的治疗方法,提供内容的主要是理论支持或是为数不多的几例试验结果,其实是真正落地仍然有较长时间,但是对于帕金森患者来说,每多一种方法就多一份希望和期待。
其次是中医中药类疗法,帕金森患者主要是中老年人,对中医疗法有着较高的接受度,这类疗法主要是草药、针炙、点穴、艾灸或其它一些偏方的应用,其效果不能一概而论是有效或是无效,但尝试的过程多少起到心理安慰的作用,积极的心理可以很好缓解抑郁状态。
再次是DBS(深度脑刺激)手术,这类手术是主要是将电极植入到患者脑内,运用脉冲发生器刺激其大脑深部的某些神经核,纠正异常的大脑电环路,从而减轻这些神经方面的症状。这是当前可以长期改善帕金森症状的有效疗法,但是接受度并不高,患者主要是对手术效果、费用及报销政策、就医水平、等方面产生担忧。
2.3 对阅读量最高的话题的情感分析
上面从阅读量前置20%的话题分析出的帕金森用户主要关注的是药物及治疗方法等问题,沿着阅读量这个维度,再看看阅读量最高的一个话题。
这个话题从2004年11月发布,至今积累的评论数达到1194条,阅读更是超过148万。话题讲述一位患者试了中医医生提供的中药后很快见效,该内容与前面分析的用户最关注的药物和中药问题一致,这也是该话题能产生如此大的访问量的根本原因。由于话题的内容具体,参与的用户众多,这次我尝试从情感层面整体分析用户对中药治疗帕金森的态度(原本是尝试直接提取观点的,但效果并不好),在置信度为0.8的条件下分析结果如下图所示。
对这则中药可以缓解帕金森症状的消息,67%的用户持积极或肯定态度,33%的用户持消极或质疑态度,两者正好二比一。表面上看对中药持肯定态度的用户占有大多数,但另一面却是几乎三个帕金森用户就有一人表示质疑,这个比例同样也很大,那么再接下来有必要对持积极和消极态度两类人群的观点梳理下。
上面是部分消极评论的内容,容易看出消极评论主要是配方成分不明、有无科学依据等,由此对该药物的使用产生防范心理,其背后是对信息不透明的担心,毕竟不良药品摄入人身的危害巨大,而更深层的原因是药物价值缺乏公信力。
持积极态度的评论的用户多是从获得的希望和实际效果两方面做出评论,这也与药物及新疗法关注度高的原因一致。
2.4 对阅读量高和阅读量低的文章的语义网络分析
以上是基于几千份用户讨论的话题分析出的用户需求偏好,文字交流只是用户行为中的一部分,那么,其行为特点在其它行为中是否还保持一致呢,为此,有必要再通过其它行为的偏好来验证这一结果。为了方便观察就选择阅读行为,通过阅读的内容来判断上面的需求是否成立。
为了更直观对比,阅读量降序后各选取前置20%和后置20%的文章来分析(约各取280篇)。接下来跟上面的分析话题的方式类似,通过自然语言处技术提取出主题标签,不过这次就不分类了,因为我想通过构建文章的语义网络观察具体的内容。
(阅读量前置20%的文章的语义网络)
(阅读量后置20%的文章的语义网络)
上面两张图非常直观地反应出了阅读量前置和后置各20%的文章的语义网络。标签图形越大反应出该标签的文章越多,网络线越粗表示连接的标签同时出现的频次越高。不难发现二者的网络内容存在较大差异,主要有这样几点。
第一、语义网络的复杂程度不同。相较于阅读量后置20%的文章,阅读量前置20%的文章的语义网络较为复杂,但中心标签与边缘标签分明,中心标签之间连接清晰,边缘标签几乎都直接连接中心标签。阅读量后置20%的文章的语义网络较为简单,中心标签与边缘标签无法清晰界定,且边缘标签多为间接连接中心标签。由此可以推测出阅读量高的文章的特点是内容紧扣主题,文章的深度主要表现涉及的信息又比较为广(边缘标签较多且复杂),简单地理解就是高阅读量的文章相对篇幅较大且紧扣主题,而低阅读量的文章比较泛泛而谈,缺乏实质内容。
第二、主要的主题标签不同。阅读量前置20%的文章的中心标签是药品、养生、运动,阅读量后置20%的文章的养生最突出,其次是静止性震颤、运动、饮食。两图的标签对比最显明的差别是阅读量前置20%的文章含有药品标签,并且该标签在语义网络中最醒目。这直接说明涉及药品的文章的阅读量较高,也说明用户较为关注药品类文章。
由此可见,帕金森用户对药物的高度关注在话题讨论上和阅读文章上是一致的,这说明了围绕的药物问题的确是帕金森用户的一大痛点。
03 总结
根据上面对帕金森相关话题和文章的分析,我们可以很清楚地看到,帕金森用户的线上需求主要是了解药物的使用和购买、当前或前沿的治疗方法、其它帕金森患者的治疗经历以及日常康复等信息。
其动机多是自己或家属人受帕金森病症的折磨,需要积累疾病管理知识,或是面临某些具体症状困挠时解决经验不足,需要寻求帮助或类似的解决经验,在寻求帮助的过程中目标往往很明确。因此,帕金森用户线上需求的本质是寻求以疾病问题解决为导向的经验分享。
那么围绕用户的本质需求,产品应该尽可能提供丰富的疾病资料或管理经验,提升用户获取解决方法的效果和效率。另外由于帕金森病患者的个体差异较大,遇到的问题也不尽相同,如何方便用户根据自己的问题匹配现有的他人经验就是产品的一大挑战。所以产品的核心应该是提升这些知识或经验的聚合以及内容的检索能力。
但是即使产品可以提供疾病相关的信息和经验分享,又如何让用户相信内容有价值并且参与到经验分享的过程,其关键是要构建用户与平台的信任关系。在前面分析阅读量最高的讨论中,帕金森患者愿意尝试中药除了自己身渴望改善的因素外,更多基于对版主和平台的信任。用户和平台天然没有信任关系,但患者之间是有信任的,因为彼此并没有利益输送,所以利用这种关系来构建用户与平台的信任将是一个重要突破口。
最后要说明的是本次基于数据分析的帕金森用户需求报告有两大局限性,一是侧重于用户交流内容,行为偏好较少,二是分析的颗粒度较大,比较宏观,欢迎广大PM共同探讨。
本文作者 @凌波 。
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!