全球专利数据要怎么玩才有趣?之 突发热词(四)

一、说职场故事

在实际产业研究中,有这样的研究需求:

  • 捕捉企业的最新研究热点
  • 了解某位专家的近期研究热点
  • 掌握特定区域近期研究热点

本文将探讨如何利用全球专利数据挖掘技术,揭示近期的研究热点。

二、热词的计算方法

在深入挖掘之前,我们首先需要了解热词的计算方法。热词指的是在特定时间内,出现频率低但增长迅速且具有持久性的词汇。

计算热词的方法主要包括:

  • 贝叶斯平均法
  • 牛顿冷却定律

1、贝叶斯评价法

全球专利数据要怎么玩才有趣?之 突发热词(四)

v: 某一个词出现的总频词

m : 所有的词出现的频次总和/词的数量

R:某个词当前出现的次数/该词出现的所有次数

C:∑ R /词的数量,即所有词的平均基础得分

WR越大,说明热度越大

如下计算方式:

全球专利数据要怎么玩才有趣?之 突发热词(四)

2、牛顿冷却定律

全球专利数据要怎么玩才有趣?之 突发热词(四)

为了防止除数为0,可以将公式改为:

全球专利数据要怎么玩才有趣?之 突发热词(四)

冷却系数越大说明热度越大。

三、说应用场景

根据不同的研究需求,我们可以选择相应的专利数据集,并通过分词技术(如jieba分词、LAC分析或大型语言模型)进行处理。然后,根据贝叶斯平均法或牛顿冷却定律计算候选词的热度,并按降序排列筛选出热词。

全球专利数据要怎么玩才有趣?之 突发热词(四)

在实际中有以下应用场景:

  • 捕捉企业的最新研究热点:获取企业专利数据集,计算最近时间内企业出现的热词及热度。
  • 了解某位专家的近期研究热点:根据专利发明人和专利申请人获取某个专家在最近时间内出现额热词及热度。
  • 掌握特定技术的近期研究热点根据IPC获取专利数据集,计算某个技术最近时间内出现的热词及热度。
  • 揭示特定区域的近期研究热点:获取区域内专利数据集,计算区域最近时间内出现的热词和热度。

四、写在后面的话

本文介绍了利用贝叶斯平均法和牛顿冷却定律计算热词的方法,在实际应用过程中注意使用的灵活性:

  • 计算方式的灵活性:在实际计算热词可以将贝叶斯平均法、牛顿冷却定律结合使用,综合热度= a * WR + b *a(W),其中a,b可以根据实际效果不断调参。
  • 使用对象的灵活性:热词挖掘方法不仅限于全球专利数据,也适用于其他时间序列的文本文件,如论文、期刊和项目数据。
作者:王海涛
一位资深产品经理,将十年来 项目管理、产品管理经验以故事形式进行分享

版权声明

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部