【发明授权】一种基于频繁词集与BERT语义的微博热点话题发现方法_北京工业大学_202110182129.9

导航：龙图腾网> 最新专利技术> 一种基于频繁词集与BERT语义的微博热点话题发现方法_北京工业大学_202110182129.9

申请/专利权人：北京工业大学

申请日：2021-02-09

公开（公告）日：2024-03-29

公开（公告）号：CN113032557B

主分类号：G06F16/35

分类号：G06F16/35;G06F16/335;G06F16/951;G06F16/9536;G06F40/194;G06F40/289;G06F40/30;G06F18/23213

优先权：

专利状态码：有效-授权

法律状态：2024.03.29#授权;2021.07.13#实质审查的生效;2021.06.25#公开

摘要：本发明公开了一种基于频繁词集与BERT语义的微博热点话题发现方法，首先对微博文本分别进行频繁词集挖掘和BERT句向量表示，构建基于频繁词集和BERT句向量的文本双表示模型计算文本融合相似度进行话题谱聚类，再引入H指数进行热点话题评估，然后构建基于频繁词集与BERT语义的文本双表示模型，最后进行热点话题评估分析。本发明通过分析现有的话题热度计算方法，提出用话题词热度、用户参与度并结合H指数来计算微博话题热度值，更符合微博传播特性，从更全面的角度对话题热度进行评估。

主权项：1.一种基于频繁词集与BERT语义的微博热点话题发现方法，其特征在于：该方法包括如下步骤：步骤1、获取微博数据集；步骤1.1、在微博平台上随机爬取海量微博数据作为训练BERT预训练模型的数据集；步骤1.2、采用爬虫技术以定主题的方式爬取某段时间内微博热点话题数据集；步骤2、数据预处理及特征词汇提取；步骤2.1、对获取的微博数据集中的热点话题数据进行预处理，包括数据清洗、中文分词处理、停用词处理；步骤2.2、使用TF-IDF和TextRank进行特征词汇提取；步骤3、构建基于频繁词集与BERT语义的文本双表示模型；步骤3.1、对处理后的微博热点话题数据集进行频繁词集挖掘，并计算频繁词集相似度；步骤3.2、对处理后的微博热点话题数据集进行BERT句向量表示，并计算BERT语义相似度；步骤3.3、利用频繁词集相似度和BERT语义相似度构建文本双表示模型计算微博文本融合相似度进行话题谱聚类；步骤4、热点话题评估分析；通过引入H指数并结合话题词热度和用户参与度两个维度对话题聚类结果进行热度值计算；采用频繁词集和BERT语义两个维度进行微博文本表示；频繁词集相似度采用Jaccard相似度来进行度量，如公式1所示：其中M和N表示两个不同的微博热点话题文本，M.txt和N.txt表示由频繁词集表示的微博热点话题文本，countM.txt∩M.txt表示两个微博文本共有的频繁词集的个数，countM.txt∩M.txt表示两个微博文本一共含有的频繁词集的个数，Jaccard_SimM,N表示两个微博热点话题文本之间的频繁词集相似度；BERT句向量语义相似度采用两个文本之间的余弦距离来表示，如公式2所示：其中M.vec和N.vec由BERT模型训练而得到的微博热点话题文本句向量，Vec_SimM,N表示两个微博热点话题文本之间的BERT语义相似度；最终文本相似度采用加权集成策略由频繁词集相似度和BERT语义相似度得到，如公式3所示：SimM,N＝αJaccard_SimM,N+1-αVec_SimM,N3其中SimM,N表示两个微博热点话题文本最终的融合相似度，α是调节权重参数。

全文数据：

权利要求：

百度查询：北京工业大学一种基于频繁词集与BERT语义的微博热点话题发现方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种便携式放线架_高炜精密电子(东莞)有限公司_202322772571.4

下一篇：一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

相关技术

一种便携式放线架_高炜精密电子(东莞)有限公司_202322772571.4

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

一种滑套式HDMI数据线_深圳市海鑫达连接线有限公司_202322633970.2

一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

4G/5G+北斗+Lora机车远程控制装置_宁夏宁东铁路有限公司_202322827126.3

无线遥控理疗床_泰安市迈迪医疗电子有限公司_202322303870.3

一种环保型水处理设备_南京云涧环境科技有限公司_202322651322.X

一种精密小磨床用物料固定装置_昆山法尔霆机电科技有限公司_202322612017.X

龙图腾网&IPTOP

【发明授权】一种基于频繁词集与BERT语义的微博热点话题发现方法_北京工业大学_202110182129.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务