买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于频繁词集与BERT语义的微博热点话题发现方法_北京工业大学_202110182129.9 

申请/专利权人:北京工业大学

申请日:2021-02-09

公开(公告)日:2024-03-29

公开(公告)号:CN113032557B

主分类号:G06F16/35

分类号:G06F16/35;G06F16/335;G06F16/951;G06F16/9536;G06F40/194;G06F40/289;G06F40/30;G06F18/23213

优先权:

专利状态码:有效-授权

法律状态:2024.03.29#授权;2021.07.13#实质审查的生效;2021.06.25#公开

摘要:本发明公开了一种基于频繁词集与BERT语义的微博热点话题发现方法,首先对微博文本分别进行频繁词集挖掘和BERT句向量表示,构建基于频繁词集和BERT句向量的文本双表示模型计算文本融合相似度进行话题谱聚类,再引入H指数进行热点话题评估,然后构建基于频繁词集与BERT语义的文本双表示模型,最后进行热点话题评估分析。本发明通过分析现有的话题热度计算方法,提出用话题词热度、用户参与度并结合H指数来计算微博话题热度值,更符合微博传播特性,从更全面的角度对话题热度进行评估。

主权项:1.一种基于频繁词集与BERT语义的微博热点话题发现方法,其特征在于:该方法包括如下步骤:步骤1、获取微博数据集;步骤1.1、在微博平台上随机爬取海量微博数据作为训练BERT预训练模型的数据集;步骤1.2、采用爬虫技术以定主题的方式爬取某段时间内微博热点话题数据集;步骤2、数据预处理及特征词汇提取;步骤2.1、对获取的微博数据集中的热点话题数据进行预处理,包括数据清洗、中文分词处理、停用词处理;步骤2.2、使用TF-IDF和TextRank进行特征词汇提取;步骤3、构建基于频繁词集与BERT语义的文本双表示模型;步骤3.1、对处理后的微博热点话题数据集进行频繁词集挖掘,并计算频繁词集相似度;步骤3.2、对处理后的微博热点话题数据集进行BERT句向量表示,并计算BERT语义相似度;步骤3.3、利用频繁词集相似度和BERT语义相似度构建文本双表示模型计算微博文本融合相似度进行话题谱聚类;步骤4、热点话题评估分析;通过引入H指数并结合话题词热度和用户参与度两个维度对话题聚类结果进行热度值计算;采用频繁词集和BERT语义两个维度进行微博文本表示;频繁词集相似度采用Jaccard相似度来进行度量,如公式1所示: 其中M和N表示两个不同的微博热点话题文本,M.txt和N.txt表示由频繁词集表示的微博热点话题文本,countM.txt∩M.txt表示两个微博文本共有的频繁词集的个数,countM.txt∩M.txt表示两个微博文本一共含有的频繁词集的个数,Jaccard_SimM,N表示两个微博热点话题文本之间的频繁词集相似度;BERT句向量语义相似度采用两个文本之间的余弦距离来表示,如公式2所示: 其中M.vec和N.vec由BERT模型训练而得到的微博热点话题文本句向量,Vec_SimM,N表示两个微博热点话题文本之间的BERT语义相似度;最终文本相似度采用加权集成策略由频繁词集相似度和BERT语义相似度得到,如公式3所示:SimM,N=αJaccard_SimM,N+1-αVec_SimM,N3其中SimM,N表示两个微博热点话题文本最终的融合相似度,α是调节权重参数。

全文数据:

权利要求:

百度查询: 北京工业大学 一种基于频繁词集与BERT语义的微博热点话题发现方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。