买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于BERT-BTM网络的微博突发事件检测方法_北京工商大学_202011109749.1 

申请/专利权人:北京工商大学

申请日:2020-10-16

公开(公告)日:2024-04-16

公开(公告)号:CN112257429B

主分类号:G06F40/284

分类号:G06F40/284;G06F40/216;G06F40/242;G06F16/33;G06F16/35;G06F16/36

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2021.02.09#实质审查的生效;2021.01.22#公开

摘要:本发明公开了基于BERT‑BTM网络的微博突发事件检测方法,读取微博数据集,对所述微博数据集进行处理,获得原始数据集;将所述原始数据集进行向量化处理,得到向量化处理后的词向量集,然后通过调用预训练BERT模型对所述基础BERT词向量集处理,得到BERT词向量集;构建BERT‑BTM模型,通过所述BERT‑BTM模型对所述原始数据集进行处理;构建BERT‑BTM网络,然后对所述BERT‑BTM网络进行划分,完成突发事件检测。本发明解决了现有微博突发事件检测方法中短文本数据稀疏、无法解决一词多义的问题,并提高了突发事件检测效率。

主权项:1.基于BERT-BTM网络的微博突发事件检测方法,其特征在于,包括以下步骤:S1、读取微博数据集,对所述微博数据集进行分词处理,然后去除停用词,获得原始数据集;S2、将所述原始数据集进行向量化处理,得到向量化处理后的词向量集,然后通过调用预训练BERT模型对所述向量化处理后的词向量集处理,得到BERT词向量集;所述BERT词向量集为各条微博中的词所对应的词向量组成的词向量集;S3、根据狄利克雷先验参数α和融合了所述BERT词向量集的先验参数βi构建BERT-BTM模型,通过所述BERT-BTM模型对所述原始数据集进行处理,获得突发事件词集;S4、根据所述突发事件词集和所述突发事件词集中的词与词之间的共现关系,构建BERT-BTM网络,然后对所述BERT-BTM网络进行划分,完成突发事件检测;所述步骤S3包括:S3.1、构建BERT-BTM模型:根据狄利克雷先验参数α计算所述微博数据集中的事件分布θ,根据所述事件分布θ计算所述事件分布θ所对应事件z;根据融合了所述BERT词向量集的先验参数βi计算事件z对应的事件词分布φ;根据所述事件z和事件词分布φ计算一个词对的2个不同的词wi、wj;S3.2、利用BERT-BTM模型对所述原始数据集进行处理,形成词对;S3.3、将输入数据输入到BERT-BTM模型得到输出数据;所述输入数据包括事件数目、迭代次数、所述α、所述βi、词对集、词典大小;所述输出数据为突发事件分布;所述事件数目为所述微博数据集中事件z的个数;所述词对集为所述原始数据集中词对的集合;所述词典大小为所述原始数据集不重复的词的数目;所述步骤S3.3,具体包括:S3.3.1、为所述词对b随机分配主题;S3.3.2、进行N次迭代,对词对集B的每个词对b进行处理;S3.3.3、计算事件分布pz和事件-词分布pwz: 上述两式中,表示事件z分配给词对b的次数;nb表示所述原始数据集中词对的数量;Tα表示事件数目;表示事件z分配给词wi的次数;表示词w分配给事件z的次数;M表示词典大小;S3.3.4、根据所述pz、pwz得到词对-事件分布pzb: 其中,pwiz表示事件z对应的词wi的概率分布,pwjz表示事件z对应的词wj的概率分布;S3.3.5、计算得到文档-词对分布pbd: 其中,ndb是词对b在文档d中出现的频率;所述文档d和所述原始数据集为同一数据集;S3.3.6、根据所述词对-事件分布pzb和文档-词对分布pbd,计算得到文档-事件分布Pzd: 其中,pzb是词对-事件分布,pbd是文档-词对分布,Pzd是文档-事件分布。

全文数据:

权利要求:

百度查询: 北京工商大学 基于BERT-BTM网络的微博突发事件检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。