买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种网络舆情主题及其关注用户群体的发现方法_之江实验室;合肥工业大学_202111299225.8 

申请/专利权人:之江实验室;合肥工业大学

申请日:2021-11-04

公开(公告)日:2024-03-29

公开(公告)号:CN114003815B

主分类号:G06F16/9535

分类号:G06F16/9535;G06F16/9536;G06Q50/00

优先权:

专利状态码:有效-授权

法律状态:2024.03.29#授权;2022.02.22#实质审查的生效;2022.02.01#公开

摘要:本发明公开了一种网络舆情主题及其关注用户群体的发现方法,其步骤包括:1构建舆情文档中数据集合,2建模舆情文本话题,关注舆情文本话题的用户群体,3设计有参贝叶斯模型,4利用坍塌式吉布斯抽样算法进行参数推断。本发明在应对大规模的在线社交媒体内容以及社交用户评论行为时,一方面能够结合主题分析快速、有效、准确地发现网络中的舆情主题,有助于舆情检测,为舆情的引导和控制提供决策支持;另一方面能够识别关注每个舆情话题的用户群体,实现对社交媒体用户依据关注话题的异同进行快速精准的分类。

主权项:1.一种网络舆情主题及其关注用户群体的发现方法,其特征是按如下步骤进行:步骤1、构建舆情文档数据集D:步骤1.1、构建舆情文档数据集D中的舆情文本内容集合,记为W={w1,w2,...,wm,...,wM},其中,wm表示第m条舆情文本内容的文本数据,并有其中,表示第m条舆情文本内容的第t个单词,Nm表示第m条舆情文本内容中单词的数量,M表示舆情文本内容的数量;步骤1.2、构建舆情文档数据集D中的评论用户集合,记为U={u1,u2,...,um,...,uM},其中,um表示第m条舆情文本内容的文本数据wm下的评论用户集合,并有其中,表示第m条舆情文本内容的文本数据wm下的第e个评论用户,Em表示第m条舆情文本内容的文本数据wm下的评论用户数量;步骤1.3、构建包含舆情文本内容集合W和舆情文本内容下的评论用户集合U的舆情文档数据集合D={W,U};步骤2、建模舆情文本话题和关注舆情文本话题的用户群体:步骤2.1、指定舆情文本内容集合W中的舆情主题个数为K;步骤2.2、指定用户群体的个数为K;步骤3、设计有参贝叶斯模型;步骤3.1、对于所述舆情文本内容集合W中的K个舆情主题,按照式1分别生成第k个舆情主题下的词分布其中,表示第n个单词在第k个舆情主题下所占的兴趣权重,N表示舆情文本内容集合W中不重复的单词数量; 式1中,β是狄利克雷分布的超参数,且φk服从狄利克雷Dirichlet分布;步骤3.2、对于所述舆情文本内容下的评论用户集合U中的K个用户群体,按照式2分别生成第k个用户群体下的用户分布其中,表示第p个评论用户在第k个用户群体中所占的兴趣权重,P表示评论用户集合U中的用户数量; 式2中,β′是狄利克雷分布的超参数,且φ′k服从狄利克雷Dirichlet分布;步骤3.3、建模舆情文本内容的话题分布和关注用户群体分布;步骤3.3.1、对于社交媒体上的每一条舆情文本内容,按照式3生成第条舆情文本内容的舆情主题分布其中,表示第k个舆情主题在第m条舆情文本内容的文本数据wm中所占的权重; 式3中,α是狄利克雷分布的超参数,且服从狄利克雷Dirichlet分布;步骤3.3.2、按照式4生成对所述第m条舆情文本内容的文本数据wm受关注的用户群体分布其中,表示第k个用户群体在第m条舆情文本内容的文本数据wm下所有评论用户中所占的权重; 式4中,α′是狄利克雷分布的超参数,且服从狄利克雷Dirichlet分布;步骤3.4、定义第m条舆情文本内容中的所有单词的舆情主题编号为其中,表示第m条舆情文本内容的文本数据wm中第t个单词的舆情主题编号,且服从参数为的多项式分布,和构成狄利克雷分布与多项式分布的共轭;定义第m条舆情文本内容的文本数据wm中的第t个单词服从参数为的多项式分布,其中,表示第m条舆情文本内容的文本数据wm中第t个单词在所属的舆情主题下的概率分布;步骤3.5、定义第m条舆情文本内容的文本数据wm下的所有评论用户所属的用户群体编号为其中,表示第m条舆情文本内容的文本数据wm下的第e个评论用户所属的用户群体编号;从所述第m条舆情文本内容的文本数据wm中的所有单词的舆情主题中均匀抽取,且服从参数为的多项式分布,且和构成狄利克雷分布与多项式分布的共轭;定义第m条舆情文本内容的文本数据wm下第e个评论用户服从参数为的多项式分布,其中,表示第m条舆情文本内容的文本数据wm下的第e个评论用户在所属的用户群体中的概率分布;步骤4、对舆情主题下的单词分布用户群体下的用户分布第m条舆情文本内容的文本数据wm的主题分布以及第m条舆情文本内容的文本数据wm下关注的用户群体分布进行参数推断;步骤4.1、根据式5采样第m条舆情文本内容的文本数据wm中第t个单词的主题 式5中,表示第m条舆情文本内容的文本数据wm中第t个单词的舆情主题编号,表示第m条舆情文本内容的文本数据wm中排除第t个单词之外的所有单词,表示第m条舆情文本内容的文本数据wm中排除第t个单词之外,其余单词对应的舆情主题,z′表示所有评论用户所属的用户群体编号,表示第m条舆情文本内容的文本数据wm中除第t个单词之外,其余单词属于第k个舆情主题的数量,Nm表示第m条舆情文本内容的文本数据wm中所有单词的数量,Pm表示第m条舆情文本内容的文本数据wm下所有评论用户的数量,表示除第m条舆情文本内容的文本数据wm中除第t个单词之外的单词v分配给第k个舆情主题的次数,表示除第m条舆情文本内容的文本数据wm中第t个单词之外的分配给第k个舆情主题的单词总数;步骤4.2、根据式6采样第m条舆情文本内容的文本数据wm下第e个评论用户所属的用户群体编号 式6中,表示第m条舆情文本内容的文本数据wm下第e个评论用户所属的用户群体,表示第m条舆情文本内容的文本数据wm下排除第e个评论用户之外的所有用户,表示第m条舆情文本内容的文本数据wm下排除第e个评论用户之外,其余用户所属的用户群体,z表示所有舆情舆情文本内容的文本数据中单词所属的主题编号,表示第m条舆情文本内容的文本数据wm下排除第e个评论用户之外,其余用户属于第k个用户群体的数量,Nm表示第m条舆情文本内容的文本数据wm中所有单词的数量,Pm表示第m条舆情文本内容的文本数据wm下所有评论用户的数量,表示除第m条舆情文本内容的文本数据wm下第e个评论用户之外的用户p属于第k个用户群体的次数,表示除第m条舆情文本内容的文本数据wm下第e个评论用户之外的属于第k个用户群体的用户总数;步骤4.3、重复执行步骤4.1和步骤4.2,并利用坍塌式吉布斯采样算法对第m条舆情文本内容的文本数据wm中第t个单词的舆情主题编号和第m条舆情文本内容的文本数据wm下第e个评论用户所属的用户群体进行更新,直至达到迭代次数I0,从而得到更新结果,即舆情文本内容集合W中所有单词的主题编号以及所有评论用户所属的用户群体编号;步骤5、基于所述更新结果,分别利用式7、式8、式9、式10估计第k个舆情主题的词分布第k个用户群体下的用户分布第m条舆情文本内容中的主题分布以及第m条舆情文本内容受关注的用户群体分布 式7-式10中,表示所述更新结果中第n个单词被分配给第k个舆情主题的次数,表示所述更新结果中所有单词中被分配给第k个舆情主题的单词总数,表示所述更新结果中第e个评论用户被分配给第k个用户群体的次数,表示所述更新结果中所有评论用户中属于第k个用户群体的用户总数,表示所述更新结果中第m条舆情文本内容的文本数据wm中第n个单词被分配给第k个舆情主题的次数,表示所述更新结果中第m条舆情文本内容的文本数据wm下第e个评论用户被分配给第k个用户群体的次数。

全文数据:

权利要求:

百度查询: 之江实验室;合肥工业大学 一种网络舆情主题及其关注用户群体的发现方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。