买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种展示社交媒体热点子话题的文本可视化方法_北京邮电大学_202110303027.8 

申请/专利权人:北京邮电大学

申请日:2021-03-22

公开(公告)日:2023-05-02

公开(公告)号:CN113157908B

主分类号:G06F16/34

分类号:G06F16/34;G06F16/35;G06F40/216;G06F40/284

优先权:

专利状态码:有效-授权

法律状态:2023.05.02#授权;2021.08.10#实质审查的生效;2021.07.23#公开

摘要:本发明提供了一种展示社交媒体热点子话题的文本可视化方法,包括如下步骤:步骤S101,输入社交媒体文本语料集,得到文档词项矩阵;步骤S102,计算词与词之间的共现后验概率矩阵;步骤S103,计算未在原始短文本中出现的词可以填充到该文本中的概率,将概率最大的N个词填充到原始短文本后;步骤S104,文本聚类;步骤S105,对步骤S104得到的各个文本簇分别提取关键短语和关键语句;步骤S106,基于关键短语对各个文本簇分别生成词云图;步骤S107,使用FoamTree组合各个词云图进行文本可视化;步骤S108,使用JavaScript监听到维诺图某个区域被点击时展示对应文本簇的关键语句。采用本发明的方法,可以清楚地区分出社交媒体文本语料集的各个子话题,对社交媒体舆情监测具有一定意义。

主权项:1.一种展示社交媒体热点子话题的文本可视化方法,其特征在于包括如下步骤:步骤S101,输入社交媒体文本语料集,进行数据清洗和停用词过滤,得到文档词项矩阵;步骤S102,根据词与词是否在同一文档中共同出现计算词与词之间的共现后验概率矩阵;步骤S103,根据词与词之间的共现后验概率,基于在原始短文本中出现的词计算未在原始短文本中出现的词可以填充到该文本中的概率,将概率最大的N个词填充到原始短文本中完成特征扩展以解决短文本语义稀疏性的问题;步骤S104,在数据预处理后的语料集上进行文本聚类;步骤S105,对步骤S104得到的各个文本簇分别提取关键短语和关键语句;步骤S106,基于关键短语对每个文本簇分别生成词云图;步骤S107,使用维诺图JavaScript框架FoamTree组合步骤S106生成的各个词云图进行文本可视化;步骤S108,使用JavaScript的事件监听器监听到维诺图的某个区域被点击时展示对应文本簇的关键语句;步骤S102中计算词与词之间共现后验概率矩阵的方法符合以下公式: 公式中pwj|wm表示词wm出现时词wj出现的概率,nwm,di表示在文档di中词wm出现的次数,函数C为统计次数的函数;步骤S103中计算未在原始短文本中出现的词可以填充到该文本中的概率符合以下公式: 设语料集词典的大小为M,词wj未在原始文档中出现,公式中vti,j表示词wj可以填充到文档di后作为扩展特征的概率,也可以理解为虚拟词wj对于文档di的权重,具体的特征扩展方法为如果某个短文档的词项个数少于某一阈值,则挑选语料集词典中未在原始文档出现的权重最大的若干虚拟词填充到原始文档后直到文档的词项个数达到阈值。

全文数据:

权利要求:

百度查询: 北京邮电大学 一种展示社交媒体热点子话题的文本可视化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。