买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】网络实时热点话题挖掘解析与舆情提炼系统_王冰_202311813831.6 

申请/专利权人:王冰

申请日:2023-12-27

公开(公告)日:2024-03-29

公开(公告)号:CN117786249A

主分类号:G06F16/955

分类号:G06F16/955;G06F16/332;G06F16/35;G06F40/284;G06F18/22;G06F16/33

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.03.29#公开

摘要:本申请的网络实时热点话题挖掘解析与舆情提炼系统,可以针对特定的专题和领域发现热点信息,实现了一种网络热点爬虫系统,通过高性能架构保证数据的实时性,采用连环线性中文分词模型和基于频次的关键词选举方法找到关键词,通过关键词的相对时间密度来对关键词进行热度度量,采用基于同现度的关键词归纳聚类方法,实现一种基于关键词的话题生成策略,以及基于近似度哈希的海量文档归并方法。采用初始页面的噪音处理、特定领域的文本聚类、地名个性化识别、关键词实时选举提炼、基于字频的片段与短语提取、话题筛选提炼、基于共现度的话题生成、话题的消亡和合并,能够准确及时捕捉整个中文网络媒体网络热点。

主权项:1.网络实时热点话题挖掘解析与舆情提炼系统,其特征在于,一是网络热点的实时发掘与噪音处理,包括网络热点发掘、初始页面的噪音处理,二是舆情热点话题解析生成,包括前置处理、特定领域的文本聚类、地名个性化识别、连环线性中文分词模型、关键词实时选举提炼、基于字频的片段与短语提取、话题筛选提炼、基于共现度的话题生成、话题的消亡和合并;S1:构建一种高性能的网络热点爬虫架构,及时抓取网络中的网络热点,采用Mysql集群来构建关系型数据的存储,并采用Hbase集群和es集群存储舆情文档,采用Kafka作为消息队列用作消息传输的中间件,系统承载了巨大信息流量,支撑巨大的数据量;S2:构建一种基于滑动窗口字块密度视觉的正文提取方法,无需事先训练模型直接进行主题型网站的正文提取,作为补充,基于论坛类网站都采用通用模板,提出一种基于近似块的清除方法来提取正文,并将两种方法组合;S3:舆情热点话题解析生成,采用热门话题的发现、合并和消亡策略,基于频次找到关键片段,利用左右互信息和信息嫡提取短语,并选举关键词,对关键词进行热度解析和筛选,利用关键词的共现度对关键词进行聚类,形成一个词群,归纳为一个话题,利用话题关联的文档数目制定话题的生成和消亡方法,最后采用近似度哈希方法解决海量文档的近似文档归并问题。

全文数据:

权利要求:

百度查询: 王冰 网络实时热点话题挖掘解析与舆情提炼系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。