买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于深度学习的企业舆情监测方法_海纳致远数字科技(上海)有限公司_202010784664.7 

申请/专利权人:海纳致远数字科技(上海)有限公司

申请日:2020-08-05

公开(公告)日:2024-04-30

公开(公告)号:CN112035658B

主分类号:G06F16/35

分类号:G06F16/35;G06F16/31;G06F16/36;G06F16/34;G06F40/216;G06F40/289

优先权:

专利状态码:有效-授权

法律状态:2024.04.30#授权;2020.12.22#实质审查的生效;2020.12.04#公开

摘要:本发明公开了一种基于深度学习的企业舆情监测方法,其包括:话题分类,主题及热词提取,资讯调性分析,话题调性分析,话题和资讯的声量、生命值分析,关联资讯推荐,资讯摘要抽取。本发明将海量资讯舆情信息形成话题,深度挖掘话题中的焦点舆情;轻量级模型的设计,提出一种针对样本不平衡情况对资讯评论分类概率进行调整的方法,使模型的准确率和F1值大幅提升;利用腾讯近义词功能扩充情感词,减少大量人工成本;开发了多维度指标对舆情的传播状况及发展趋势进行全方位的跟踪与展示,并且提供了长幅度资讯的摘要及纯净的相关资讯推荐。

主权项:1.一种基于深度学习的企业舆情监测方法,其特征在于,其包括以下步骤:话题分类:获取资讯的标题和内容,计算任两篇资讯的标题的Jaccard相似度,若Jaccard相似度大于第一设定阈值则将两篇资讯归为同一话题,否则对两篇资讯的内容进行Simhash编码,计算两个Simhash编码的Hamming距离,若Hamming距离大于第二设定阈值则将两篇资讯归为同一话题,否则认为不是同一话题资讯,分类后的同一话题中将最新发布的资讯的标题作为该话题的标题展示;主题及热词提取:根据预先定义的主题-热词词典检索出同一话题下所有资讯包含的热词,通过主题与热词的映射关系得出同一话题所涉及的主题集合;提取同一话题下的所有资讯内容中关键词作为主题热词的备用词库,进而调用腾讯词向量,通过计算主题与关键词的相似度,将相似度大于第三设定阈值的关键词归入相应主题热词中,构建关键词与主题的对应关系;资讯调性分析:根据标注的资讯评论数据训练深度网络模型,网络模型框架包括输入层、嵌入层、双向GRU层、全局池化层及Softmax层;话题调性分析:对于同一话题下的每条资讯,提取并筛选具有情感倾向的关键词并对关键词进行近义词扩充以作为该条资讯的情感词,再对该条资讯的情感词进行加权求和以判断该条资讯的情感倾向,最后分析同一话题下正负面资讯占比;话题和资讯的声量、生命值分析:在统计资讯和相应话题的声量时,考虑转发量、评论量、点赞量、网民参与度、资讯发布用户质量、曝光度、热度等维度,并且按小时和天为单位分别进行实时统计,从而达到对舆情传播状况进行全方位追踪的目的;生命值的变化反应了舆情发展的趋势,生命值通过声量中的热度值衍生得到;关联资讯推荐:设置两个阈值进行分割,选取相似度在两个阈值之间的资讯作为同一话题下的备选关联资讯,计算该备选关联资讯与关联资讯集合中的若干条资讯的相似度,判断计算出的相似度中最小值是否小于给定的两个阈值中较大阈值来决定该备选关联资讯能否添加到关联资讯集合中;资讯摘要抽取:对资讯中所有的句子进行重要度评估,评估的维度包括句子的位置信息、句子长度及其对全文的概括能力,对各维度的数值进行量化并加权融合得以选出评估值最高的若干个句子组成自动摘要;话题和资讯的声量、生命值分析的步骤包括:步骤S1:追踪每个小时的资讯转发量、评论量和点赞量,并计算资讯的曝光度、热度、生命值、网民参与度及其资讯发布用户质量;资讯曝光度exposure_value定义为转发量forward_times、评论量reply_times和点赞量positive_times的加权求和:exposure_value=α*forward_times+β*reply_times+γ*positive_times.6式6中的α,β,γ为权值系数;资讯热度heat_value定义为曝光度与时间间隔的比值: 式7中的date_now为当前日期,publish_time为资讯发布日期;网民对资讯的参与度participation_level定义为: 式8中的θ为常数,e为自然常量;资讯发布用户质量user_quality定义为: 式9中分子表示资讯评论的点赞量;资讯的生命值life_value定义为: 式10中的θ与式8相同;步骤S2:在步骤S1完成资讯的声量和生命值统计后,对话题进行声量、生命值计算,话题的曝光度定义为该话题下所有资讯曝光度的加和,话题的参与度定义与式8相同,不同的是exposure_value表示话题的曝光度;话题的用户质量、热度分别为该话题下所有资讯发布用户质量、热度的平均值,然而话题生命值的定义与式10相同,不同的是heat_value表示话题的热度;步骤S3:在步骤S1完成资讯当天每个小时的声量和生命值统计后,提取当天最后一个小时的结果数据作为资讯按天统计的声量和生命值;步骤S4:在步骤S2完成话题当天24个小时的声量和生命值统计后,提取当天23点这个时刻的数据作为话题按天统计的声量和生命值指标结果。

全文数据:

权利要求:

百度查询: 海纳致远数字科技(上海)有限公司 基于深度学习的企业舆情监测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。