买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于大数据的高危事件预警方法_南京视察者智能科技有限公司_202311804445.0 

申请/专利权人:南京视察者智能科技有限公司

申请日:2023-12-26

公开(公告)日:2024-04-05

公开(公告)号:CN117828077A

主分类号:G06F16/35

分类号:G06F16/35;G06F40/289;G06N3/0455;G06F16/215;G06Q50/18;G06Q50/26

优先权:

专利状态码:在审-公开

法律状态:2024.04.05#公开

摘要:本发明公开了一种基于大数据的高危事件预警方法,包括以下步骤:采集数据,构建数据仓库;利用文本聚类算法,对最近半年的诉求件按照诉求内容进行聚类,抽取出最近半年诉求件中反映的矛盾纠纷;筛选分析当天发生过诉求的事件话题,根据筛选后的各诉求件统计纠纷的特征;根据统计出的纠纷的特征,将其特征输入到高危矛盾判别模型中,得到事件是高危事件的概率。本发明实现了一种基于大数据的高危事件预警方法,整个从数据获取到高危矛盾判别预警的流程自动化程度很高,极大减少了人工识别耗费的人力物力。本发明基于机器学习训练的高危矛盾判别模型,精确率较高,能够避免人工识别存在的精确度差,主观随意性的问题。

主权项:1.一种基于大数据的高危事件预警方法,其特征在于,包括以下步骤:步骤1,采集诉求件数据并进行结构化处理存入数据仓库原始数据层;对所述原始数据层里采集到原始数据进行清洗、转化、提取特征的数据处理操作,将处理后的数据存入数据仓库明细数据层中;步骤2,从所述数据仓库明细数据层中读取诉求时间在最近半年的诉求件,利用预训练的Bert模型将诉求件的文本内容进行编码,转化为文本向量,使用Single-Pass算法基于上述得到的文本向量,对诉求件进行聚类;经过上述的聚类,所有诉求件都有其归属的话题,对每一个话题中的诉求件文本内容进行关键词抽取,抽取5个关键词后将其按照字典序升序排列,作为该话题的名称;步骤3,筛选分析当天发生过诉求件,根据筛选后的各纠纷下诉求件统计对应的10个特征,包括高危特征和其他特征;步骤4,构建高危矛盾判别模型:从步骤1构建的数据仓库明细层中读取所有历史诉求件,利用步骤2对历史所有诉求件进行聚类处理,得到所有历史诉求件的话题;对每一条历史诉求件a,执行如下操作:步骤4.1,筛选与该历史诉求件a归属同一个矛盾纠纷且诉求时间在该历史诉求件a诉求时间之前半年内的所有诉求件,从筛选出的包括a在内的诉求件中,统计n个样本特征,n大于10;步骤4.2,如果满足步骤3中所述的高危特征条件,那么将与该历史诉求件a归属于同一矛盾纠纷且诉求时间在该历史诉求件a时间之前半年内的所有历史诉求件都标记为高危诉求件;步骤4.3,将所有历史诉求件中被标记为高危诉求件的历史诉求件当作正例,未标记为高危诉求件的历史诉求件当作反例,构建模型样本数据集;在全部样本数据集上使用皮尔逊相关系数从n个特征中选择出重要性最高的10个特征,然后将数据集其他特征列过滤掉,只保留所述重要性最高的10个特征列和标签列,作为新的样本数据集;按照8:2的比例将样本数据集划分为训练集和测试集,在训练集上使用交叉验证的方法基于支持向量机SVM模型训练多个带超参数的模型,验证集占比为10%,SVM选用多项式核作为核函数;选择在验证集上效果最好的模型超参数,在训练集所有样本数据上进行训练,得到最终的模型,模型训练完成后,在测试集上进行测试,测试通过后即得到高危矛盾判别模型;根据统计出的诉求件的特征,将其特征输入到高危矛盾判别模型中,得到矛盾纠纷是高危矛盾的概率,根据预先设定的阈值区间,对矛盾纠纷进行ABCD级矛盾分类,ABC级矛盾均为高危矛盾,分别进行红色、黄色、蓝色预警;步骤5,一定周期基于前一周期内新增的诉求件数据更新模型训练样本,迭代模型以及对Bert预训练模型进行增量训练。

全文数据:

权利要求:

百度查询: 南京视察者智能科技有限公司 一种基于大数据的高危事件预警方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。