买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种环境类投诉举报事件相似度分析方法_北京工业大学_202110282614.3 

申请/专利权人:北京工业大学

申请日:2021-03-16

公开(公告)日:2024-03-15

公开(公告)号:CN113064962B

主分类号:G06F16/33

分类号:G06F16/33;G06F40/289;G06F18/214;G06N3/02

优先权:

专利状态码:有效-授权

法律状态:2024.03.15#授权;2021.07.20#实质审查的生效;2021.07.02#公开

摘要:本发明公开了一种对环境类投诉举报事件进行相似度分析的方法,旨在提高判断精度和人员的工作效率。该发明的实施包含以下几个步骤:首先获取一定数量的环境类投诉举报数据,数据应包含组成投诉举报事件的几项基本要素以及每两条事件之间的相似度;计算每两条投诉举报事件之间各个要素的相似度并构造事件的相似度数组,作为样本数据;将样本数据划分为训练集和测试集,利用训练集对广义回归神经网络GRNN进行训练,建立相似度计算模型,并采用经过改进的果蝇优化算法IFOA对模型的参数进行动态优化,进而提高模型的精度。本发明适用于环境类投诉举报事件的相似度分析,具有较高的精度,解决了人工判断所造成的精度低且效率低的问题。

主权项:1.一种环境类投诉举报事件相似度分析方法,其特征在于:包括以下步骤:步骤1事件要素相似度计算步骤1.1获取的环境类投诉举报数据,数据当中包含组成投诉举报事件的几项基本要素,即举报事件的发生时间、举报事件发生所在地的地点名称、举报事件所处的处理阶段、举报对象的名称以及举报人对举报事件的描述文本,数据当中还包含每两条投诉举报事件之间的相似度数值,并且确保这些数值是准确无误的;步骤1.2计算每两条投诉举报事件之间的发生时间相似度,具体的计算方法如下: 上式中,SimTimeA,B指的是两条投诉举报事件的发生时间相似度,A、B均为举报事件编号,TimeA、TimeB分别指事件A、B所对应的发生时间;步骤1.3计算每两条投诉举报事件发生所在地的地点名称相似度;将所获取到的地点名称先根据中国行政区划规则进行规范化处理,即通过与中国行政区划名称进行匹配的方法将其表示为如下形式:省级地名+地级地名+县级地名+乡级地名+其它地名在上述针对地名的规范化处理当中,如遇缺失信息则将其所对应的位置空出;将根据地点名称的层次进行相似度计算,具体的计算方法如下:设投诉举报事件A、B的地点名称LocationA、LocationB的形式如下: 投诉举报事件的地点名称相似度计算方法如下: 其中,SimLocationA,B指的是两条投诉举报事件的地点名称相似度,PrA、PrB分别指事件A、B的省级地名,CiA、CiB分别指事件A、B的地级地名,CoA、CoB分别指事件A、B的县级地名,StA、StB分别指事件A、B的乡级地名,OrA、OrB分别指事件A、B的其它地名;步骤1.4计算每两条投诉举报事件的处理阶段之间的相似度;采用判断事件处理阶段是否相同的方式来衡量其相似度,具体方法如下: 上式中,SimStatusA,B指的是两条投诉举报事件的处理阶段的相似度,A、B均为举报事件编号,StatusA、StatusB分别指事件A、B所处的处理阶段;步骤1.5计算投诉举报事件的对象名称相似度;对于举报对象名称之间的相似度,采用Levenshtein编辑距离法来进行计算,其计算公式如下: 上式中,SimObjectA,B指的是两条投诉举报事件的举报对象名称相似度,A、B均为举报事件编号,ObjectA、ObjectB分别指举报事件A、B所对应的举报对象名称,|ObjectA|、|ObjectB|分别指名称ObjectA、ObjectB的字符长度,edObjectA,ObjectB表示将名称ObjectA转换为ObjectB所需要的最小操作数;由于Levenshtein编辑距离的取值范围在[0,+∞之间,为了便于后期对数据进行分析以及建立模型,需要对数据进行归一化处理,归一化的计算方式如下: 上式中,fx为归一化函数,x为数据集中的某一个元素,xmax为数据集中的最大值,xmin为数据集中的最小值;步骤1.6计算每两条投诉举报事件之间举报人对举报事件的描述文本相似度:采用基于余弦距离的文本相似度计算方法,具体实施步骤如下:首先,利用jieba分词工具对文本进行词语切分,同时采用向量空间模型VSM法对文本进行建模,模型的表达形式如下:Di=Dt1,w1;t2,w2;…;tn,wn7上式中,Di为某条投诉举报文本的空间向量,i为其编号,tn为投诉举报文本当中某个词语所对应的子向量,wn为其权重,n为子向量的标号;其次,采用词频-逆向文档频率算法对文本模型进行特征提取;其计算方法如下:Pi=tfij×idfi8上式中,Pi为每一个词语的综合频度,tfij为某个词语在一篇文档中出现的频率,idfi为包含某个词语的文档占整个文本集的比例,i为词语标号,j为文档标号;经过特征提取后,文本就被表示成降维的词向量,如下所示:D′i=Dt1,w1;t2,w2;…;tk,wk9上式中,Di’为某条投诉举报文本所对应的降维词向量,其中i为文本编号,tk为投诉举报文本当中某个词语所对应的子向量,wk为权重,k为子向量的标号;然后,计算两条文本向量模型之间的余弦相似度,具体方法如下: 上式中,SimLanguageA,B指的是两条投诉举报事件的描述文本相似度,A、B均为举报事件编号,D′iA、D′iB分别指投诉举报事件A、B所对应的降维的文本空间向量,m为空间向量中的元素标号;步骤1.7建立投诉举报事件的相似度数组,即以每两条投诉举报事件之间各个要素的相似度为元素构建相似度数组,作为事件相似度的样本数据,其形式如下所示:xAB=[SimTimeSimLocationSimObjectSimLanguageSimStatus]11上式中,A、B均为投诉举报事件的编号,xAB表示举报事件A与B之间的相似度数组;步骤2GRNN相似度模型建立利用GRNN建立投诉举报事件相似度分析模型的原理如下:1输入层:GRNN输入层接收到输入数据,并且其神经元的数目与输入数据的维度大小是一致的;输入数据将通过线性函数直接传递给模式层;2模式层:根据输入层传递的输入数据维度来构造模式层结构,其传递函数的表达式如下式所示: 上式当中,X代表GRNN的输入数据,Xi代表第i个神经元所对应的数,σ代表平滑因子;3加和层:GRNN的加和层神经元具有两种类型,第一类即对模式层神经元输出的算数求和,如下式所示: 上式当中,SD代表此类神经元的输出;第二类神经元则是对模式层神经元输出的加权求和,如下式所示: 上式当中,SNj代表此类神经元的输出,yij代表输出样本Y当中的第j个元素,同时也代表第i个神经元与求和层当中第j个神经元的权重;4输出层:输出层神经元的个数等于输出数据的维度大小,每个神经元将于求和层的输出相除,如下式所示: 上式当中,Yj代表输出层的输出;由此,GRNN相似度分析模型建立的步骤如下:步骤2.1确定参数σ的大小;步骤2.2将投诉举报事件的相似度数据划分为训练集与测试集两个部分;步骤2.3把训练集输入至GRNN,同时输入参数σ,进行训练;步骤3GRNN模型参数优化提出一种IFOA优化算法对GRNN模型参数进行优化,其计算原理如下:1初始化IFOA的参数,即最大迭代次数gmax、种群规模p、初始搜索半径R、果蝇个体的初始位置坐标X以及s和t的值; 上式中,Rand为0,1之间的随机数,X为某一个体的位置坐标值;2计算所有果蝇个体的味道浓度判定值:S=sinX17上式中,S为某一个体的味道浓度判定值;3将所有果蝇个体的味道浓度判定依次带入目标函数待优化问题,得到个体的适应度值,挑选出适应度值最小和最大所对应的个体,即最优个体和最差个体,将其位置和适应度值均记录下来:fitness=fSnn=1,2,...,p18[bestfitness,bestlocation]=minfitness19[worstfitness,worstlocation]=maxfitness20上式中,n为个体标号,fitness为所有个体的适应度值集合,fx为目标函数,bestfitness为最优的适应度值,bestlocation为最优个体的位置,worstfitness为最差的适应度值,worstlocation为最差个体的位置;4计算所有果蝇个体与最优个体以及最差个体间的距离,若其与最优个体间的距离比最差个体间的距离近,则将其划分为第一类种群,否则将其划分为第二类种群; 上式中,distencebest为某一个体与最优个体间的距离,Xbestlocation为最优个体的位置,distenceworst为某一个体与最差个体间的距离,Xworstlocation为最差个体的位置;5第一类种群在最优个体的指导下进行视觉搜索,第二类种群则重新生成初始位置并进行视觉搜索,并且这两类种群的搜索半径各不相同; 其中: 上式中,Xone为第一类种群当中某一个体的位置坐标,Rone为属于第一类种群个体的搜索半径,Xtwo为第二类种群当中某一个体的位置坐标,Rtwo表示属于第二类种群个体的搜索半径,gi表示当前迭代次数,fitnessi表示当前个体的适应度值,fitnessi+1表示上一代个体的适应度值,s和t均为常量;6计算位置更新后所有果蝇个体的味道浓度判定值和适应度值,记录新的最优和最差个体的位置及适应度值,若该最优个体的适应度值大于上一代的值,则最优个体的位置仍延用上一代的位置;同理,若该最差个体的适应度值小于上一代的值,则最差个体的位置同样延用上一代的位置;7进入算法的迭代过程,重复步骤2至6,若达到最大迭代次数,则算法结束,输出末代最优个体的味道浓度判定值,即目标函数的最优解;由此,GRNN模型参数优化的步骤如下:步骤3.1初始化IFOA的参数,即最大迭代次数gmax、种群规模p、初始搜索半径R、果蝇个体的初始位置坐标X以及s和t的值;步骤3.2计算所有果蝇个体的味道浓度判定值;步骤3.3将果蝇个体的味道浓度判定值作为参数σ输入至GRNN,同时利用投诉举报事件相似度样本数据当中的训练集对GRNN进行训练,之后采用样本数据当中的测试集对模型进行测试;此时,IFOA的目标函数将替换为模型预测结果的均方根误差函数,即RMSE,其计算方法如下式: 上式中,Xi、Yi分别代表模型的理论输出以及实际输出的第i个元素,N代表整体数据元素的个数;使用函数RMSE计算出GRNN模型输出的均方根误差,作为个体的适应度值,同时挑选出适应度值最小以及最大所对应的个体,即最优个体和最差个体,记录其位置及适应度值;步骤3.4计算所有果蝇个体与最优个体和最差个体间的距离,若其与最优个体间的距离比最差个体间的距离近,则将其划分为第一类种群,否则将其划分为第二类种群;步骤3.5第一类种群在最优个体的指导下进行视觉搜索,第二类种群则重新生成初始位置并进行视觉搜索,并且这两类种群的搜索半径各不相同;步骤3.6计算位置更新后所有果蝇个体的味道浓度判定值,同样将其作为参数σ输入至GRNN,利用样本数据进行训练并测试,计算出模型输出的均方根误差,作为新的个体适应度值;之后,记录新的最优和最差个体的位置及适应度值,若该最优个体的适应度值大于上一代的值,则最优个体的位置仍延用上一代的位置;同理,若该最差个体的适应度值小于上一代的值,则最差个体的位置同样延用上一代的位置;步骤3.7进入算法的迭代过程,重复步骤3.3至3.6,若达到最大迭代次数,则算法结束,输出末代最优个体的味道浓度判定值,作为GRNN的最佳参数;步骤4模型使用步骤4.1按照步骤1.1收集需要计算相似度的环境类投诉举报事件的各项要素;步骤4.2按照步骤1.2至1.6计算两条投诉举报事件之间各个要素的相似度;步骤4.3按照步骤1.7来构造两条投诉举报事件的相似度数组,作为样本数据;步骤4.4将样本数据输入经过参数优化的GRNN模型当中;步骤4.5获取模型的输出,即两条投诉举报事件之间的相似度。

全文数据:

权利要求:

百度查询: 北京工业大学 一种环境类投诉举报事件相似度分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。