买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于改进词移距离算法的文档自动评阅方法_电子科技大学_202010441411.X 

申请/专利权人:电子科技大学

申请日:2020-05-22

公开(公告)日:2023-07-21

公开(公告)号:CN111694927B

主分类号:G06F16/33

分类号:G06F16/33

优先权:

专利状态码:有效-授权

法律状态:2023.07.21#授权;2020.10.20#实质审查的生效;2020.09.22#公开

摘要:本发明公开了一种基于改进词移距离算法的文档自动评阅方法,该方法通过计算被评阅文档与参考答案文档之间的相似度来实现文档自动评阅,所采用的KWMD算法不需要大量训练评测样本即可达到不错的评分效果;通过改进的Rake算法抽取最能代表文档语义的若干关键词,KWMD算法将改进的Rake算法计算出的词语得分作为权重来实现最小词移距离的计算,从而计算文档比对的相似度。基于参考答案文档与被评阅文档的相似度计算得到评阅文档的得分,实现文档自动评阅。该方法可有效提升文档自动评阅的准确度,同时通过提取的若干关键词使得需要计算词移距离的词语大量减少,计算时间得到了降低,从而也可提高文档评阅效率。

主权项:1.一种基于改进词移距离算法的文档自动评阅方法,其特征在于,该方法包括以下步骤:步骤1:上传被评阅文档,上传成功则进行下一步,失败则继续上传,直到上传成功;步骤2:被评阅文档上传成功后,点击自动评阅,寻找是否存在与被评阅文档对应的参考答案文档,如果存在则进行下一步,否则上传相应的参考答案文档;步骤3:被评阅文档及与被评阅文档对应的参考答案文档都上传成功后,分别读取这两个文档,并分别对两个文档进行预处理,包括去除乱码信息、去除标点符号、去停用词、分词、词性标注的步骤;步骤4:对预处理后的被评阅文档及与被评阅文档对应的参考答案文档分别提取关键短语,通过改进的关键词提取算法Rake根据分词结果和标注的词性划分出候选关键短语,然后计算各个词语及短语的权重,根据权重选取前K个关键短语,具体包括以下步骤:步骤4-1:在文档预处理中已经判断了文档的语言,由于语言特性,英文与中文划分候选关键短语的方法不同;步骤4-2:对于英文文档,加载英文的停用词表,然后根据停用词表构建停用词正则表达式,最后以此停用词正则表达式为分隔符,将在文档预处理中分好的词组合成新的短语,作为候选关键短语;步骤4-3:对于中文文档,由于使用停用词划分会使得短语过长,所以加上词性来划分,同样,首先加载中文的停用词表,使用哈尔滨工业大学的中文停用词表,首先加载好该停用词表,然后将该停用词表构建成停用词列表,除此之外,还需要对分好的词标注词性,在中文12种词性中,有7类词性在并列复合词中存在,它们分别是:动词、形容词、名词、副词、介词、连词以及叹词,而能标识文档的语义特性的词性是文档中的实词,即动词、形容词以及名词,因此将除这三种词性以外的其它词性构建一个词性列表,然后以停用词列表和词性列表为分隔符,将分隔符前面的词语组成短语并添加到列表中,划分出中文文档的候选关键短语;步骤4-4:在计算每个短语的得分前,需要计算组成短语的每个词的得分,因此需要将短语进一步细分成N个词;步骤4-5:计算每个短语中每个词的得分,词的得分由公式1计算得到: 其中,wordFrequency为词语的词频,代表的是该词语在本篇文档中出现的总次数,当该词语每出现一次,wordFrequency则增加1;wordDegree为词语的度,代表该词语每与一个词语共现在一个短语中,度就加1,考虑该词语本身,也就是如果一个短语中包含该词语,那么将该短语的长度减1,即Lenwordlist-1得到word_list_degree,将该词的所有word_list_degree加起来再加上词语本身的词频,就得到了词语的度wordDegree;最后,每个词的得分由词语的度除以词语的词频,该得分也是该词语的权重;步骤4-6:得到词语的得分后,计算每个短语的得分,改进后的Rake算法将短语长度也考虑了进去,通过公式2计算得到: 公式2中,分子是组成该短语的所有词语的得分,分母是短语的长度,短语的得分则是取了所有词语得分的平均值,该得分为短语的权重;步骤4-7:短语的权重越高,则该短语在该文档中越重要,越能体现文档含义,因此根据短语权重对短语进行排序,然后提取出排名前K的候选短语作为关键短语;步骤5:步骤4已经提取出了K个能代表文档语义的短语作为关键短语,由于之后计算词移距离需要的是词语,因此通过分词工具将提取出的每个关键短语进一步划分为若干个词语作为文档的关键词用于后续词移距离和相似度计算,所述文档的关键词的权重为步骤4计算得到的词语权重;步骤6:提取完被评阅文档及与被评阅文档对应的参考答案文档的关键词及其权重后,根据改进的文档词移距离算法KWMD计算出被评阅文档及与被评阅文档对应的参考答案文档各关键词之间的词移距离,具体计算流程如下:步骤6-1:在计算相似度之前,准备好词向量模型,首先准备好语料,语料是从网上爬取的百度百科和中文维基百科语料,由于是从网上爬取的语料,对语料进行清洗和预处理,包括去除乱码、特殊符号、标点符号、无用信息的步骤;然后为处理好的语料分词,最后训练语料,建立词向量模型;采用genism包的Word2Vec训练词向量,通过gensim.models.Word2Vecsentences建立词向量模型,构建该模型一共有三步:1执行model=gensim.models.Word2Vec建立空模型对象;2执行model.build_vocabsentences遍历一次语料库建立词典;3执行model.trainsentences遍历语料库建立神经网络模型,最后执行model.save_Word2Vec_formatfname保存训练好的词向量模型;步骤6-2:加载在步骤6-1中训练好的词向量模型,然后构建词向量字典,方便以后以字典方式快速读取词向量;步骤6-3:利用步骤6-2构建的词向量字典分别获取被评阅文档对应的参考答案文档和被评阅文档所有关键词的词向量;步骤6-4:分别获取参考答案文档和被评阅文档关键词的权重,权重来自改进的关键词提取算法Rake中得到的每个词的得分,根据所有关键词得分总和以及每个关键词的得分计算出每个词的权重作为关键词的权重;步骤6-5:使用关键词代表整篇文档,因此只用计算参考答案文档关键词与被评阅文档关键词两两之间的转移代价,需要根据步骤6-3和步骤6-4得到的关键词的词向量和权重求解出最小的词移距离组合,首先需要计算出被评阅文档对应的参考答案文档和被评阅文档这两篇文档中任意两个关键词的词向量转移距离,记被评阅文档对应的参考答案文档D关键词为Ki,记被评阅文档D′中关键词为Kj,转移距离通过计算两个词的欧氏距离得到,见公式3:CKi,Kj=‖Ki-Kj‖2公式3然后需要计算出这些词向量距离的最小词移距离,通过构建一个线性规划问题求解,求解公式见公式4: 其中,是一个稀疏矩阵,用它作为关键词的转移矩阵,用来表示参考答案文档中的关键词Ki有多少转移到被评阅文档中的关键词Kj,CKi,Kj表示了两个关键词之间的词移距离;约束条件则如公式5所示,保证关键词Ki的权重等于从Ki转移出的总和,同理,保证关键词Kj的权重等于转移到Kj的总和,D代表参考答案文档,D′代表被评阅文档,表示参考答案文档D中关键词Ki的权重,表示被评阅文档D′中关键词Kj的权重; 步骤7:将步骤6计算得到的被评阅文档及与被评阅文档对应的参考答案文档的各关键词之间的词移距离转换成区间[0,1]的相似度,并根据文档总分×文档相似度计算出文档评阅得分。

全文数据:

权利要求:

百度查询: 电子科技大学 一种基于改进词移距离算法的文档自动评阅方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。