【发明授权】一种基于改进词移距离算法的文档自动评阅方法_电子科技大学_202010441411.X

导航：龙图腾网> 最新专利技术> 一种基于改进词移距离算法的文档自动评阅方法_电子科技大学_202010441411.X

申请/专利权人：电子科技大学

申请日：2020-05-22

公开（公告）日：2023-07-21

公开（公告）号：CN111694927B

主分类号：G06F16/33

分类号：G06F16/33

优先权：

专利状态码：有效-授权

法律状态：2023.07.21#授权;2020.10.20#实质审查的生效;2020.09.22#公开

摘要：本发明公开了一种基于改进词移距离算法的文档自动评阅方法，该方法通过计算被评阅文档与参考答案文档之间的相似度来实现文档自动评阅，所采用的KWMD算法不需要大量训练评测样本即可达到不错的评分效果；通过改进的Rake算法抽取最能代表文档语义的若干关键词，KWMD算法将改进的Rake算法计算出的词语得分作为权重来实现最小词移距离的计算，从而计算文档比对的相似度。基于参考答案文档与被评阅文档的相似度计算得到评阅文档的得分，实现文档自动评阅。该方法可有效提升文档自动评阅的准确度，同时通过提取的若干关键词使得需要计算词移距离的词语大量减少，计算时间得到了降低，从而也可提高文档评阅效率。

主权项：1.一种基于改进词移距离算法的文档自动评阅方法，其特征在于，该方法包括以下步骤：步骤1：上传被评阅文档，上传成功则进行下一步，失败则继续上传，直到上传成功；步骤2：被评阅文档上传成功后，点击自动评阅，寻找是否存在与被评阅文档对应的参考答案文档，如果存在则进行下一步，否则上传相应的参考答案文档；步骤3：被评阅文档及与被评阅文档对应的参考答案文档都上传成功后，分别读取这两个文档，并分别对两个文档进行预处理，包括去除乱码信息、去除标点符号、去停用词、分词、词性标注的步骤；步骤4：对预处理后的被评阅文档及与被评阅文档对应的参考答案文档分别提取关键短语，通过改进的关键词提取算法Rake根据分词结果和标注的词性划分出候选关键短语，然后计算各个词语及短语的权重，根据权重选取前K个关键短语，具体包括以下步骤：步骤4-1：在文档预处理中已经判断了文档的语言，由于语言特性，英文与中文划分候选关键短语的方法不同；步骤4-2：对于英文文档，加载英文的停用词表，然后根据停用词表构建停用词正则表达式，最后以此停用词正则表达式为分隔符，将在文档预处理中分好的词组合成新的短语，作为候选关键短语；步骤4-3：对于中文文档，由于使用停用词划分会使得短语过长，所以加上词性来划分，同样，首先加载中文的停用词表，使用哈尔滨工业大学的中文停用词表，首先加载好该停用词表，然后将该停用词表构建成停用词列表，除此之外，还需要对分好的词标注词性，在中文12种词性中，有7类词性在并列复合词中存在，它们分别是：动词、形容词、名词、副词、介词、连词以及叹词，而能标识文档的语义特性的词性是文档中的实词，即动词、形容词以及名词，因此将除这三种词性以外的其它词性构建一个词性列表，然后以停用词列表和词性列表为分隔符，将分隔符前面的词语组成短语并添加到列表中，划分出中文文档的候选关键短语；步骤4-4：在计算每个短语的得分前，需要计算组成短语的每个词的得分，因此需要将短语进一步细分成N个词；步骤4-5：计算每个短语中每个词的得分，词的得分由公式1计算得到：其中，wordFrequency为词语的词频，代表的是该词语在本篇文档中出现的总次数，当该词语每出现一次，wordFrequency则增加1；wordDegree为词语的度，代表该词语每与一个词语共现在一个短语中，度就加1，考虑该词语本身，也就是如果一个短语中包含该词语，那么将该短语的长度减1，即Lenwordlist-1得到word_list_degree，将该词的所有word_list_degree加起来再加上词语本身的词频，就得到了词语的度wordDegree；最后，每个词的得分由词语的度除以词语的词频，该得分也是该词语的权重；步骤4-6：得到词语的得分后，计算每个短语的得分，改进后的Rake算法将短语长度也考虑了进去，通过公式2计算得到：公式2中，分子是组成该短语的所有词语的得分，分母是短语的长度，短语的得分则是取了所有词语得分的平均值，该得分为短语的权重；步骤4-7：短语的权重越高，则该短语在该文档中越重要，越能体现文档含义，因此根据短语权重对短语进行排序，然后提取出排名前K的候选短语作为关键短语；步骤5：步骤4已经提取出了K个能代表文档语义的短语作为关键短语，由于之后计算词移距离需要的是词语，因此通过分词工具将提取出的每个关键短语进一步划分为若干个词语作为文档的关键词用于后续词移距离和相似度计算，所述文档的关键词的权重为步骤4计算得到的词语权重；步骤6：提取完被评阅文档及与被评阅文档对应的参考答案文档的关键词及其权重后，根据改进的文档词移距离算法KWMD计算出被评阅文档及与被评阅文档对应的参考答案文档各关键词之间的词移距离，具体计算流程如下：步骤6-1：在计算相似度之前，准备好词向量模型，首先准备好语料，语料是从网上爬取的百度百科和中文维基百科语料，由于是从网上爬取的语料，对语料进行清洗和预处理，包括去除乱码、特殊符号、标点符号、无用信息的步骤；然后为处理好的语料分词，最后训练语料，建立词向量模型；采用genism包的Word2Vec训练词向量，通过gensim.models.Word2Vecsentences建立词向量模型，构建该模型一共有三步：1执行model＝gensim.models.Word2Vec建立空模型对象；2执行model.build_vocabsentences遍历一次语料库建立词典；3执行model.trainsentences遍历语料库建立神经网络模型，最后执行model.save_Word2Vec_formatfname保存训练好的词向量模型；步骤6-2：加载在步骤6-1中训练好的词向量模型，然后构建词向量字典，方便以后以字典方式快速读取词向量；步骤6-3：利用步骤6-2构建的词向量字典分别获取被评阅文档对应的参考答案文档和被评阅文档所有关键词的词向量；步骤6-4：分别获取参考答案文档和被评阅文档关键词的权重，权重来自改进的关键词提取算法Rake中得到的每个词的得分，根据所有关键词得分总和以及每个关键词的得分计算出每个词的权重作为关键词的权重；步骤6-5：使用关键词代表整篇文档，因此只用计算参考答案文档关键词与被评阅文档关键词两两之间的转移代价，需要根据步骤6-3和步骤6-4得到的关键词的词向量和权重求解出最小的词移距离组合，首先需要计算出被评阅文档对应的参考答案文档和被评阅文档这两篇文档中任意两个关键词的词向量转移距离，记被评阅文档对应的参考答案文档D关键词为Ki，记被评阅文档D′中关键词为Kj，转移距离通过计算两个词的欧氏距离得到，见公式3：CKi,Kj＝‖Ki-Kj‖2公式3然后需要计算出这些词向量距离的最小词移距离，通过构建一个线性规划问题求解，求解公式见公式4：其中，是一个稀疏矩阵，用它作为关键词的转移矩阵，用来表示参考答案文档中的关键词Ki有多少转移到被评阅文档中的关键词Kj，CKi,Kj表示了两个关键词之间的词移距离；约束条件则如公式5所示，保证关键词Ki的权重等于从Ki转移出的总和，同理，保证关键词Kj的权重等于转移到Kj的总和，D代表参考答案文档，D′代表被评阅文档，表示参考答案文档D中关键词Ki的权重，表示被评阅文档D′中关键词Kj的权重；步骤7：将步骤6计算得到的被评阅文档及与被评阅文档对应的参考答案文档的各关键词之间的词移距离转换成区间[0,1]的相似度，并根据文档总分×文档相似度计算出文档评阅得分。

全文数据：

权利要求：

百度查询：电子科技大学一种基于改进词移距离算法的文档自动评阅方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种肾病透析用体外固定装置_河北北方学院附属第一医院_202410336854.0

下一篇：基于渐进学习的无对比剂CT血管造影重构方法及系统_中国人民解放军总医院第一医学中心_202410128554.3

相关技术

一种肾病透析用体外固定装置_河北北方学院附属第一医院_202410336854.0

基于渐进学习的无对比剂CT血管造影重构方法及系统_中国人民解放军总医院第一医学中心_202410128554.3

热解油提质为BTEX的两级催化方法_沙特阿拉伯石油公司_202280065181.9

一种设备锁定方法、装置及电子设备_联想(北京)有限公司_202410116925.6

用药患者血浆中抗人胸腺/淋巴细胞兔免疫球蛋白总IgG抗体浓度检测试剂盒及应用_武汉中生毓晋生物医药有限责任公司_202410128193.2

用于超声速进发直连风洞试验的发动机台架及设计方法_中国空气动力研究与发展中心高速空气动力研究所_202410420425.1

一种矿井提升机防止跑车的控制方法与装置_洛阳九亿重工集团有限公司_202410421104.3

一种智能监控法兰及其监控系统_芜湖中集瑞江汽车有限公司_202410324184.0

一种双频段相控阵雷达智能抗干扰方法_成都金武科技有限公司_202410410853.6

一种负极活性材料及应用其的锂离子电池_中创新航科技集团股份有限公司_202410315953.0

一体集成微同轴气密封装结构及其制造方法_中国电子科技集团公司第十三研究所_202410148673.5

CPR辅助按压器_重庆心搏康医疗科技有限公司_202311753834.5

算法相关技术

一种基于海洋捕食者算法和粒子滤波算法的气体定位方法_淮阴工学院_202410239423.2

算法评价方法、装置、电子设备及存储介质_中国铁塔股份有限公司_202410146655.3

一种算法管理方法和装置_华为技术有限公司_202211711157.6

一种招聘面试AI评分的算法_海安新知人工智能科技有限公司_202410184398.2

算法调试方法、装置、设备及存储介质_深圳海星智驾科技有限公司_202410138030.2

一种基于膜算法的特征选择方法_安徽理工大学_202111082406.5

基于人工智能算法融合的IPA转产时间优化方法及系统_浙江思维特数字科技有限公司_202410203040.X

基于FP-Growth算法的药企涉税风险识别方法_西安石油大学_202410185084.4

一种基于社区发现的改进PBFT共识算法及系统_合肥工业大学_202410100701.6

一种基于Pettitt算法的煤矿甲烷浓度突变识别与预警方法_天地(常州)自动化股份有限公司_202410146090.9

距离相关技术

距离测定装置_松下知识产权经营株式会社_201980022712.4

在视频流中应用最小及平均距离约束_杜比实验室特许公司_202280065760.3

一种焊头距离可调的焊接装置_湖北裕丰钢结构有限公司_202322585436.9

按摩头距离调节机构及按摩器_小熊电器股份有限公司_202321208091.9

一种UWB超远距离测距系统_深圳市微能信息科技有限公司_202410158567.5

一种可调节加热距离的烘箱_芜湖广盛智能装备有限公司_202322499014.X

水下监测设备远距离无线充电方法_福州海洋研究院_202410214550.7

基于FMCW雷达的距离-速度联合估计方法、系统及介质_中科水研科技股份有限公司_202410226186.6

一种钢丝绳与电梯曳引轮的制动距离测量装置_淮北市特种设备监督检验中心_202322987694.X

卡轨车超长距离用移动式张紧装置_山东逸盛源机电设备有限公司_202322434918.4

文档相关技术

一种eTMF系统中临床试验文档管理方法及文档管理装置_北京遥领医疗科技有限公司_202410146196.9

一种在线化文档渲染方法_珠海必优科技有限公司_202410000004.3

基于关系先验偏置的文档关系抽取方法_华南理工大学_202410273703.5

版式文档的同步演示方法及装置_福昕鲲鹏(北京)信息科技有限公司_202410151793.0

文档检测方法、装置、设备及存储介质_北京世纪好未来教育科技有限公司_202110545264.5

针对桥梁管养文档的摘要抽取方法_交通运输部公路科学研究所_202410073751.X

生成演示文档的方法、装置、电子设备及存储介质_百度时代网络技术(北京)有限公司_202410216935.7

建筑工程文档知识网络的构建方法及系统_上海建工四建集团有限公司_202011478794.4

一种设计文档的处理方法、装置、设备及介质_北京字跳网络技术有限公司_202211406886.0

基于XML的多页文档处理方法、装置、计算机设备及介质_信号旗智能科技(上海)有限公司_202011479857.8

龙图腾网&IPTOP

【发明授权】一种基于改进词移距离算法的文档自动评阅方法_电子科技大学_202010441411.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务