【发明授权】一种基于关键词序列结构的文档相似度度量方法及系统_镇江市高等专科学校_201910406178.9

申请/专利权人：镇江市高等专科学校

申请日：2019-05-16

公开（公告）日：2023-02-17

公开（公告）号：CN110175328B

主分类号：G06F40/30

分类号：G06F40/30;G06F40/289;G06F40/194;G06F16/33;G06F16/335

优先权：

专利状态码：有效-授权

法律状态：2023.02.17#授权;2019.09.20#实质审查的生效;2019.08.27#公开

摘要：本发明公开了一种基于关键词序列结构的文档相似度度量方法，该方法包括：存储两篇文档W1与W2并设置关键词序列，在文档W1与W2内分别查找所述关键词序列中的所有关键词出现的位置集合；根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合，进而得到所述关键词序列分别在W1与W2中的结构特征值；根据所述关键词序列在W1与W2中的结构特征值计算文档W1与W2关于所述关键词序列的相似度。本发明有利于规避文档词句语义角度度量相似性的偏差，本发明也可以规避已有方法中的从关键词角度度量相似性时，忽视一组关键词前后因果关系在文档分布结构特征提取中影响的不足，实用性更强，准确率更高。

主权项：1.一种基于关键词序列结构的文档相似度度量方法，其特征在于，该方法包括：1存储两篇文档W1与W2，所述文档W1与W2均具有多个自然段，将所述存储的两篇文档W1与W2分别进行分词和停用词处理；2设置关键词序列，在文档W1与W2内分别查找所述关键词序列中的所有关键词出现的位置集合；3根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合，进而得到所述关键词序列分别在W1与W2中的结构特征值；步骤3中，根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合，分别表示为：其中，关键词序列表示为S＝{s1→s2...→sm}，q1与qm为关键词序列S在W1中某次出现中关键词s1和关键词sm在W1中的出现位置，|W1|表示文档W1包含的总字符数，qm-q1对应关键词序列中关键词sm与关键词s1在W1中出现位置间相隔距离，q'1与q'm为关键词序列S在W2中某次出现中关键词s1和关键词sm在W2中的出现位置，|W2|表示文档W2包含的总字符数，q'm-q'1对应关键词序列中关键词sm与关键词s1在W2中出现位置间相隔距离；所述步骤3中，得到所述关键词序列分别在W1与W2中的结构特征值，表示为：其中，和分别为所述文档W1关于关键词序列S的特征集合的第一项之和与第二项之和，和分别为所述文档W2关于关键词序列S的特征集合的第一项之和与第二项之和，{qi,...,qim}为S关于W1的出现位置集合中的一次出现位置，{q'i,...,q'im}为S关于W2的出现位置集合中的一次出现位置；4根据所述关键词序列在文档W1与W2中的结构特征值计算文档W1与W2关于所述关键词序列的相似度；所述步骤4中，所述文档W1与W2关于所述关键词序列的相似度表示为：SeqDistS,W1,W2＝|SCVS,W1-SCVS,W2|max{SCVS,W1,SCVS,W2}，公式的数值越小，表明两个文档关于所述关键词序列S表现出的相似性越高，反之，相似性越低。

全文数据：一种基于关键词序列结构的文档相似度度量方法及系统技术领域本发明涉及文档相似度度量技术领域，具体涉及一种基于关键词序列结构的文档相似度度量方法及系统。背景技术文档间相似性分析计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。常见的文档相似度计算方法简介如下：余弦相似性，基于关键词将文档转换为向量模型，通过计算文档的余弦相似度进行度量；简单共有词法，通过计算两篇文档共有的词的总字符数除以最长文档字符数来评估文档相似度。编辑距离，又称Levenshtein距离，利用将文档中两个字串，由一个转成另一个所需的最少编辑操作次数进行度量。SimHash+汉明距离，将文档转换成64位的字节，然后通过判断两个字节的汉明距离计算相似度。Jaccard相似性系数法，通过比较样本集中的相似性和分散性的概率进行度量。但上述方法均会存在文档词句语义角度度量相似性的偏差以及关键词在文档全文分布结构特征提取的不足的问题。发明内容发明目的：为了克服现有技术的不足，本发明提供一种基于关键词序列结构的文档相似度度量方法，该方法可以解决文档词句语义角度度量相似性的偏差的问题；也可以规避已有方法从关键词角度度量相似性时，对关键词在文档全文分布结构特征提取的不足的问题，本发明还提供一种基于关键词序列结构的文档相似度度量系统。技术方案：本发明所述的基于关键词序列结构的文档相似度度量方法，该方法包括：1存储两篇文档W1与W2，所述文档W1与W2均具有多个自然段，将所述存储的两篇文档W1与W2分别进行分词和停用词处理；2设置关键词序列，在文档W1与W2内分别查找所述关键词序列中的所有关键词出现的位置集合；3根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合，进而得到所述关键词序列分别在W1与W2中的结构特征值；4根据所述关键词序列在W1与W2中的结构特征值计算文档W1与W2关于所述关键词序列的相似度。优选的，所述步骤3中，根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合，分别表示为：其中，关键词序列表示为S＝{s1→s2...→sm}，q1与qm为关键词序列S在W1中某次出现中关键词s1和关键词sm在W1中的出现位置，|W1|表示文档W1包含的总字符数，qm-q1对应关键词序列中最后一个关键字sm与第一个关键字s1在W1中出现位置间相隔距离，q'1与q'm为关键词序列S在W2中某次出现中关键词s1和关键词sm在W2中的出现位置，|W2|表示文档W2包含的总字符数，q'm-q'1对应关键词序列中最后一个关键字sm与第一个关键字s1在W2中出现位置间相隔距离。优选的，所述步骤3中，得到所述关键词序列分别在W1与W2中的结构特征值，表示为：其中，和分别为所述文档W1关于关键词序列S的特征集合的第一项之和与第二项之和，和分别为所述文档W2关于关键词序列S的特征集合的第一项之和与第二项之和，{qi,...,qim}为S关于W1的出现位置集合中的一次出现位置，{q'i,...,q'im}为S关于W2的出现位置集合中的一次出现位置。优选的，所述步骤4中，所述文档W1与W2关于所述关键词序列的相似度表示为：SeqDistS,W1,W2＝|SCVS,W1-SCVS,W2|max{SCVS,W1,SCVS,W2}，该公式的数值越小，表明两个文档关于所述关键词序列S表现出的相似性越高，反之，相似性越低。另一方面，本发明还提供一种基于关键词序列结构的文档相似度度量系统，包括：文档预处理模块，用于存储两篇文档W1与W2，所述文档W1与W2均具有多个自然段，将所述存储的两篇文档W1与W2分别进行分词和停用词处理；出现位置统计模块，用于设置关键词序列，并在文档W1与W2内分别查找所述关键词序列中的所有关键词出现的位置集合；结构特征计算模块，用于根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合，进而得到所述关键词序列分别在W1与W2中的结构特征值；文档相似度计算模块，用于根据所述关键词序列在W1与W2中的结构特征值计算文档W1与W2关于所述关键词序列的相似度。优选的，所述结构特征计算模块包括特征集合表示单元，用于根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合，分别表示为：其中，关键词序列表示为S＝{s1→s2...→sm}，q1与qm为关键词序列S在W1中某次出现中关键词s1和关键词sm在W1中的出现位置，|W1|表示文档W1包含的总字符数，qm-q1对应关键词序列中最后一个关键字sm与第一个关键字s1在W1中出现位置间相隔距离，q'1与q'm为关键词序列S在W2中某次出现中关键词s1和关键词sm在W2中的出现位置，|W2|表示文档W2包含的总字符数，q'm-q'1对应关键词序列中最后一个关键字sm与第一个关键字s1在W2中出现位置间相隔距离。优选的，所述结构特征计算模块还包括特征值计算单元，用于得到所述关键词序列分别在W1与W2中的结构特征值，表示为：其中，和分别为所述文档W1关于关键词序列S的特征集合的第一项之和与第二项之和，和分别为所述文档W2关于关键词序列S的特征集合的第一项之和与第二项之和，{qi,...,qim}为S关于W1的出现位置集合中的一次出现位置，{q'i,...,q'im}为S关于W2的出现位置集合中的一次出现位置。优选的，所述文档相似度计算模块中，所述文档W1与W2关于所述关键词序列的相似度表示为：SeqDistS,W1,W2＝|SCVS,W1-SCVS,W2|max{SCVS,W1,SCVS,W2}，该公式的数值越小，表明两个文档关于所述关键词序列S表现出的相似性越高，反之，相似性越低。有益效果：本发明与现有技术相比，其显著优点是：本发明考虑关键词序列在文档中连续出现位置分布关系，在一定意义上体现了该文档与相应关键词序列的关联，有利于规避文档词句语义角度度量相似性的偏差，本发明也可以规避已有方法中的从关键词角度度量相似性时，忽视一组关键词前后因果关系在文档分布结构特征提取中影响的不足，实用性更强，准确率更高。附图说明图1为本发明一实施例所述的方法流程图；图2为本发明一实施例所述的系统结构示意图。具体实施方式为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。实施例1本发明提供一种基于关键词位置结构分布的文档相似性度量方法，该方法包括：S1存储两篇文档W1与W2，所述文档W1与W2均具有多个自然段，将所述存储的两篇文档W1与W2分别进行分词和停用词处理。S2设置关键词序列，在文档W1与W2内分别查找所述关键词序列中的所有关键词出现的位置集合；关键词序列S在W1中的某次出现指序列S中的m个关键词在文档W1中依次出现一次。在文档W1中查找关键词序列S的某次出现，可记为：获取m个关键词的出现位置Ponit＝{p1,p2,...,pm}，所有出现位置组成S在文档中的出现位置集合，其中，pi为关键词si在文档W1中的某个出现位置，该位置为si在W1中该出现位置之前的字符数。若s1为文档的首字符，p1＝1。S3根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合，进而得到所述关键词序列分别在W1与W2中的结构特征值；首先，根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合，分别表示为：其中，关键词序列表示为S＝{s1→s2...→sm}，q1与qm为关键词序列S在W1中某次出现中关键词s1和关键词sm在W1中的出现位置，|W1|表示文档W1包含的总字符数，qm-q1对应关键词序列中最后一个关键字sm与第一个关键字s1在W1中出现位置间相隔距离；qm-q1|W1|数值为[0,1]，数值越大，表明关键词序列S中m个关键词在文档中位置分布越稀疏。q'1与q'm为关键词序列S在W2中某次出现中关键词s1和关键词sm在W2中的出现位置，|W2|表示文档W2包含的总字符数，q'm-q'1对应关键词序列中最后一个关键字sm与第一个关键字s1在W2中出现位置间相隔距离，q'm-q'1|W2|数值为[0,1]，数值越大，表明关键词序列S中m个关键词在该文档中位置分布越稀疏。其次，得到所述关键词序列分别在W1与W2中的结构特征值，表示为：其中，和分别为所述文档W1关于关键词序列S的特征集合的第一项之和与第二项之和，和分别为所述文档W2关于关键词序列S的特征集合的第一项之和与第二项之和，{qi,...,qim}为S关于W1的出现位置集合中的一次出现位置，{q'i,...,q'im}为S关于W2的出现位置集合中的一次出现位置。S4根据所述关键词序列在W1与W2中的结构特征值计算文档W1与W2关于所述关键词序列的相似度。所述文档W1与W2关于所述关键词序列的相似度表示为：SeqDistS,W1,W2＝|SCVS,W1-SCVS,W2|max{SCVS,W1,SCVS,W2}，该公式的数值越小，表明两个文档关于所述关键词序列S表现出的相似性越高，反之，相似性越低。实施例2本发明还提供一种基于关键词序列结构的文档相似度度量系统，包括：文档预处理模块1，用于存储两篇文档W1与W2，所述文档W1与W2均具有多个自然段，将所述存储的两篇文档W1与W2分别进行分词和停用词处理；出现位置统计模块2，用于设置关键词序列，并在文档W1与W2内分别查找所述关键词序列中的所有关键词出现的位置集合；关键词序列S在W1中的某次出现指序列S中的m个关键词在文档W1中依次出现一次。在文档W1中查找关键词序列S的某次出现，获取m个关键词的出现位置Ponit＝{p1,p2,...,pm}，所有出现位置组成S在文档中的出现位置集合，其中，pi为关键词si在文档W1中的某个出现位置，该位置为si在W1中该出现位置之前的字符数。若s1为文档的首字符，p1＝1。结构特征计算模块3，用于根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合，进而得到所述关键词序列分别在W1与W2中的结构特征值；所述结构特征计算模块3包括特征集合表示单元31，用于根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合，分别表示为：其中，关键词序列表示为S＝{s1→s2...→sm}，q1与qm为关键词序列S在W1中某次出现中关键词s1和关键词sm在W1中的出现位置，|W1|表示文档W1包含的总字符数，qm-q1对应关键词序列中最后一个关键字sm与第一个关键字s1在W1中出现位置间相隔距离，q'1与q'm为关键词序列S在W2中某次出现中关键词s1和关键词sm在W2中的出现位置，|W2|表示文档W2包含的总字符数，q'm-q'1对应关键词序列中最后一个关键字sm与第一个关键字s1在W2中出现位置间相隔距离。所述结构特征计算模块3包括特征值计算单元32，用于得到所述关键词序列分别在W1与W2中的结构特征值，表示为：其中，和分别为所述文档W1关于关键词序列S的特征集合的第一项之和与第二项之和，和分别为所述文档W2关于关键词序列S的特征集合的第一项之和与第二项之和，{qi,...,qim}为S关于W1的出现位置集合中的一次出现位置，{q'i,...,q'im}为S关于W2的出现位置集合中的一次出现位置。文档相似度计算模块4，用于根据所述关键词序列在W1与W2中的结构特征值计算文档W1与W2关于所述关键词序列的相似度。所述文档相似度计算模块4中，所述文档W1与W2关于所述关键词序列的相似度表示为：SeqDistS,W1,W2＝|SCVS,W1-SCVS,W2|max{SCVS,W1,SCVS,W2}，该公式的数值越小，表明两个文档关于所述关键词序列S表现出的相似性越高，反之，相似性越低。本发明从关键词序列在文档中出现分布结构特征角度，提出文档相似性度量方法，有利于规避文档词句语义角度度量相似性的偏差；也可以规避已有方法从关键词角度度量相似性时，忽视一组关键词前后因果关系在文档分布结构特征提取中影响的不足。为了更加体现本发明文档相似度的准确和实用，做出以下程序的计算，首先从中文期刊网节选两篇文章的相应段落如下，从两篇论文的关键词中选出如下关键词序列S＝{云存储→安全→加密机制}。文档W1：“随着云存储的迅猛发展，越来越多的用户选择使用云存储存放自己的资料.云存储的最大特点在于存储即服务，用户可以通过公有API将自己的数据上传到云端保存.但由于用户丧失了对数据的绝对控制权，一些数据安全的隐患也由此产生.为了消除安全隐患，并在保证安全性的同时尽可能地提高系统的服务质量，近年来国内外机构作了大量研究，从而开启了云存储中的一个研究方向——安全云存储系统.首先介绍了云存储系统的安全需求，然后阐述了安全云存储系统的研究现状，并总结了现有安全云存储系统中的一些关键技术的现状与不足之处，其中包括密钥分发与管理、基于属性的加密机制、基于数据密文的搜索机制与删冗机制、数据的持有性证明与恢复以及数据的可信删除等；最后指出了安全云存储系统未来的研究方向.”文档W2：“云存储是一种新型的数据存储体系结构，云存储中数据安全性、易管理性等也面临着新的挑战.首先，云存储系统需要为用户提供安全可靠的数据访问服务，并确保云端数据的安全性.为此，研究者们针对云存储中数据结构复杂、数据存储量大等特点提出了属性加密机制，为云储存系统提供细粒度的密文访问控制机制.在该机制中，数据所有者使用访问策略表示数据的访问权限并对数据进行加密.但数据的访问权限常会因各种原因发生改变，从而导致云中存储密文的频繁更新，进而影响数据的易管理性.为避免访问权限管理造成大量的计算和通信开销，提出了一种高效、便捷、易管理的云存储体系结构：利用ABE加密机制实现对密文的访问控制，通过高效的动态授权方法实现访问权限的管理，并提出了不同形式的访问策略之间的转换方法，使得动态授权方法更为通用，不依赖于特定的访问策略形式；针对授权执行者的不同，制定了更新授权、代理授权和临时授权3种动态授权形式，使得动态授权更为灵活、快捷；特别地，在该动态授权方法中，授权执行者根据访问策略的更改计算出最小增量集合，并根据该增量集合更新密文以降低密文更新代价.理论分析和实验结果表明，该动态授权方法能减小资源的耗费、优化系统执行效率、提高访问控制机制灵活性。”实施步骤如下：1对关键词序列S＝{云存储→安全→加密机制}：计算文档W1关于关键词序列S的特征集合：CLSS,W1＝{2322,258-2322,22322,258-22322,33322,258-33322,158322,258-158322,171322,258-171322,182322,258-182322}＝{0.0062,0.795,0.0683,0.733,0.1025,0.6988,0.4907,0.3106,0.5311,0.2702,0.5652,0.2360}计算文档W2关于关键词序列S的特征集合：CLSS,W2＝{1517,115-1517,1517,272-1517,18517,115-18517,18517,272-18517,45517,115-45517,45517,272-45517}＝{0.0019,0.2205,0.0019,0.5242,0.0348,0.1876,0.0348,0.4913,0.0870,0.1354,0.0870,0.4391}计算CLSS,W1中各坐标特征，第一项之和：第二项之和生成文档W1关于S的结构特征值：相同的，生成文档W2关于S的结构特征值：CLSS,W2中各坐标特征，第一项之和为0.2474，第二项之和为1.9981，生成文档W2关于S的结构特征值：SCVS,W2＝0.5373+1.2774+0.18415+0.48227+0.07082+0.2297＝2.7816两文档关于关键词序列的相似度表示为：SeqDistS,W1,W2＝|3.3249-2.7816|3.3249＝0.1634。以上计算均保留小数点后四位。该计算值越小，表明两个文档关于关键词序列S表现出的相似性越高，反之相似性越低。本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质包括但不限于磁盘存储器、CD-ROM、光学存储器等上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备系统、和计算机程序产品的流程图和或方框图来描述的。应理解可由计算机程序指令实现流程图和或方框图中的每一流程和或方框、以及流程图和或方框图中的流程和或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和或方框图一个方框或多个方框中指定的功能的步骤。最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

权利要求：1.一种基于关键词序列结构的文档相似度度量方法，其特征在于，该方法包括：1存储两篇文档W1与W2，所述文档W1与W2均具有多个自然段，将所述存储的两篇文档W1与W2分别进行分词和停用词处理；2设置关键词序列，在文档W1与W2内分别查找所述关键词序列中的所有关键词出现的位置集合；3根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合，进而得到所述关键词序列分别在W1与W2中的结构特征值；4根据所述关键词序列在文档W1与W2中的结构特征值计算文档W1与W2关于所述关键词序列的相似度。2.根据权利要求1所述的基于关键词序列结构的文档相似度度量方法，其特征在于，所述步骤3中，根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合，分别表示为：其中，关键词序列表示为S＝{s1→s2...→sm}，q1与qm为关键词序列S在W1中某次出现中关键词s1和关键词sm在W1中的出现位置，|W1|表示文档W1包含的总字符数，qm-q1对应关键词序列中最后一个关键字sm与第一个关键字s1在W1中出现位置间相隔距离，q'1与q'm为关键词序列S在W2中某次出现中关键词s1和关键词sm在W2中的出现位置，|W2|表示文档W2包含的总字符数，q'm-q'1对应关键词序列中最后一个关键字sm与第一个关键字s1在W2中出现位置间相隔距离。3.根据权利要求2所述的基于关键词序列结构的文档相似度度量方法，其特征在于，所述步骤3中，得到所述关键词序列分别在W1与W2中的结构特征值，表示为：其中，和分别为所述文档W1关于关键词序列S的特征集合的第一项之和与第二项之和，和分别为所述文档W2关于关键词序列S的特征集合的第一项之和与第二项之和，{qi,...,qim}为S关于W1的出现位置集合中的一次出现位置，{q'i,...,q'im}为S关于W2的出现位置集合中的一次出现位置。4.根据权利要求3所述的基于关键词序列结构的文档相似度度量方法，其特征在于，所述步骤4中，所述文档W1与W2关于所述关键词序列的相似度表示为：SeqDistS,W1,W2＝|SCVS,W1-SCVS,W2|max{SCVS,W1,SCVS,W2}，该公式的数值越小，表明两个文档关于所述关键词序列S表现出的相似性越高，反之，相似性越低。5.一种根据权利要求1-4任一项所述的基于关键词序列结构的文档相似度度量方法实现的系统，其特征在于，包括：文档预处理模块，用于存储两篇文档W1与W2，所述文档W1与W2均具有多个自然段，将所述存储的两篇文档W1与W2分别进行分词和停用词处理；出现位置统计模块，用于设置关键词序列，并在文档W1与W2内分别查找所述关键词序列中的所有关键词出现的位置集合；结构特征计算模块，用于根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合，进而得到所述关键词序列分别在W1与W2中的结构特征值；文档相似度计算模块，用于根据所述关键词序列在W1与W2中的结构特征值计算文档W1与W2关于所述关键词序列的相似度。6.根据权利要求5所述的基于关键词序列结构的文档相似度度量系统，其特征在于，所述结构特征计算模块包括特征集合表示单元，用于根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合，分别表示为：其中，关键词序列表示为S＝{s1→s2...→sm}，q1与qm为关键词序列S在W1中某次出现中关键词s1和关键词sm在W1中的出现位置，|W1|表示文档W1包含的总字符数，qm-q1对应关键词序列中最后一个关键字sm与第一个关键字s1在W1中出现位置间相隔距离，q'1与q'm为关键词序列S在W2中某次出现中关键词s1和关键词sm在W2中的出现位置，|W2|表示文档W2包含的总字符数，q'm-q'1对应关键词序列中最后一个关键字sm与第一个关键字s1在W2中出现位置间相隔距离。7.根据权利要求6所述的基于关键词序列结构的文档相似度度量系统，其特征在于，所述结构特征计算模块还包括特征值计算单元，用于得到所述关键词序列分别在W1与W2中的结构特征值，表示为：其中，和分别为所述文档W1关于关键词序列S的特征集合的第一项之和与第二项之和，和分别为所述文档W2关于关键词序列S的特征集合的第一项之和与第二项之和，{qi,...,qim}为S关于W1的出现位置集合中的一次出现位置，{q'i,...,q'im}为S关于W2的出现位置集合中的一次出现位置。8.根据权利要求7所述的基于关键词序列结构的文档相似度度量系统，其特征在于，所述文档相似度计算模块中，所述文档W1与W2关于所述关键词序列的相似度表示为：SeqDistS,W1,W2＝|SCVS,W1-SCVS,W2|max{SCVS,W1,SCVS,W2}，该公式的数值越小，表明两个文档关于所述关键词序列S表现出的相似性越高，反之，相似性越低。

百度查询：镇江市高等专科学校一种基于关键词序列结构的文档相似度度量方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种铁路用快速固定装置_株洲时代电子技术有限公司_201810892332.3

下一篇：用于预填充式注射器中的柱塞-塞子深度测量的设备、系统和方法_美国安进公司_202280062261.9

相关技术

一种铁路用快速固定装置_株洲时代电子技术有限公司_201810892332.3

用于预填充式注射器中的柱塞-塞子深度测量的设备、系统和方法_美国安进公司_202280062261.9

一种消除残压的直流牵引供电系统_镇江大全赛雪龙牵引电气有限公司_201910710150.4

用于递送避孕剂的可再填充植入式装置_塞拉尼斯伊娃高性能聚合物公司_202280064432.1

成型大尺寸不同厚度平板类复合材料构件的通用模压成型模具_北京新风航天装备有限公司_201711453602.2

一种广告标牌用切割机_陕西智嘉教育科技有限公司_202410336392.2

中学生物实验操作测评方法、装置、电子设备及存储介质_北京师范大学珠海校区_202410399294.3

一种多角度旋转的玻璃幕墙安装装置及方法_苏州工业园区科特建筑装饰有限公司_202410404814.5

一种混凝土砌块生产设备_宝鸡方正致远节能建材有限公司_202310743462.1

一种锂电池外壳自动泄压结构_天能帅福得能源股份有限公司_201811323218.5

一种电机定子安装装置_抚顺煤矿电机制造有限责任公司_201910766186.4

一种防卡堵链轮_潍坊鲁刚环保机械有限公司_201811026002.2

文档相关技术

文档处理方法及装置_珠海金山办公软件有限公司_202211364073.X

动态查询处理和文档检索_国际商业机器公司_202010024068.9

电子文档的处理方法、装置、终端和存储介质_北京字跳网络技术有限公司_202110227810.0

损坏文档属性获取方法、装置、设备及存储介质_深圳麦风科技有限公司_202410178947.5

基于生成式大模型生成文档的方法、装置、设备及介质_百度时代网络技术(北京)有限公司_202410114873.9

在线文档的协同编辑方法、装置、客户端及协同中心_珠海金山办公软件有限公司_202211350729.2

基于Word文档模版变量填充协议的电子签章系统及方法_上海万向区块链股份公司_202410293470.5

一种基于深度学习的自由格式文档识别方法_富邦华一银行有限公司_202011168354.9

一种文档编辑的方法、装置、计算机存储介质及终端_珠海金山办公软件有限公司_201910544754.6

一种文档视觉效果的配置方法和装置_珠海金山办公软件有限公司_201910262426.7

相似相关技术

一种相似药物存储用医药盒_杭州市西溪医院_202322784902.6

一种基于文本相似度的病状判断方法、装置及可读介质_厦门大学_202410161776.5

轨迹相似度计算方法、装置、车辆、设备及介质_北京罗克维尔斯科技有限公司_202211324395.1

基于放疗数据库的放疗相似度计划方法、系统及存储介质_天津医科大学总医院_202410400551.0

数据获取方法和装置、相似度计算方法和装置及存储介质_精工爱普生株式会社_202110586033.9

一种图像相似度确定方法、装置和设备_中国移动通信有限公司研究院_202211376885.6

基于光量子计算机的分子相似性计算方法和装置_北京玻色量子科技有限公司_202410251527.5

基于协同相似度学习的遥感图像变化检测系统_西安电子科技大学_202410084272.8

确定相似度的方法、装置、电子设备和计算机程序产品_北京火山引擎科技有限公司_202410154512.7

一种轨迹相似的判断方法、装置、电子设备及存储介质_深圳云天励飞技术有限公司_201911345182.5

度量相关技术

一阶研判规则知识合理性的智能度量方法_中国电子科技集团公司第十研究所_202410186988.9

适用小样本神经网络硬件系统的特征距离伸缩度量电路_厦门大学_202322458259.8

基于度量原型校准的小样本图像分类方法_重庆邮电大学_202410312685.7

一种基于扰动的混合精度量化方法_天翼电子商务有限公司_202211330408.6

一种自动化挤压式水泥稠度量水器_贵州科筑创品建筑技术有限公司_202322623445.2

基于相似性度量地质结构标签的SSL-CNN储层油气检测方法_中国地质大学(武汉)_202111369646.3

使用经前端处理的晶片的几何度量来处理半导体晶片的系统及方法_环球晶圆股份有限公司_202280063700.8

适用小样本神经网络硬件加速系统的可重构特征度量电路_厦门大学_202322458169.9

扫描散射术的叠对度量衡_科磊股份有限公司_202380013717.7

使用时间度量来操作量子设备_谷歌有限责任公司_202280061683.4

龙图腾网&IPTOP

【发明授权】一种基于关键词序列结构的文档相似度度量方法及系统_镇江市高等专科学校_201910406178.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务