买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种合同条款的风险审查方法及装置_平安科技(深圳)有限公司_201910311817.3 

申请/专利权人:平安科技(深圳)有限公司

申请日:2019-04-18

公开(公告)日:2024-04-05

公开(公告)号:CN110163478B

主分类号:G06Q10/0635

分类号:G06Q10/0635;G06Q50/18;G06F40/279;G06F40/289

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2021.05.11#实质审查的生效;2019.08.23#公开

摘要:本发明实施例提供了一种合同条款的风险审查方法及装置,本发明属于人工智能技术领域,该方法包括:获取待审查合同及待审查合同的业务类型;调取与待审查合同的业务类型相一致的合同样本,合同样本中的条款文本与相应的风险提示信息相关联;利用自然语言处理技术将待审查合同分割为多个子段文本;计算子段文本与合同样本中的条款文本的文本相似度得分;以文本相似度得分最高的条款文本所对应的风险提示信息作为子段文本的风险提示信息,并将风险提示信息标注在待审查合同上。本发明实施例提供的技术方案能够解决现有技术中合同条款的风险审查效率低的问题。

主权项:1.一种合同条款的风险审查方法,其特征在于,所述方法包括:获取待审查合同及所述待审查合同的业务类型;调取与所述待审查合同的业务类型相一致的合同样本,所述合同样本中的条款文本与相应的风险提示信息相关联;利用自然语言处理技术将所述待审查合同分割为多个子段文本;计算所述子段文本与所述合同样本中的条款文本的文本相似度得分;以所述文本相似度得分最高的条款文本所对应的风险提示信息作为所述子段文本的风险提示信息,并将所述风险提示信息标注在所述待审查合同上;所述计算所述子段文本与所述合同样本中的条款文本的文本相似度得分,包括:计算所述子段文本与所述合同样本中的条款文本的语义相似度;计算所述子段文本与所述合同样本中的条款文本的结构相似度;根据所述语义相似度、所述结构相似度及预设的权重计算所述子段文本与所述合同样本中的条款文本的文本相似度得分;所述计算所述子段文本与所述合同样本中的条款文本的语义相似度,包括:对所述子段文本及所述条款文本进行分词处理,并提取多个关键词;通过词向量表示模型获取每个所述关键词的向量表示;采用余弦相似度公式计算多个所述关键词的向量相似度,得到所述子段文本与所述条款文本的语义相似度;所述计算所述子段文本与所述合同样本中的条款文本的结构相似度,包括:对所述子段文本及每个所述条款文本进行分词处理;分别提取所述子段文本及所述条款文本的结构元素,所述结构元素包括核心谓语、主谓关系及动宾关系;将提取到的所述子段文本的结构元素与所述条款文本的结构元素进行匹配,确定匹配成功的结构元素;基于所述匹配成功的结构元素确定所述子段文本与所述条款文本的结构相似度。

全文数据:一种合同条款的风险审查方法及装置【技术领域】本发明涉及人工智能技术领域,尤其涉及一种合同条款的风险审查方法及装置。【背景技术】目前合同审查中的各条款的法律风险判断主要依靠的是专业人士,要靠专业人员的专业知识、职业经验、合同当事方的需求结合当前有效的法律法规来判定一个合同条款是否存在风险,这是一个很费时费力的过程。不仅为相关法律人员带来巨大的工作量,同时也使得整个的过程的效率下降。因此,如何提高合同审查的效率是目前亟待解决的问题。【发明内容】有鉴于此,本发明实施例提供了一种合同条款的风险审查方法及装置,用以解决现有技术中合同条款风险审查效率低的问题。为了实现上述目的,根据本发明的一个方面,提供了一种合同条款的风险审查方法,所述方法包括:获取待审查合同及所述待审查合同的业务类型;调取与所述待审查合同的业务类型相一致的合同样本,所述合同样本中的条款文本与相应的风险提示信息相关联;利用自然语言处理技术将所述待审查合同分割为多个子段文本;计算所述子段文本与所述合同样本中的条款文本的文本相似度得分;以所述文本相似度得分最高的条款文本所对应的风险提示信息作为所述子段文本的风险提示信息,并将所述风险提示信息标注在所述待审查合同上。进一步地,所述计算所述子段文本与所述合同样本中的条款文本的文本相似度得分,包括:计算所述子段文本与所述合同样本中的条款文本的语义相似度;计算所述子段文本与所述合同样本中的条款文本的结构相似度;根据所述语义相似度、所述结构相似度及预设的权重计算所述子段文本与所述合同样本中的条款文本的文本相似度得分。进一步地,所述计算所述子段文本与所述合同样本中的条款文本的语义相似度,包括:对所述子段文本及所述条款文本进行分词处理,并提取多个关键词;通过词向量表示模型获取每个所述关键词的向量表示;采用余弦相似度公式计算多个所述关键词的向量相似度,得到所述子段文本与所述条款文本的语义相似度。进一步地,所述计算所述子段文本与所述合同样本中的条款文本的结构相似度,包括:对所述子段文本及每个所述条款文本进行分词处理;分别提取所述子段文本及所述条款文本的结构元素,所述结构元素包括核心谓语、主谓关系及动宾关系;将提取到的所述子段文本的结构元素与所述条款文本的结构元素进行匹配,确定匹配成功的结构元素;基于所述匹配成功的结构元素确定所述子段文本与所述条款文本的结构相似度。进一步地,在所述利用自然语言处理技术将所述待审查合同分割为多个子段文本之后,所述方法还包括:对所述子段文本进行分词处理,得到所述子段文本的多个词汇;将所述子段文本的多个所述词汇输入预设的禁用词标注模型;获取所述禁用词标注模型输出的多个所述词汇的风险标注结果;根据所述风险标注结果对所述待审查合同中的对应词汇进行高亮显示。进一步地,在所述获取待审查合同及所述待审查合同的业务类型之后,并在所述调取与所述待审查合同的业务类型相一致的合同样本之前,所述方法包括:获取所述待审查合同的格式,并判断所述格式是否为文本格式;当所述格式不是所述文本格式,利用光学字符识别方法将所述待审查合同的格式转换为所述文本格式。为了实现上述目的,根据本发明的一个方面,提供了一种合同条款的风险审查装置,所述装置包括:第一获取单元,用于获取待审查合同及所述待审查合同的业务类型;调取单元,用于调取与所述待审查合同的业务类型相一致的合同样本,所述合同样本中的条款文本与相应的风险提示信息相关联;分割单元,用于利用自然语言处理技术将所述待审查合同分割为多个子段文本;计算单元,用于计算所述子段文本与所述合同样本中的条款文本的文本相似度得分;处理单元,用于以所述文本相似度得分最高的条款文本所对应的风险提示信息作为所述子段文本的风险提示信息,并将所述风险提示信息标注在所述待审查合同上。进一步地,所述计算单元包括:第一计算子单元,用于计算所述子段文本与所述合同样本中的条款文本的语义相似度;第二计算子单元,用于计算所述子段文本与所述合同样本中的条款文本的结构相似度;第三计算子单元,用于根据所述语义相似度、所述结构相似度及预设的权重计算所述子段文本与所述合同样本中的条款文本的文本相似度得分。为了实现上述目的,根据本发明的一个方面,提供了一种计算机非易失性存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述的任意一项所述合同条款的风险审查方法。为了实现上述目的,根据本发明的一个方面,提供了一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述程序指令被处理器加载并执行时实现上述的任意一项所述合同条款的风险审查方法的步骤。在本方案中,通过待审查合同的业务类型调取相应的合同样本,并将待审查合同的多个子段文本与合同样本中的条款文本进行文本相似度计算,根据相似度得分最高的条款文本所对应的风险提示信息作为子段文本的风险提示信息,并进行标注,能够防范合同风险,提高合同审查效率。【附图说明】为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。图1是根据本发明实施例的一种合同条款的风险审查方法的流程图;图2是根据本发明实施例的一种合同条款的风险审查装置的示意图;图3是根据本发明实施例的一种计算机设备的示意图。【具体实施方式】为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。应当理解,本文中使用的术语“和或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“”,一般表示前后关联对象是一种“或”的关系。应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述终端,但这些终端不应限于这些术语。这些术语仅用来将终端彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一获取单元也可以被称为第二获取单元,类似地,第二获取单元也可以被称为第一获取单元。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测陈述的条件或事件”可以被解释成为“当确定时”或“响应于确定”或“当检测陈述的条件或事件时”或“响应于检测陈述的条件或事件”。图1是根据本发明实施例的一种合同条款的风险审查方法的流程图,如图1所示,该方法包括:步骤S101,获取待审查合同及待审查合同的业务类型。步骤S102,调取与待审查合同的业务类型相一致的合同样本,合同样本中的条款文本与相应的风险提示信息相关联。步骤S103,利用自然语言处理技术将待审查合同分割为多个子段文本。步骤S104,计算子段文本与合同样本中的条款文本的文本相似度得分。步骤S105,以文本相似度得分最高的条款文本所对应的风险提示信息作为子段文本的风险提示信息,并将风险提示信息标注在待审查合同上。其中,业务类型包括房地产、银行、证券、基金及信托中任意一种。房地产业务包括房地产贷款合同、房屋出租合同、房屋买卖合同等。在本方案中,通过待审查合同的业务类型调取相应的合同样本,并将待审查合同的多个子段文本与合同样本中的条款文本进行文本相似度计算,根据相似度得分最高的条款文本所对应的风险提示信息作为子段文本的风险提示信息,并进行标注,能够防范合同风险,提高合同审查效率。在一种实施方式中,可以通过蓝牙、通讯网络、USB接口等方式将待审核合同上传至该方法的应用终端,该方法的应用终端在接收到待审查合同与审核指令时,即可自动实施合同风险审核,替代人工,提高审核效率。其中,合同样本为各种业务类型的合同的模板,可以通过网络爬虫爬取网络上常用的一些合同范本或人工整理的方式收集合同样本。进一步地,合同法审人员将合同样本中的条款进行逐条分析,并将具有风险的条款进行标注,例如:乙方借款人:张某某,法定代表人负责人:李某某。风险提示:构成关联交易,应关注定价公允几关联交易审核流程。最后,将标注并审核后的合同样本存储至预设的数据库中。每个合同样本都设有业务类型的标签,因此在调取合同样本时能够利用标签才实现样本的调用。可以理解地,条款文本是合同中的单条条款,例如:乙方不得以转租或其他形式允许乙方关联方以外的第三方使用该房屋之全部或者部分。可选地,获取待审查合同及待审查合同的业务类型,可以通过分析其标题的主题词获取待审查合同,例如:房屋买卖合同、贷款合同、证券合同、基金买卖合同、信托合同等,可以直接获取待审查合同的业务类型,并根据业务类型去数据库中的调取与业务类型相一致的合同样本。可选地,在获取待审查合同及待审查合同的业务类型之后,并在调取与待审查合同的业务类型相一致的合同样本之前,方法包括:获取待审查合同的格式,并判断格式是否为文本格式;当格式不是文本格式,利用光学字符识别方法将待审查合同的格式转换为文本格式。例如,待审查合同的格式可能是word、pdf、扫描档、jpg等,还可以直接利用现有一些文档编辑软件如PDF直接进行转换,将PDF版的标准合同转换为word版。可选地,计算子段文本与合同样本中的条款文本的文本相似度得分,包括:计算子段文本与合同样本中的条款文本的语义相似度;计算子段文本与合同样本中的条款文本的结构相似度;根据语义相似度、结构相似度及预设的权重计算子段文本与合同样本中的条款文本的文本相似度得分。具体地,计算子段文本与合同样本中的条款文本的语义相似度,包括:对子段文本及每个条款文本进行分词处理,并提取多个关键词;通过词向量表示模型获取每个关键词的向量表示;采用余弦相似度公式计算多个关键词的向量相似度,得到子段文本与条款文本的相似度。在一种实施方式中,可以采用分词开源工具,例如ICTCLAS、SCWS等,也可以直接使用自行开发的分词接口对每个子段文本进行分词。词向量表示模型例如可以是WORD2VEC等神经网络模型。例如:子段文本A为“乙方不得以转租或其他形式允许乙方关联方以外的第三方使用该房屋之全部或者部分。”其关键词包括“乙方、转租、房屋、全部、部分”条款文本B为“未经甲方同意,乙方不得转租、转借承租房屋。”其关键词包括“乙方、转租、转借、房屋”余弦相似度计算公式:cosθ表示相似度,i表示词汇数,其值为1~n的正整数,A表示子段文本,B表示条款文本,Ai、Bi分别表示子段文本或条款文本中的一关键词。可以理解地,将每个子段中的词映射成一个长度固定的向量,子段中的关键词的向量构成一个向量空间,每个关键词都是向量空间中的一个点,从而计算每个子段文本与条款文本的语义相似度,使得能够依据语义相似度筛选出相似度最高的条款文本。可选地,计算子段文本与合同样本中的条款文本的结构相似度,包括:对子段文本及每个条款文本进行分词处理;分别提取子段文本及条款文本的结构元素,结构元素包括核心谓语、主谓关系及动宾关系;将提取到的子段文本的结构元素与条款文本的结构元素进行匹配,确定匹配成功的结构元素;基于匹配成功的结构元素确定子段文本与条款文本的结构相似度。其中,主谓关系是指这个子段文本中的主语和谓语的呈现关系,动宾关系是指这个子段文本中的谓语和宾语的呈现关系。例如,子段文本A为“乙方不得以转租或其他形式允许乙方关联方以外的第三方使用该房屋之全部或者部分。”其核心谓语是“不得”“转租”宾语是“第三方使用该房屋之全部或部分”。条款文本B为“未经甲方同意,乙方不得转租、转借承租房屋。”其核心谓语是“不得”“转租”“转借”,宾语是“房屋”。匹配成功的结构元素有核心谓语、主谓关系,那么其结构相似度极高。可以理解地,若计算出的语义相似度为78分,结构相似度为75分,假设语义相似度与结构相似度的权重分别为40%与60%,那么这个子段文本与条款文本之间的文本相似度为78*40%+75*60%=76.5。这样使得一些语义相似很高的条款文本,但是结构相似度很低的条款文本能够不会误导子段文本。例如,条款文本B1为“未经甲方同意,乙方不得转租、转借承租房屋。”条款文本B2为“未经乙方同意,甲方不得擅自将承租房屋二次出租给第三方。”这两个条款的语义很相近,但是其主谓关系却截然不同,特别容易混淆。因此,引入结构相似度,能够更大程度上保障文本相似度计算的准确性,使得子段文本匹配到的条款文本更加准确,风险提示信息也会更加准确。可选地,计算每个子段文本与合同样本中的条款文本的文本相似度得分,包括:对子段文本进行分词得到关键词;对每个条款文本根据关键词进行检索,并计算关键词与条款文本的相关性得分,最后将所有的关键词进行加权求和,从而得到子段文本与条款文本的文本相似度得分。其中,qi表示关键词,n表示关键词的个数,d表示条款文本,Q表示子段文本,Wi表示关键词qi的权重值。在其他实施方式中,还可以通过TF-IDF来计算每个子段文本与合同样本中的条款文本的文本相似度得分。其中,TF表示词频,即某一个词汇在文本中出现的频率,频率越大与文本的主题越相关。IDF表示逆文本频率,即某一个词汇在文本中出现的频率越高,该词汇的区分能力越差。可选地,在利用自然语言处理技术将待审查合同分割为多个子段文本之后,方法还包括:对每个子段文本进行分词处理,得到每个子段文本的多个词汇;将每个子段文本的多个词汇输入预设的禁用词标注模型;获取禁用词标注模型输出的多个词汇的风险标注结果;根据风险标注结果对待审查合同中的对应词汇进行高亮显示。其中,禁用词为合同文本中风险等级高的词汇,例如“及时”、“力争”、“争取”“明年”等。可选地,在将每个子段文本的多个词汇输入预设的禁用词标注模型之前,方法还包括:获取多个合同样本的条款训练语料,条款训练语料中的禁用词设有标注;基于条款训练语料构建并训练禁用词标注模型;获取测试集,其中,测试集包括多条测试语料;将测试集输入禁用词标注模型,并获取禁用词标注模型输出的测试集中的测试语料的禁用词标注结果;根据测试集的标注结果判断是否需要继续优化禁用词标注模型,直至禁用词标注模型的标注准确率大于预设值。其中,禁用词标注模型可以采用深度卷积神经网络算法,也可以替换成其它任意分类算法,例如,KNNk-NearestNeighbor,邻近分类算法、SVMSupportVectorMachine,支持向量机以及随机森林等,以获得禁用词标注模型。在本方案中,通过待审查合同的业务类型调取相应的合同样本,并将待审查合同的多个子段文本与合同样本中的条款文本进行文本相似度计算,根据相似度得分最高的条款文本所对应的风险提示信息作为子段文本的风险提示信息,并进行标注,能够防范合同风险,提高合同审查效率。本发明实施例提供了一种合同条款的风险审查装置,该装置用于执行上述合同条款的风险审查方法,如图2所示,该装置包括:第一获取单元10、调取单元20、分割单元30、计算单元40及处理单元50。第一获取单元10,用于获取待审查合同及待审查合同的业务类型。调取单元20,用于调取与待审查合同的业务类型相一致的合同样本,合同样本中的条款文本与相应的风险提示信息相关联。分割单元30,用于利用自然语言处理技术将待审查合同分割为多个子段文本。计算单元40,用于计算子段文本与合同样本中的条款文本的文本相似度得分。处理单元50,用于以文本相似度得分最高的条款文本所对应的风险提示信息作为子段文本的风险提示信息,并将风险提示信息标注在待审查合同上。其中,业务类型包括房地产、银行、证券、基金及信托中任意一种。房地产业务包括房地产贷款合同、房屋出租合同、房屋买卖合同等。在本方案中,通过待审查合同的业务类型调取相应的合同样本,并将待审查合同的多个子段文本与合同样本中的条款文本进行文本相似度计算,根据相似度得分最高的条款文本所对应的风险提示信息作为子段文本的风险提示信息,并进行标注,能够防范合同风险,提高合同审查效率。在一种实施方式中,可以通过蓝牙、通讯网络、USB接口等方式将待审核合同上传至该方法的应用终端,该方法的应用终端在接收到待审查合同与审核指令时,即可自动实施合同风险审核,替代人工,提高审核效率。其中,合同样本为各种业务类型的合同的模板,可以通过网络爬虫爬取网络上常用的一些合同范本或人工整理的方式收集合同样本。进一步地,合同法审人员将合同样本中的条款进行逐条分析,并将具有风险的条款进行标注,例如:乙方借款人:张某某,法定代表人负责人:李某某。风险提示:构成关联交易,应关注定价公允几关联交易审核流程。最后,将标注并审核后的合同样本存储至预设的数据库中。每个合同样本都设有业务类型的标签,因此在调取合同样本时能够利用标签才实现样本的调用。可以理解地,条款文本是合同中的单条条款,例如:乙方不得以转租或其他形式允许乙方关联方以外的第三方使用该房屋之全部或者部分。可选地,获取待审查合同及待审查合同的业务类型,可以通过分析其标题的主题词获取待审查合同,例如:房屋买卖合同、贷款合同、证券合同、基金买卖合同、信托合同等,可以直接获取待审查合同的业务类型,并根据业务类型去数据库中的调取与业务类型相一致的合同样本。可选地,装置还包括第二获取单元、转换单元。第二获取单元,用于获取待审查合同的格式,并判断格式是否为文本格式;转换单元,用于当格式不是文本格式,利用光学字符识别方法将待审查合同的格式转换为文本格式。例如,待审查合同的格式可能是word、pdf、扫描档、jpg等,还可以直接利用现有一些文档编辑软件如PDF直接进行转换,将PDF版的标准合同转换为word版。可选地,计算单元包括第一计算子单元、第二计算子单元、第三计算子单元。第一计算子单元,用于计算子段文本与合同样本中的条款文本的语义相似度;第二计算子单元,用于计算子段文本与合同样本中的条款文本的结构相似度;第三计算子单元,用于根据语义相似度、结构相似度及预设的权重计算子段文本与合同样本中的条款文本的文本相似度得分。具体地,计算子段文本与合同样本中的条款文本的语义相似度,包括:对子段文本及每个条款文本进行分词处理,并提取多个关键词;通过词向量表示模型获取每个关键词的向量表示;采用余弦相似度公式计算多个关键词的向量相似度,得到子段文本与条款文本的相似度。在一种实施方式中,可以采用分词开源工具,例如ICTCLAS、SCWS等,也可以直接使用自行开发的分词接口对每个子段文本进行分词。词向量表示模型例如可以是WORD2VEC等神经网络模型。例如:子段文本A为“乙方不得以转租或其他形式允许乙方关联方以外的第三方使用该房屋之全部或者部分。”其关键词包括“乙方、转租、房屋、全部、部分”条款文本B为“未经甲方同意,乙方不得转租、转借承租房屋。”其关键词包括“乙方、转租、转借、房屋”余弦相似度计算公式:cosθ表示相似度,i表示词汇数,其值为1~n的正整数,A表示子段文本,B表示条款文本,Ai、Bi分别表示子段文本或条款文本中的一关键词。可以理解地,将每个子段中的词映射成一个长度固定的向量,子段中的关键词的向量构成一个向量空间,每个关键词都是向量空间中的一个点,从而计算每个子段文本与条款文本的语义相似度,使得能够依据语义相似度筛选出相似度最高的条款文本。可选地,第二计算子单元还用于对子段文本及每个条款文本进行分词处理;分别提取子段文本及条款文本的结构元素,结构元素包括核心谓语、主谓关系及动宾关系;将提取到的子段文本的结构元素与条款文本的结构元素进行匹配,确定匹配成功的结构元素;基于匹配成功的结构元素确定子段文本与条款文本的结构相似度。其中,主谓关系是指这个子段文本中的主语和谓语的呈现关系,动宾关系是指这个子段文本中的谓语和宾语的呈现关系。例如,子段文本A为“乙方不得以转租或其他形式允许乙方关联方以外的第三方使用该房屋之全部或者部分。”其核心谓语是“不得”“转租”宾语是“第三方使用该房屋之全部或部分”。条款文本B为“未经甲方同意,乙方不得转租、转借承租房屋。”其核心谓语是“不得”“转租”“转借”,宾语是“房屋”。匹配成功的结构元素有核心谓语、主谓关系,那么其结构相似度极高。可以理解地,若计算出的语义相似度为78分,结构相似度为75分,假设语义相似度与结构相似度的权重分别为40%与60%,那么这个子段文本与条款文本之间的文本相似度为78*40%+75*60%=76.5。这样使得一些语义相似很高的条款文本,但是结构相似度很低的条款文本能够不会误导子段文本。例如,条款文本B1为“未经甲方同意,乙方不得转租、转借承租房屋。”条款文本B2为“未经乙方同意,甲方不得擅自将承租房屋二次出租给第三方。”这两个条款的语义很相近,但是其主谓关系却截然不同,特别容易混淆。因此,引入结构相似度,能够更大程度上保障文本相似度计算的准确性,使得子段文本匹配到的条款文本更加准确,风险提示信息也会更加准确。可选地,计算单元还包括分词子单元、第四计算子单元。分词子单元,用于对子段文本进行分词得到关键词;第四计算子单元,用于对每个条款文本根据关键词进行检索,并计算关键词与条款文本的相关性得分,最后将所有的关键词进行加权求和,从而得到子段文本与条款文本的文本相似度得分。其中,qi表示关键词,n表示关键词的个数,d表示条款文本,Q表示子段文本,Wi表示关键词qi的权重值。在其他实施方式中,还可以通过TF-IDF来计算每个子段文本与合同样本中的条款文本的文本相似度得分。其中,TF表示词频,即某一个词汇在文本中出现的频率,频率越大与文本的主题越相关。IDF表示逆文本频率,即某一个词汇在文本中出现的频率越高,该词汇的区分能力越差。可选地,装置还包括分词单元、输入单元、第三获取单元、标注单元。分词单元,用于对每个子段文本进行分词处理,得到每个子段文本的多个词汇;输入单元,用于将每个子段文本的多个词汇输入预设的禁用词标注模型;第三获取单元,用于获取禁用词标注模型输出的多个词汇的风险标注结果;标注单元,用于根据风险标注结果对待审查合同中的对应词汇进行高亮显示。其中,禁用词为合同文本中风险等级高的词汇,例如“及时”、“力争”、“争取”“明年”等。可选地,训练禁用词标注模型可以采用以下方式:获取多个合同样本的条款训练语料,条款训练语料中的禁用词设有标注;基于条款训练语料构建并训练禁用词标注模型;获取测试集,其中,测试集包括多条测试语料;将测试集输入禁用词标注模型,并获取禁用词标注模型输出的测试集中的测试语料的禁用词标注结果;根据测试集的标注结果判断是否需要继续优化禁用词标注模型,直至禁用词标注模型的标注准确率大于预设值。其中,禁用词标注模型可以采用深度卷积神经网络算法,也可以替换成其它任意分类算法,例如,KNNk-NearestNeighbor,邻近分类算法、SVMSupportVectorMachine,支持向量机以及随机森林等,以获得禁用词标注模型。在本方案中,通过待审查合同的业务类型调取相应的合同样本,并将待审查合同的多个子段文本与合同样本中的条款文本进行文本相似度计算,根据相似度得分最高的条款文本所对应的风险提示信息作为子段文本的风险提示信息,并进行标注,能够防范合同风险,提高合同审查效率。本发明实施例提供了一种计算机非易失性存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行以下步骤:获取待审查合同及待审查合同的业务类型;调取与待审查合同的业务类型相一致的合同样本,合同样本中的条款文本与相应的风险提示信息相关联;利用自然语言处理技术将待审查合同分割为多个子段文本;计算子段文本与合同样本中的条款文本的文本相似度得分;以文本相似度得分最高的条款文本所对应的风险提示信息作为子段文本的风险提示信息,并将风险提示信息标注在待审查合同上。可选地,在程序运行时控制存储介质所在设备还执行以下步骤:计算子段文本与合同样本中的条款文本的语义相似度;计算子段文本与合同样本中的条款文本的结构相似度;根据语义相似度、结构相似度及预设的权重计算子段文本与合同样本中的条款文本的文本相似度得分。可选地,在程序运行时控制存储介质所在设备还执行以下步骤:对子段文本及条款文本进行分词处理,并提取多个关键词;通过词向量表示模型获取每个关键词的向量表示;采用余弦相似度公式计算多个关键词的向量相似度,得到子段文本与条款文本的语义相似度。可选地,在程序运行时控制存储介质所在设备还执行以下步骤:对子段文本及每个条款文本进行分词处理;分别提取子段文本及条款文本的结构元素,结构元素包括核心谓语、主谓关系及动宾关系;将提取到的子段文本的结构元素与条款文本的结构元素进行匹配,确定匹配成功的结构元素;基于匹配成功的结构元素确定子段文本与条款文本的结构相似度。可选地,在程序运行时控制存储介质所在设备还执行以下步骤:对子段文本进行分词处理,得到子段文本的多个词汇;将子段文本的多个词汇输入预设的禁用词标注模型;获取禁用词标注模型输出的多个词汇的风险标注结果;根据风险标注结果对待审查合同中的对应词汇进行高亮显示。图3是本发明实施例提供的一种计算机设备的示意图。如图3所示,该实施例的计算机设备100包括:处理器101、存储器102以及存储在存储器102中并可在处理器101上运行的计算机程序103,该计算机程序103被处理器101执行时实现实施例中的合同条款的风险审查方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器101执行时实现实施例中合同条款的风险审查装置中各模型单元的功能,为避免重复,此处不一一赘述。计算机设备100可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,处理器101、存储器102。本领域技术人员可以理解,图3仅仅是计算机设备100的示例,并不构成对计算机设备100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。所称处理器101可以是中央处理单元CentralProcessingUnit,CPU,还可以是其他通用处理器、数字信号处理器DigitalSignalProcessor,DSP、专用集成电路ApplicationSpecificIntegratedCircuit,ASIC、现场可编程门阵列Field-ProgrammableGateArray,FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器102可以是计算机设备100的内部存储单元,例如计算机设备100的硬盘或内存。存储器102也可以是计算机设备100的外部存储设备,例如计算机设备100上配备的插接式硬盘,智能存储卡SmartMediaCard,SMC,安全数字SecureDigital,SD卡,闪存卡FlashCard等。进一步地,存储器102还可以既包括计算机设备100的内部存储单元也包括外部存储设备。存储器102用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器102还可以用于暂时地存储已经输出或者将要输出的数据。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置可以是个人计算机,服务器,或者网络装置等或处理器Processor执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器Read-OnlyMemory,ROM、随机存取存储器RandomAccessMemory,RAM、磁碟或者光盘等各种可以存储程序代码的介质。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

权利要求:1.一种合同条款的风险审查方法,其特征在于,所述方法包括:获取待审查合同及所述待审查合同的业务类型;调取与所述待审查合同的业务类型相一致的合同样本,所述合同样本中的条款文本与相应的风险提示信息相关联;利用自然语言处理技术将所述待审查合同分割为多个子段文本;计算所述子段文本与所述合同样本中的条款文本的文本相似度得分;以所述文本相似度得分最高的条款文本所对应的风险提示信息作为所述子段文本的风险提示信息,并将所述风险提示信息标注在所述待审查合同上。2.根据权利要求1所述的方法,其特征在于,所述计算所述子段文本与所述合同样本中的条款文本的文本相似度得分,包括:计算所述子段文本与所述合同样本中的条款文本的语义相似度;计算所述子段文本与所述合同样本中的条款文本的结构相似度;根据所述语义相似度、所述结构相似度及预设的权重计算所述子段文本与所述合同样本中的条款文本的文本相似度得分。3.根据权利要求2所述的方法,其特征在于,所述计算所述子段文本与所述合同样本中的条款文本的语义相似度,包括:对所述子段文本及所述条款文本进行分词处理,并提取多个关键词;通过词向量表示模型获取每个所述关键词的向量表示;采用余弦相似度公式计算多个所述关键词的向量相似度,得到所述子段文本与所述条款文本的语义相似度。4.根据权利要求2所述的方法,其特征在于,所述计算所述子段文本与所述合同样本中的条款文本的结构相似度,包括:对所述子段文本及每个所述条款文本进行分词处理;分别提取所述子段文本及所述条款文本的结构元素,所述结构元素包括核心谓语、主谓关系及动宾关系;将提取到的所述子段文本的结构元素与所述条款文本的结构元素进行匹配,确定匹配成功的结构元素;基于所述匹配成功的结构元素确定所述子段文本与所述条款文本的结构相似度。5.根据权利要求1~4中的任意一项所述的方法,其特征在于,在所述利用自然语言处理技术将所述待审查合同分割为多个子段文本之后,所述方法还包括:对所述子段文本进行分词处理,得到所述子段文本的多个词汇;将所述子段文本的多个所述词汇输入预设的禁用词标注模型;获取所述禁用词标注模型输出的多个所述词汇的风险标注结果;根据所述风险标注结果对所述待审查合同中的对应词汇进行高亮显示。6.根据权利要求1所述的方法,其特征在于,在所述获取待审查合同及所述待审查合同的业务类型之后,并在所述调取与所述待审查合同的业务类型相一致的合同样本之前,所述方法包括:获取所述待审查合同的格式,并判断所述格式是否为文本格式;当所述格式不是所述文本格式,利用光学字符识别方法将所述待审查合同的格式转换为所述文本格式。7.一种合同条款的风险审查装置,其特征在于,所述装置包括:第一获取单元,用于获取待审查合同及所述待审查合同的业务类型;调取单元,用于调取与所述待审查合同的业务类型相一致的合同样本,所述合同样本中的条款文本与相应的风险提示信息相关联;分割单元,用于利用自然语言处理技术将所述待审查合同分割为多个子段文本;计算单元,用于计算所述子段文本与所述合同样本中的条款文本的文本相似度得分;处理单元,用于以所述文本相似度得分最高的条款文本所对应的风险提示信息作为所述子段文本的风险提示信息,并将所述风险提示信息标注在所述待审查合同上。8.根据权利要求7所述的装置,其特征在于,所述计算单元包括:第一计算子单元,用于计算所述子段文本与所述合同样本中的条款文本的语义相似度;第二计算子单元,用于计算所述子段文本与所述合同样本中的条款文本的结构相似度;第三计算子单元,用于根据所述语义相似度、所述结构相似度及预设的权重计算所述子段文本与所述合同样本中的条款文本的文本相似度得分。9.一种计算机非易失性存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述合同条款的风险审查方法。10.一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于:所述程序指令被处理器加载并执行时实现权利要求1至6任意一项所述的合同条款的风险审查方法的步骤。

百度查询: 平安科技(深圳)有限公司 一种合同条款的风险审查方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。