买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于段落划分的长文本相似度比对方法_中船凌久高科(武汉)有限公司;中国船舶集团有限公司第七〇九研究所_202410145332.2 

申请/专利权人:中船凌久高科(武汉)有限公司;中国船舶集团有限公司第七〇九研究所

申请日:2024-02-02

公开(公告)日:2024-04-09

公开(公告)号:CN117688138B

主分类号:G06F16/33

分类号:G06F16/33;G06F40/30;G06F16/35

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2024.03.29#实质审查的生效;2024.03.12#公开

摘要:本发明提供一种基于段落划分的长文本相似度比对方法,包括:用语义相似度和词频方法综合计算长文本中每一个段落的聚类结果;根据语义相似度和词频方法综合计算结果建立顺序层次聚类模型并进行段落划分;基于信息熵最小化判断选取最合理的聚类层次作为最优段落划分结果;获取待比对的两个长文本的每一个段落的融合嵌入向量,进行段落相似度比对交叉计算,并基于最优比对结果进行相似度内容提取。该方法能够有效提升长文本语义对比计算效率和精度,实现长文本去重或相似文本提取等需求。

主权项:1.一种基于段落划分的长文本相似度比对方法,其特征在于,包括:基于语义相似度和词频方法获取长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果;根据长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果,基于顺序层次聚类进行段落划分,得到初步段落划分结果;根据初步段落划分结果,基于信息熵最小化判断选取最合理的聚类层次作为最优段落划分结果;获取待比对的两个长文本的段落划分结果,并获取每个长文本的每个段落的融合嵌入向量;基于两个长文本的每个段落的融合嵌入向量,进行段落相似度比对交叉计算,得到两个长文本的段落匹配结果,并根据段落匹配结果从两个长文本中提取相似段落内容;其中基于语义相似度和词频方法获取长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果,包括:计算长文本中每个句子中的所有语义特征词与其它每个句子的语义相似度之和以及长文本中每个句子中所有语义特征词在每个句子中的词频-逆文档频率值之和,其中: ;其中,为第t个句子的语义特征词向量,为当前句子中第k个的语义特征词向量,为句子中第k个语义特征词向量的维度,为当前句子中的所有语义特征词与第t个句子的语义相似度之和,softmax为将计算出来的值,变成0-1之间; ;其中,n表示词频,为长文本当前句子的第语义特征词,为长文本中总句子数量,为包含当前句子的第个语义特征词的句子数量;所述根据长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果,建立顺序层次聚类进行段落划分,得到初步段落划分结果,包括:按顺序选取长文本中第1个句子,分别计算第1个句子中的所有语义特征词与其他第t个句子的语义相似度之和,以及所有特征词在其他句子中的词频-逆文档频率值之和;对语义相似度和词频-逆文档频率值权重加权,设定权重系数为,长文本中第1个句子对两种权重进行归一化加权和为: ;其中表示长文本中第2个句子以及剩下所有句子;设定聚类阈值m,如果,继续进行下一步;否则,第1个句子单独为一聚类簇,即为一个初步段落;计算长文本中第个2句子的,继续判断,若,则继续进行下一步,否则第1个句子和第2个句子为一聚类簇,即为一个初步段落,依次对长文本中的每一个句子进行判断并划分,直至所有类簇按顺序给出,一个类簇为一个段落,每一个段落至少包括一个句子;所述根据初步段落划分结果,基于信息熵最小化判断选取最合理的聚类层次作为最优段落划分结果,包括:设产生的个聚类簇为,且每个簇的句子数1,每一个簇包括a个句子,第i个类簇包括的句子表示为,对于句子有个特征词,表示为;计算每一个特征词在对应句子中的信息熵和段外信息熵;基于每一个特征词在对应句子中的信息熵和段外信息熵构建段落划分的目标函数;对于每一个簇,穷尽计算所有的可能的句子划分组合的信息熵,找到目标函数计算结果最小的句子划分组合,获得最优段落划分结果。

全文数据:

权利要求:

百度查询: 中船凌久高科(武汉)有限公司;中国船舶集团有限公司第七〇九研究所 一种基于段落划分的长文本相似度比对方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。