买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于段落划分的长文本相似度比对方法_中船凌久高科(武汉)有限公司;中国船舶集团有限公司第七〇九研究所_202410145332.2 

申请/专利权人:中船凌久高科(武汉)有限公司;中国船舶集团有限公司第七〇九研究所

申请日:2024-02-02

公开(公告)日:2024-03-12

公开(公告)号:CN117688138A

主分类号:G06F16/33

分类号:G06F16/33;G06F40/30;G06F16/35

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.03.29#实质审查的生效;2024.03.12#公开

摘要:本发明提供一种基于段落划分的长文本相似度比对方法,包括:用语义相似度和词频方法综合计算长文本中每一个段落的聚类结果;根据语义相似度和词频方法综合计算结果建立顺序层次聚类模型并进行段落划分;基于信息熵最小化判断选取最合理的聚类层次作为最优段落划分结果;获取待比对的两个长文本的每一个段落的融合嵌入向量,进行段落相似度比对交叉计算,并基于最优比对结果进行相似度内容提取。该方法能够有效提升长文本语义对比计算效率和精度,实现长文本去重或相似文本提取等需求。

主权项:1.一种基于段落划分的长文本相似度比对方法,其特征在于,包括:基于语义相似度和词频方法获取长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果;根据长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果,基于顺序层次聚类进行段落划分,得到初步段落划分结果;根据初步段落划分结果,基于信息熵最小化判断选取最合理的聚类层次作为最优段落划分结果;获取待比对的两个长文本的段落划分结果,并获取每个长文本的每个段落的融合嵌入向量;基于两个长文本的每个段落的融合嵌入向量,进行段落相似度比对交叉计算,得到两个长文本的段落匹配结果,并根据段落匹配结果从两个长文本中提取相似段落内容。

全文数据:

权利要求:

百度查询: 中船凌久高科(武汉)有限公司;中国船舶集团有限公司第七〇九研究所 一种基于段落划分的长文本相似度比对方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。