【发明授权】一种基于段落划分的长文本相似度比对方法_中船凌久高科(武汉)有限公司;中国船舶集团有限公司第七〇九研究所_202410145332.2

申请/专利权人：中船凌久高科(武汉)有限公司;中国船舶集团有限公司第七〇九研究所

申请日：2024-02-02

公开（公告）日：2024-04-09

公开（公告）号：CN117688138B

主分类号：G06F16/33

分类号：G06F16/33;G06F40/30;G06F16/35

优先权：

专利状态码：有效-授权

法律状态：2024.04.09#授权;2024.03.29#实质审查的生效;2024.03.12#公开

摘要：本发明提供一种基于段落划分的长文本相似度比对方法，包括：用语义相似度和词频方法综合计算长文本中每一个段落的聚类结果；根据语义相似度和词频方法综合计算结果建立顺序层次聚类模型并进行段落划分；基于信息熵最小化判断选取最合理的聚类层次作为最优段落划分结果；获取待比对的两个长文本的每一个段落的融合嵌入向量，进行段落相似度比对交叉计算，并基于最优比对结果进行相似度内容提取。该方法能够有效提升长文本语义对比计算效率和精度，实现长文本去重或相似文本提取等需求。

主权项：1.一种基于段落划分的长文本相似度比对方法，其特征在于，包括：基于语义相似度和词频方法获取长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果；根据长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果，基于顺序层次聚类进行段落划分，得到初步段落划分结果；根据初步段落划分结果，基于信息熵最小化判断选取最合理的聚类层次作为最优段落划分结果；获取待比对的两个长文本的段落划分结果，并获取每个长文本的每个段落的融合嵌入向量；基于两个长文本的每个段落的融合嵌入向量，进行段落相似度比对交叉计算，得到两个长文本的段落匹配结果，并根据段落匹配结果从两个长文本中提取相似段落内容；其中基于语义相似度和词频方法获取长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果，包括：计算长文本中每个句子中的所有语义特征词与其它每个句子的语义相似度之和以及长文本中每个句子中所有语义特征词在每个句子中的词频-逆文档频率值之和，其中：；其中，为第t个句子的语义特征词向量，为当前句子中第k个的语义特征词向量，为句子中第k个语义特征词向量的维度，为当前句子中的所有语义特征词与第t个句子的语义相似度之和，softmax为将计算出来的值，变成0-1之间；；其中，n表示词频，为长文本当前句子的第语义特征词，为长文本中总句子数量，为包含当前句子的第个语义特征词的句子数量；所述根据长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果，建立顺序层次聚类进行段落划分，得到初步段落划分结果，包括：按顺序选取长文本中第1个句子，分别计算第1个句子中的所有语义特征词与其他第t个句子的语义相似度之和，以及所有特征词在其他句子中的词频-逆文档频率值之和；对语义相似度和词频-逆文档频率值权重加权，设定权重系数为，长文本中第1个句子对两种权重进行归一化加权和为：；其中表示长文本中第2个句子以及剩下所有句子；设定聚类阈值m，如果，继续进行下一步；否则，第1个句子单独为一聚类簇，即为一个初步段落；计算长文本中第个2句子的，继续判断，若，则继续进行下一步，否则第1个句子和第2个句子为一聚类簇，即为一个初步段落，依次对长文本中的每一个句子进行判断并划分，直至所有类簇按顺序给出，一个类簇为一个段落，每一个段落至少包括一个句子；所述根据初步段落划分结果，基于信息熵最小化判断选取最合理的聚类层次作为最优段落划分结果，包括：设产生的个聚类簇为，且每个簇的句子数1，每一个簇包括a个句子，第i个类簇包括的句子表示为，对于句子有个特征词，表示为；计算每一个特征词在对应句子中的信息熵和段外信息熵；基于每一个特征词在对应句子中的信息熵和段外信息熵构建段落划分的目标函数；对于每一个簇，穷尽计算所有的可能的句子划分组合的信息熵，找到目标函数计算结果最小的句子划分组合，获得最优段落划分结果。

全文数据：

权利要求：

百度查询：中船凌久高科(武汉)有限公司;中国船舶集团有限公司第七〇九研究所一种基于段落划分的长文本相似度比对方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

下一篇：一种方便拆装的瓦楞机用瓦楞辊_浙江永暉瓦楞辊有限公司_202322675014.0

相关技术

一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

一种方便拆装的瓦楞机用瓦楞辊_浙江永暉瓦楞辊有限公司_202322675014.0

一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

一种药材脱皮机_安徽亳药福泰药业有限公司_202322752517.3

无线遥控理疗床_泰安市迈迪医疗电子有限公司_202322303870.3

再生废液处理系统_山东荣信集团有限公司_202322260404.1

一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

一种英语听力训练用耳机_大同师范高等专科学校_202322527447.1

一种可移动升降旋转变形床头置物柜_山西传媒学院_202322018692.X

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

一种园林绿化便携铲_马丽丽_202322375183.2

一种水泵节能增压装置_陕西海利智慧能源科技有限公司_202322218413.4

文本相关技术

一种文本推荐方法、系统、存储介质和设备_济南大学_202111016193.6

一种基于深度学习的文本生成图像学习方法_大连理工大学_202111183091.3

文本检测方法、装置、计算机设备和存储介质_腾讯科技(深圳)有限公司_202011020108.9

一种文本行图片的解码方法、装置和设备_北京有竹居网络技术有限公司_202110558943.6

基于宏微观特征的中文文本笔迹鉴别方法、装置及存储介质_大连海事大学_202011643169.0

文本意图识别方法、装置、设备和存储介质_平安科技(深圳)有限公司_202010033742.X

文本细粒度情感分类方法、系统、装置及存储介质_华南理工大学_202010560649.4

一种基于文本的实体识别方法及相关装置_广东工业大学_202010844442.X

一种相似文本内容的识别方法、装置及存储介质_广州腾讯科技有限公司_201810595368.5

基于注意力机制的幽默文本分类方法、装置、设备、介质_中国平安人寿保险股份有限公司_202111433978.3

划分相关技术

帧内编码块划分处理方法和硬件装置_北京大学深圳研究生院_202010628731.6

一种尿素肥域的划分方法_中国农业科学院农业资源与农业区划研究所_202410047008.7

数字图像相关中非均匀网格划分及局部网格疏密方法_南京航空航天大学_202110188126.6

面向硬件的帧内编码模式中编码单元划分模式确定方法_北京大学深圳研究生院_202110878997.0

基于设备等级划分的设备兼容方法、服务器及终端设备_安信智通(南京)科技有限公司_202410075069.4

社区划分方法、装置、计算机设备及存储介质_北京字跳网络技术有限公司_202410064116.5

一种基于属性划分的可高效重构的个人隐私保护方法_东莞理工学院_202310965523.9

基于电-磁-声多参量信号幅值特征的放电阶段划分方法_华北电力大学_202311803273.5

用于高可靠性高射程通信(HRHRC)的基于区划的软资源划分_高通股份有限公司_201980032061.7

一种基于工艺指标调节潜质的工况划分和识别方法_中南大学_202210846935.6

相似相关技术

一种相似文本内容的识别方法、装置及存储介质_广州腾讯科技有限公司_201810595368.5

一种基于直方图相似度的扰动变形汉字图片匹配的方法_杭州电子科技大学_202011420541.1

一种基于相似性度量的道路巡查结果去重方法_同济大学_202410071145.4

一种锚杆相似材料的非线性力学性质测量方法_中国科学院武汉岩土力学研究所_202410081814.6

多相似目标的检测方法、系统、电子设备及介质_江苏一影医疗设备有限公司_202211254473.5

推送相似文章判定方法和装置、及存储介质和电子设备_盐城天眼察微科技有限公司_202210840564.0

基于大数据语义的相似事件检索方法、系统、设备和介质_中国电子科技集团公司第十五研究所_202410013690.8

一种个性化联邦场景下基于数据分布相似性的聚类方法_东北大学_202410292307.7

一种基于多特征相似度融合的红外和可见光图像匹配方法_安徽工业大学_202111074441.2

一种基于最小哈希和数据流的大规模相似文本聚类方法_电子科技大学长三角研究院(湖州)_202311646148.8

龙图腾网&IPTOP

【发明授权】一种基于段落划分的长文本相似度比对方法_中船凌久高科(武汉)有限公司;中国船舶集团有限公司第七〇九研究所_202410145332.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务