【发明授权】一种基于无监督的多模型融合抽取式文本摘要方法_南京硅基智能科技有限公司_202010476581.1

申请/专利权人：南京硅基智能科技有限公司

申请日：2020-05-29

公开（公告）日：2024-04-02

公开（公告）号：CN111737453B

主分类号：G06F16/34

分类号：G06F16/34;G06F40/30;G06F18/22;G06F18/25

优先权：

专利状态码：有效-授权

法律状态：2024.04.02#授权;2020.10.30#实质审查的生效;2020.10.02#公开

摘要：本发明涉及信息抽取领域，公开了一种基于无监督的多模型融合抽取式文本摘要方法，解决了现有的抽取式文本摘要技术，无法考虑到句子的语义信息，抽取的结果无法准确全面地描述文章内容的问题，其技术方案要点是预先对中心度文本摘要模型进行训练优化，优化后对预处理后的待处理文档进行计算得到第一批摘要summary1；用语义相似度捕捉模型对预处理后的待处理文档计算得到第二批摘要summary2；融合第一批摘要summary1和第二批摘要summary2得到候选摘要middle_summary；使用MMR算法对候选摘要middle_summary计算得到最终摘要final_summary，利用多模型融合的方式，对文本内容进行语义理解和分析，充分考虑句子的位置信息，能够准确的计算每个句子的重要程度，提高了摘要结果的准确性、灵活性和多样性。

主权项：1.一种基于无监督的多模型融合抽取式文本摘要方法，其特征是：包括以下步骤：预先对中心度文本摘要模型进行训练优化，优化后对预处理后的待处理文档进行计算得到第一批摘要summary1；用语义相似度捕捉模型对预处理后的待处理文档计算得到第二批摘要summary2；所述中心度文本摘要模型采取的是PacSum模型，在训练优化的过程中得出最优超参数βbest,ηbest,θbest；所述语义相似度捕捉模型采取的是改进的TextRank模型，改进的内容包括使用分布式表示词向量和余弦相似度；融合第一批摘要summary1和第二批摘要summary2得到候选摘要middle_summary；使用MMR算法对候选摘要middle_summary计算得到最终摘要final_summary；对PacSum模型进行训练优化包括以下步骤：输入用作训练语料的文档集T；对文档集T进行文本预处理；对超参数β,η,θ构造超参数列表，用枚举的方式对超参数的取值进行组合：β从[0.1,0.2,0.3,0.4]取值，η从[-1.0,...,-0.1,0.0,0.1,0.2,...,1.0]取值，θ从[0.0,0.1,0.2,...,1.0]取值，得到超参数列表：P＝{βi,ηi,θi|i＝1...924}，初始时令i＝1，令rouge_list为空列表；对文档集T中的每篇文档使用超参数βi,ηi,θi计算摘要，所有摘要构成摘要列表；对摘要列表计算ROUGE评分，摘要列表中每个摘要C的ROUGE评分计算公式，公式如下：其中，R代表召回率，P代表准确率，F代表F1分值；ri为参考摘要的第i个句子；C为待处理摘要；LCSlcs表示最长公共子序列，LCS∪表示对C中所有句子和ri求最长公共子序列，结果再合并去重；Nref为参考摘要中所有句子的总词数；Nc为C中所有句子的总词数；γ为常数，取值为1.0；对摘要列表计算平均ROUGE评分得到rouge_i；把rouge_i加入到列表rouge_list；再令i＝i+1，若i＝924，重复执行得到ROUGE评分；若i924，进行下一步；从rouge_list中选择最高ROUGE分值，把对应的超参数βbest,ηbest,θbest作为最优超参数；对待处理文档计算摘要包括以下步骤：输入：当前待处理文档，超参数β,η,θ；在训练PacSum模型时，待处理文档代表训练语料中的每一篇文档；超参数β,η,θ代表循环中这3个变量的当前取值βi,ηi,θi；作为计算结果的摘要代表循环中的一次迭代中的临时结果；在使用训练好的PacSum模型计算摘要时，待处理文档代表最终要为之计算第一批摘要summary1的文档；超参数β,η,θ代表训练好的这3个变量的最优取值βbest,ηbest,θbest；作为计算结果的摘要代表需要计算的第一批摘要summary1；使用超参数β由待处理文档构造图G；使用超参数η,θ由图G计算得到摘要；使用超参数β由待处理文档构造图G包括以下步骤：输入：当前待处理文档，超参数β；设待处理文档中句子总数为n；创建有向图G＝V，F，顶点集V是待处理文档中的所有句子构成的集合，即V＝{Vi|i＝1...n}，边集F表示句子之间的关系；对V中的每个句子Vi计算对应的句向量vi，Vi中的每个词w对应的句向量vi中的维度viw为该词w的TF-IDF分值，计算公式如下：其中tfiw为词w在句子Vi中出现的次数，dfw为待处理文档中包含w的句子总数，n为待处理文档的句子总数；创建相似度矩阵中i行j列元素，为句子Vi和Vj的相似度，通过两个句向量vi、vj的内积计算得到，公式如下：对相似度矩阵进行规范化，得到图G的邻接矩阵E，计算公式如下：其中β为超参数；Eij为邻接矩阵E的第i行j列元素，代表顶点i与顶点j之间的边上的权值；和分别为最小相似度和最大相似度；至此图G＝V，F构造完成；使用超参数η,θ由图G计算得到摘要包括以下步骤：输入图G、超参数η以及超参数θ；对图G每个顶点上的句子Vi计算中心度得分centralityVi，公式如下：其中Eij为顶点i和顶点j之间的边上的权值；按照中心度得分centralityVi从大到小排序，取前L个句子作为摘要，其中L为预先设定的摘要句子数；用改进的TextRank模型计算得到第二批摘要summary2包括如下子步骤：输入待处理文档；创建无向图H＝U,J，顶点集U是待处理文档中所有句子的构成的集合，边集J中的边表示句子之间的关系，图H的邻接矩阵记为M；加载预训练的word2vec词向量模型，对待处理文档中的每个句子Ui中所有词的词向量求平均得到句向量，所有句向量构成矩阵X，维度为n*m,n为句子总数，m为每个句向量的维度，m＝100...1000；邻接矩阵M中第i行j列的元素表示顶点Ui到Uj的边上的权值，即为句向量Xi和Xj的余弦相似度，计算公式为：其中，Xi、Xj分别是第i，j个句子的句向量，i,j＝1...n；利用TextRank分值计算公式迭代计算每个句子Ui的得分WSUi，公式如下：其中i＝1...n；d为阻尼系数，取值为d＝0.85；InUi为指向顶点Ui的顶点集，OutUj为顶点Uj指向的顶点集；Mji，Mjk分别为入度与出度边的权值；按照最终得分WSUi从大到小顺序输出前L个句子作为文档的第二批摘要summary2。

全文数据：

权利要求：

百度查询：南京硅基智能科技有限公司一种基于无监督的多模型融合抽取式文本摘要方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种防卡管测斜仪探头_中国建筑西南勘察设计研究院有限公司_202420526288.5

下一篇：再生废液处理系统_山东荣信集团有限公司_202322260404.1

相关技术

一种防卡管测斜仪探头_中国建筑西南勘察设计研究院有限公司_202420526288.5

再生废液处理系统_山东荣信集团有限公司_202322260404.1

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

一种便携式放线架_高炜精密电子(东莞)有限公司_202322772571.4

一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

一种无人机使用高清摄像模组_陕西泰沃云科技有限公司_202322392870.5

4G/5G+北斗+Lora机车远程控制装置_宁夏宁东铁路有限公司_202322827126.3

电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

一种带防撞装置的压力机工作台_扬州蔚来机械装备制造有限责任公司_202322611255.9

一种无缝钢管送料设备_宁波东进钢管有限公司_202322167126.5

抽取相关技术

基于ES的医疗主索引抽取合并方法及系统_成都医星科技有限公司_202311044701.0

一种从油脂水解输液管道上抽取液体的取样装置_青岛金牛油脂科技有限公司_202321481728.1

一种金属带卷芯轴抽取装置_涿州北方重工设备设计有限公司_202322404436.4

一种水质量管理抽取设备_凯乐检测认证集团(甘肃)有限公司_202322299998.7

一种知识联合抽取模型训练方法_广东工业大学_202110466416.2

基于远程监督关系抽取的肝癌信息标注系统_杭州电子科技大学_202311787038.3

一种实体关系的抽取方法和装置_北京捷通华声科技股份有限公司_202010519899.3

一种细粒度情感元素抽取方法及系统_广东工业大学_202410062045.5

基于人工智能的文本课件的内容抽取方法及相关设备_平安国际智慧城市科技股份有限公司_202110839260.8

多任务序列标注的药物实体和相互作用联合抽取方法_电子科技大学_202210628078.2

式相关技术

连续式烧成炉_NGK(苏州)热工技术有限公司_202322466942.6

浸入式探头_北京鉴知技术有限公司_202211297383.4

电动式作业机械_洋马控股株式会社_202311356465.6

头戴式耳机_惠州市欧凡实业有限公司_202311129557.0

折叠式婴儿摇床_湖南自由熊巴鲁母婴用品有限公司_202322518269.6

背负式割草机_武义豪远五金制品有限公司_202311161366.2

折叠式画框幕_深圳市幕工坊科技有限公司_202111603921.3

便携式动力工具_喜利得股份公司_201980079537.2

直接式制冷空调系统_肖志东_201910108451.X

膜式氧合器_江苏赛腾医疗科技有限公司_202410017351.7

融合相关技术

一种塑料件高温融合设备_河源艺昇精密科技有限公司_202322688573.5

抗体融合蛋白及其制备和应用_北京诺诚健华医药科技有限公司_202211293426.1

一种含雾图像融合模型和方法_佛山科学技术学院_202410076413.1

一种多特征融合的行人跟踪方法_杭州锐颖科技有限公司_202311346658.3

一种基于多路口多传感器的航迹融合方法及系统_超级视线科技有限公司_202111569137.5

一种致癌性融合激酶抑制剂的晶型及其应用_南京再明医药有限公司_202080058668.5

轨道几何参数与车辆动力学融合影响分析方法及系统_南京地铁运营咨询科技发展有限公司_202410172454.0

一种全领域产品节点体系动态融合与生长方法_杭州量知数据科技有限公司_202111166990.2

一种岩溶古河道多信息融合体的识别方法及装置_中国石油化工股份有限公司_202211295813.9

一种多特征优化融合的高压断路器故障诊断方法_国网青海省电力公司海西供电公司_202011096134.X

龙图腾网&IPTOP

【发明授权】一种基于无监督的多模型融合抽取式文本摘要方法_南京硅基智能科技有限公司_202010476581.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务