【发明授权】基于关键词异构图和语义匹配的金融文本摘要方法_西南石油大学_202410180271.3

导航：龙图腾网> 最新专利技术> 基于关键词异构图和语义匹配的金融文本摘要方法_西南石油大学_202410180271.3

申请/专利权人：西南石油大学

申请日：2024-02-18

公开（公告）日：2024-04-30

公开（公告）号：CN117725928B

主分类号：G06F40/289

分类号：G06F40/289;G06F40/216;G06F40/30;G06N3/0442;G06N3/084

优先权：

专利状态码：有效-授权

法律状态：2024.04.30#授权;2024.04.05#实质审查的生效;2024.03.19#公开

摘要：本发明涉及基于关键词异构图和语义匹配的金融文本摘要方法，属于自然语言处理领域；它解决了现有抽取式单文档摘要模型忽略关键词与文档之间的依赖关系和摘要与文档原文之间的语义匹配度的问题。其技术方案是：提取文档中的多级关键词，构建包含多粒度节点和多级关键词的关键词异构图，采用图注意力机制更新节点特征向量，通过组合损失函数进行模型优化。本发明具有以下有益效果：关键词异构图学习文档的局部和全局语义信息，提高了关键词异构图捕捉重要句子的准确率；采用图注意力机制更新节点特征向量，有助于学习句子之间的语义关系；组合损失函数使得模型更加关注摘要与文档原文的语义相似度，提高生成的摘要与文档原文的语义一致性。

主权项：1.基于关键词异构图和语义匹配的金融文本摘要方法，其特征在于：所述方法包括以下步骤：S100、使用爬虫技术获取金融文本数据，对数据集进行清洗和去停用词处理，并按照8:1:1的比例随机划分为训练集、测试集和验证集，其中每个数据样本包含一篇文档、一段参考摘要；构建用于训练抽取式单文档摘要模型的数据集时，为获得全局最优的句子级标签，采用基于ROUGE评分的束搜索规则对数据进行标注；将文档中的原文拆分成句子集合，计算每个句子与参考摘要的ROUGE评分，并按照ROUGE评分进行降序排序；设置束大小n为4，定义空的候选摘要序列，设置终止条件为候选摘要序列与参考摘要的ROUGE评分不再增加或句子集合为空；从句子集合中选取ROUGE评分最高的n个句子，对于选取的每个句子，分别加入n个候选摘要序列进行扩展，计算扩展后的候选摘要序列与参考摘要的ROUGE评分；重复此过程，直到满足终止条件；对所有的候选摘要序列按照ROUGE评分进行排序，保留ROUGE评分最高的候选摘要序列；属于候选摘要序列的句子标记为1，其余句子为0从而获得句子级标签label；S200、为充分发挥关键词中语义信息和位置信息在抽取式单文档摘要模型中的作用，提取文档中的多级关键词，多级关键词包含句子级关键词和文档级关键词；为提取出拥有重要语义信息的关键词，采用TF-IDF方法提取句子级关键词；为提取出拥有重要句子位置信息的关键词，采用基于BERT的序列标注器提取文档级关键词；根据句子级标签从训练数据中抽取出重要句子，将文档级关键词限制在这些句子中；识别重要句子和参考摘要中相同的词语，删除其中重复的词语和常见的停用词，剩余的词语即为文档级关键词；在训练阶段，利用文档级关键词在原文中的位置信息和文档原文，训练基于BERT的序列标注器；在测试阶段，将测试数据集和验证数据集中的文档原文输入到训练好的序列标注器，得到原文中所有词语是否是文档级关键词的预测概率并按照预测概率进行降序排序；文档级关键词数量设置为10，从中选择预测概率值最高的词语作为文档级关键词；S300、构建关键词异构图；给定一个异构图G={V,E}，V代表节点集，E代表节点之间的边集；为实现从文档全局和局部两方面去构建单文档抽取式摘要模型，节点集包含词语节点、句子节点和文档节点三种粒度语义节点；为充分利用关键词中语义信息和位置信息，边集包含词语与句子之间的边和词语与文档之间的边；初始化关键词异构图，需要初始化节点特征向量；为充分利用关键词与文档之间的依赖关系，明确节点之间的关系重要性，在词语与句子之间的边权重注入句子级关键词的TF-IDF值，在词语与文档之间的边权重注入文档级关键词的预测概率值；S400、为实现局部信息聚合和全局信息传递，更新关键词异构图中的节点特征向量；对于一个给定的节点特征向量，图注意力机制计算与邻居节点特征向量之间的注意力权重；多头注意力机制利用和生成聚合的节点特征向量；为了让模型能够学习到更丰富的特征表示，将依次送入残差连接层和位置前馈层获得新的节点特征向量；通过上述的节点特征向量更新过程获得关键词异构图中词语、句子和文档节点的最终特征向量、和；S500、为提高生成的摘要与文档原文之间的语义一致性，对句子二分类交叉熵损失函数Loss_BCE和语义相似度损失函数Loss_CS进行求和，生成组合损失函数Loss；句子分类器将句子节点的最终特征向量送入全连接层进行归一化运算，在句子是否属于摘要的决策空间上产生概率分布P；利用真实标签和概率分布P组成句子二分类交叉熵损失函数Loss_BCE；根据概率分布选取大于概率阈值Th的句子，Th设置为0.5；将这些句子进行组合构成预测摘要，并将其送入BERT模型得到预测摘要的特征向量；将参考摘要送入BERT模型得到参考摘要的特征向量；语义匹配器计算预测摘要的特征向量和文档节点的最终特征向量之间的余弦相似度，并结合参考摘要的特征向量构造语义相似度损失函数Loss_CS；模型通过降低组合损失函数Loss来不断优化，从而生成可读性更强的摘要并具有更好的泛化性。

全文数据：

权利要求：

百度查询：西南石油大学基于关键词异构图和语义匹配的金融文本摘要方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：重组人白介素2（I）的应用_山东泉港药业有限公司_202410417266.X

下一篇：一种异性粘结磁粉制备用原料筛选设备_天长市中德电子有限公司_202410411084.1

相关技术

重组人白介素2（I）的应用_山东泉港药业有限公司_202410417266.X

一种异性粘结磁粉制备用原料筛选设备_天长市中德电子有限公司_202410411084.1

一种差分解耦双螺线气敏间隙传感元件及其制备方法_中南大学_202410106028.7

一种果树吊枝方法_上海市农业科学院_202410367417.5

一种炮孔自动填塞机_新疆天河爆破工程有限公司_202410337157.7

电池模组和电池包_浙江晶科储能有限公司_202410338036.4

一种预制叠合板浇筑模具的组合防松动装置_江西中煤建设集团有限公司_202410324859.1

一种汽车配件的外圆磨削装置_江苏坦途专用汽车制造有限公司_202410150674.3

锂电池管理单元及管理方法_深圳市车电网络有限公司_202410101072.9

一种矿井提升机防止跑车的控制方法与装置_洛阳九亿重工集团有限公司_202410421104.3

一种非均匀大气波导修正折射率的测算方法及系统_南京信息工程大学_202410123152.4

供电系统、功率变换器以及功率变换电路的控制方法_华为数字能源技术有限公司_202410139301.6

匹配相关技术

解决冲突的速率匹配资源指示_高通股份有限公司_202180017587.5

用于匹配听力设备的方法_西万拓私人有限公司_202380011566.1

一种折射率匹配显微成像系统_华中科技大学_202410275364.4

一种轮辋轮胎标识自动匹配机_锦州万得机械装备有限公司_202322049437.1

阻抗匹配电路以及射频电源设备_深圳市瀚强科技股份有限公司_202410211036.8

图像匹配方法、装置、设备及介质_深圳市星桐科技有限公司_202410167030.5

一种图像的匹配方法_北京鹰之眼智能健康科技有限公司_202311255814.5

一种岗位的匹配方法和系统_台州徙木数字服务有限公司_202410162229.9

远程联网终端生产数据匹配方法及系统_东风汽车集团股份有限公司_202110762189.8

显示系统的输入帧率与输出帧率调整匹配方法、系统、终端及介质_上海先楫半导体科技有限公司_202410059425.3

金融相关技术

金融期货交易管理系统_青岛龙韬私募基金管理有限公司_202410340889.1

具有越界保护功能的传动组件及金融设备_深圳怡化电脑股份有限公司_201910710949.3

基于大数据的数字金融风险管理系统及管理方法_山东衡昊信息技术有限公司_202410318009.0

一种基于规则引擎的金融交易授权方法_上海通联金融服务有限公司_202410258051.8

金融分析模型的训练方法、分析方法、装置、系统和介质_华南理工大学_202410134743.1

基于生物基础与行为特征及业务特征的金融风险评估方法_北京思图场景数据科技服务有限公司_202110491063.1

互联网金融产品生成方法、装置、设备及存储介质_中国农业银行股份有限公司山西省分行_202410201665.2

银行金融业务文件存取系统及存取方法_中国工商银行股份有限公司驻马店分行_202311630581.2

一种金融文本关系抽取方法、系统及存储介质_华南理工大学_202410417863.2

金融业务的数据处理方法及相关装置_中国中金财富证券有限公司_202410005468.3

语义相关技术

临时报告语义分析方法和系统_合肥工业大学_202311706316.8

基于背景先验的弱监督语义分割方法_哈尔滨工业大学(威海)_202410311121.1

结合规则和语义的自适应段落切分方法_上海澜码科技有限公司_202410196278.4

基于UEP喷泉码的语义信源编码方法_中国航空工业集团公司沈阳飞机设计研究所_202410203342.7

语义分割方法、装置及计算机程序产品_北京百度网讯科技有限公司_202210348034.4

一种基于深度学习的弱监督图像语义分割方法_江南大学_202410166434.2

一种基于语义描述的站点价值评估方法和装置_湖南华诺科技有限公司_202410076999.1

一种跨模态语义生成图像模型和方法_华中农业大学_202211007329.1

基于语义理解的视频压缩方法、装置、设备及存储介质_北京铁力山科技股份有限公司_202410194892.7

基于课程学习的无监督域自适应遥感图像语义分割方法_西北工业大学宁波研究院_202210608548.9

龙图腾网&IPTOP

【发明授权】基于关键词异构图和语义匹配的金融文本摘要方法_西南石油大学_202410180271.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务