买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于深层次语义信息的文本话题匹配方法及系统_济南大学_202310324759.4 

申请/专利权人:济南大学

申请日:2023-03-27

公开(公告)日:2024-04-12

公开(公告)号:CN116304745B

主分类号:G06F18/22

分类号:G06F18/22;G06F40/30;G06F18/25;G06F40/258;G06F40/295;G06F16/33

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2023.07.11#实质审查的生效;2023.06.23#公开

摘要:本发明公开了基于深层次语义信息的文本话题匹配方法及系统,属于文本匹配技术领域。本发明通过命名实体识别模型对文本进行实体提取,而后通过特征工程将实体进行筛选,得到文本的关键实体;通过BART模型进行文本摘要,得到文本的主要信息;最后将文本摘要和关键实体进行特征融合,获取深层次语义信息特征向量,将深层次语义信息和目标新闻文本输入预设的文本话题匹配模型,获取文本话题匹配结果。提升了文本话题匹配准确性,解决了现有技术中存在“与文本主旨无关的外部知识极易误导对当前话题的判断,易丢失文本关键信息,导致长文本匹配效果差”的问题。

主权项:1.基于深层次语义信息的文本话题匹配方法,其特征在于,包括:获取目标新闻文本,将目标新闻文本输入预设的命名实体识别模型进行处理,获取目标新闻文本的实体;通过特征工程对实体进行筛选,获取关键实体;具体包括:根据实体,获取每个实体的第一权重;计算每个实体的词频,根据词频,获取每个实体的第二权重;筛选实体中的不合群词,获取每个实体的第三权重;计算目标新闻文本中句子和各实体的相似性,获取每个实体的第四权重;根据第一权重、第二权重、第三权重和第四权重,获取每个实体的组合特征权重,根据组合特征权重对实体进行排序,获取关键实体;所述第一权重为词频-逆文档权重;将目标新闻文本输入预设的预训练语言模型进行处理,获取文本摘要;将文本摘要和关键实体进行特征融合,获取深层次语义信息特征向量,将深层次语义信息和目标新闻文本输入预设的文本话题匹配模型,获取文本话题匹配结果;具体包括:通过LSTM网络,将文本摘要和关键实体进行特征融合,获取深层次语义信息特征向量;根据深层次语义信息特征向量,获取深层次语义信息拼接向量;根据目标新闻文本,获取文本拼接向量;将深层次语义信息拼接向量和文本拼接向量拼接,获取拼接向量;将拼接向量输入softmax层进行处理,获取文本话题匹配结果;所述将目标新闻文本输入预设的命名实体识别模型进行处理,获取目标新闻文本的实体包括:对目标新闻文本进行向量化处理,获取目标新闻文本中每个字的初始表示向量;对初始表示向量进行特征提取,获取目标新闻文本中每个句子的特征向量;构造信息矩阵,基于信息矩阵对特征向量进行卷积编码,获取不同的网格表征;通过预测器对网格表征预测词对关系,获取目标新闻文本的实体;所述信息矩阵包括距离信息矩阵、词对信息矩阵和区域信息矩阵,所述距离信息矩阵用于表示词对中每个字之间的距离,所述词对信息矩阵用于表示经范数层输出的词对,所述区域信息矩阵用于表示词对的所在区域。

全文数据:

权利要求:

百度查询: 济南大学 基于深层次语义信息的文本话题匹配方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。