买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于BERT上下文感知的多层级语义信息检索方法_汕头市同行网络科技有限公司;汕头大学_202110941330.0 

申请/专利权人:汕头市同行网络科技有限公司;汕头大学

申请日:2021-08-17

公开(公告)日:2024-04-16

公开(公告)号:CN113761890B

主分类号:G06F40/279

分类号:G06F40/279;G06F40/216;G06F40/30;G06N3/0464;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2021.12.24#实质审查的生效;2021.12.07#公开

摘要:本发明实施例公开了一种基于BERT上下文感知的多层级语义信息检索方法,主要利用文本摘要提取技术获取文档段落级别信息,作为局部上下文信息拼接至文本段落,辅以全文主题提炼作为全局信息,从而构成了上下文感知的段落级别嵌入表示,并将其作为ad‑hoc检索任务的模型输入。采用本发明,与现有的语义信息检索方法相比,本方法更注重段落的上下文信息,本文通过MMR算法实现段落级别文本摘要提取作为局部上下文信息,相比于直接使用原文做上下文线索模型训练和预测效果显著提升,解决了处理长文档时间过长的问题,节省了计算时间,与现有的语义信息检索方法相比,解决了长文档在进行嵌入表示的局限性和处理长文档内存不足的问题,节省了计算资源。

主权项:1.一种基于BERT上下文感知的多层级语义信息检索方法,其特征在于,包括以下步骤:S1:将训练模型使用的文档分割成若干个独立段落、去除停用词、进行词干提取;S2:通过TF-IDF权重机制来完成段落中词项的重要性评估、句子打分和句向量之间相似度计算;S3:使用MMR算法提取摘要;S4:将所述摘要和所述S1中划分的独立段落原文以多层级上下文段落结构的方式进行整合,第i个所述独立段落结构组成包括:标题、上文段落摘要、段落i的原始文本、下文段摘要;S5:按照BERT标准格式构建查询和所述S4中整合得到段落的输入嵌入表示;S6:使用BERT在大规模语料库中预训练好的通用词向量作为词的嵌入表示,将查询和新构建的段落作为BERT的输入序列,辅以分类符号和分隔符号进行拼接,作为BERT模型的输入;S7:将查询和处理后的段落按照步骤S1-S6进行处理,并在句子对分类任务进行微调,将所述分类符号对应的输出向量用作是整个查询-段落对的表示,将其作为多层感知机的输入,从而预测查询和段落之间的相关性概率。

全文数据:

权利要求:

百度查询: 汕头市同行网络科技有限公司;汕头大学 一种基于BERT上下文感知的多层级语义信息检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。