买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于信息瓶颈的信息检索鲁棒性方法和系统_武汉纺织大学_202410281257.2 

申请/专利权人:武汉纺织大学

申请日:2024-03-12

公开(公告)日:2024-04-12

公开(公告)号:CN117874175A

主分类号:G06F16/33

分类号:G06F16/33;G06F16/335;G06F16/338;G06F40/232;G06F40/289;G06F40/30;G06N3/0455;G06N3/084

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明涉及一种基于信息瓶颈的信息检索鲁棒性方法和系统。本方法具体包括S1:使用原始查询生成带有错别字的查询;S2:将查询和段落分词为词汇单元,然后每个词汇单元被转换为预训练好的词嵌入向量;S3:使用CharacterBERT对嵌入进行编码,获得对应的特征向量;S4:将编码后的特征向量输入到IB层中,压缩特征维度和词汇数量,得到IB后的隐藏特征;S5:求出原始查询与段落的余弦相似度以及噪声查询与段落的余弦相似度;S6:利用损失函数对整体模型进行训练,获得模型的最佳参数;S7:将测试查询和段落输入到模型得到相似度分数,得到最终的排名结果。经过实验证明,本方法在面对查询中存在噪声时具有更高的鲁棒性。

主权项:1.一种基于信息瓶颈的信息检索鲁棒性方法,其特征在于,包括以下步骤:步骤S1,使用原始查询生成带有错别字的查询,即噪声查询;步骤S2,使用字符级卷积神经网络Character-CNN对原始查询、噪声查询以及查询所对应的相关段落进行分词,得到对应的词汇单元,并将每个词汇单元转换为预训练好的词嵌入向量;步骤S3,将得到的原始查询嵌入、噪声查询嵌入和段落嵌入分别送入密集检索模型模型,即DR模型,三个嵌入都使用CharacterBERT进行编码,同时,编码器在训练阶段共享参数,编码器为原始查询、噪声查询和段落分别生成密集的特征向量;步骤S4,在CharacterBERT输出层之后插入一个信息瓶颈层,压缩CharacterBERT输出的特征向量和词汇数量,目的是仅保留与任务特定的特征与词汇,得到压缩后的隐藏特征;步骤S5,然后求出隐藏特征之间的余弦相似度分数,包括原始查询隐藏特征与段落隐藏特征之间的余弦相似度分数,以及噪声查询隐藏特征与段落隐藏特征之间的余弦相似度分数;步骤S6,在模型训练阶段,运用二元交叉熵损失函数、KL损失函数,并将损失函数按照一定的规则进行加权求和,再利用加权后总的损失函数进行训练,通过反向传播算法更新模型参数,以最小化损失函数;步骤S7,将测试查询和段落集分别输入步骤S3中进行特征提取获取查询及段落的特征向量,再将S3所获得的查询特征与段落特征送入训练好的DR模型进行编码并压缩编码后的特征向量得到隐藏特征,使用隐藏特征求出查询与段落的余弦相似度,每个查询会保留相似度分数最高的若干个段落,将这些段落进行排序获得最终的检索结果。

全文数据:

权利要求:

百度查询: 武汉纺织大学 一种基于信息瓶颈的信息检索鲁棒性方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。