买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种用于专利的生成式检索方法及系统_知呱呱(天津)大数据技术有限公司_202311732921.2 

申请/专利权人:知呱呱(天津)大数据技术有限公司

申请日:2023-12-18

公开(公告)日:2024-04-09

公开(公告)号:CN117421393B

主分类号:G06F16/33

分类号:G06F16/33;G06N3/0455;G06N3/0895

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2024.02.06#实质审查的生效;2024.01.19#公开

摘要:本申请公开了一种用于专利的生成式检索方法及系统,方法结合专利文本特点以及专利的IPC多级分类体系进行统一融合编码,并设计综合损失函数优化训练模型至收敛,通过训练好的生成式专利编码模型对专利库中的所有文档进行专利编码,在专利检索阶段利用训练好的生成式专利编码模型对待查询文本进行查询编码,基于查询编码和专利编码在专利编码库中执行检索匹配,排序后返回结果。本发明通过预编码机制,结合大规模索引数据库,能够有效减少检索服务计算、降低服务延时,有效结合了传统检索方法的效率和深度模型语义理解的优点,提升了大规模专利检索的查全率和查准率。

主权项:1.一种用于专利的生成式检索方法,其特征在于,所述方法包括S1模型训练、S2专利编码、S3查询编码、S4检索匹配;S1模型训练,以专利库中的专利文本和IPC多级分类数据为基础构建训练数据集,以预训练语言模型为基础并结合码本数据结构,以重构损失、IPC损失和承诺损失结合的综合损失函数进行训练模型,执行训练直至收敛得到专利文本语义标识编码模型;S2专利编码,利用训练至收敛的专利文本语义标识编码模型,对专利库中的所有专利进行语义标识编码,将生成的标识序列编码数据存储到索引数据库;S3查询编码,利用训练至收敛的专利文本语义标识编码模型,对用户输入的查询文本进行编码,生成语义标识序列;S4检索匹配,应用基于树的最长匹配算法,在专利编码索引库中检索与查询匹配的专利,按照相似度排序后返回相似度最高的Top-K结果;所述S1模型训练具体包括:S11训练数据集构建,从专利库中抽取专利文档文本和IPC分类数据,首先进行数据清洗,将专利的标题、摘要、权利要求、说明书部分以及附图进行分割,并且过滤段落标号、附图说明数据后,将其余文本字段进行顺序组合,将组合后的文本关联其专利文本本身对应的IPC分类,组成训练数据;S12模型设计,模型具体包括专利文本语义标识编码模型和文本重构模型;文本重构模型用于辅助训练专利文本语义标识编码模型,通过辅助使得专利文本语义标识编码模型对专利文本生成的语义标识序列更能表征专利文本的语义信息;其中专利文本语义标识编码模型是包括编码层、解码层以及码本三部分;其中编码层和解码层是基于Transformer的预训练语言模型作为基础模型的模型架构中的编码层和解码层,码本是针对专利文本特点设计的码本数据结构;其中的编码层选用的基于Transformer的预训练语言模型T5的编码层,解码层选用的基于Transformer的预训练语言模型T5的解码层,其中的码本是利用专利数据初始化后的一个码本;文本重构模型是基于Transformer的预训练语言模型T5作为基础模型的,其模型架构中包含编码层和解码层;具体用G表示专利文本语义标识编码模型,用E1表示专利文本语义标识编码模型中的编码层,用D1表示专利文本语义标识编码模型中的解码层,用Et表示码本,用R表示文本重构模型;S13执行训练,是指针对训练数据集构建准备的数据集对模型架构进行训练包括初始化码本,语义标识序列设计,模型训练,综合损失函数优化;最终训练直至模型收敛,将训练完成后的模型参数进行保存输出。

全文数据:

权利要求:

百度查询: 知呱呱(天津)大数据技术有限公司 一种用于专利的生成式检索方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。