买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于图文多模态双曲嵌入的专利IPC分类方法及系统_北京知呱呱科技有限公司_202410069639.9 

申请/专利权人:北京知呱呱科技有限公司

申请日:2024-01-18

公开(公告)日:2024-04-05

公开(公告)号:CN117609902B

主分类号:G06F18/2431

分类号:G06F18/2431;G06N3/0455;G06N3/0464;G06F18/243

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2024.03.29#专利申请权的转移;2024.03.15#实质审查的生效;2024.02.27#公开

摘要:本发明公开了一种基于图文多模态双曲嵌入的专利IPC分类方法及系统,该方法包括专利图文多模态双曲嵌入的处理及IPC多标签分类的处理:专利图文多模态双曲模型训练数据集构建,利图文多模态双曲模型训练,应用所述专利图文多模态双曲模型对待加工专利文献进行处理,得到待加工专利的附图双曲嵌入表示和文本双曲嵌入表示;构建IPC多标签分类模型训练数据集构建,进行IPC多标签分类模型训练;利用所述IPC多标签分类模型对待加工专利文献进行IPC多标签分类。本发明采用的专利图文多模态不仅表征了文本的语义特征,还挖掘出附图的语义特征,综合利用附图文本的整体语义特征对专利进行分类,提高了IPC分类效率和准确率。

主权项:1.一种基于图文多模态双曲嵌入的专利IPC分类方法,其特征在于,包括专利图文多模态双曲嵌入的处理阶段及IPC多标签分类的处理阶段;所述专利图文多模态双曲嵌入的处理阶段包括:专利图文多模态双曲模型训练数据集构建,预处理样本库专利文献,构建用于专利图文多模态双曲模型训练的专利附图文本对数据集;建立专利图文多模态双曲模型,该模型包括基于残差网络ResNet实现的图像编码器;基于转换器Transformer实现的文本编码器;通过前馈神经网络实现的线性映射部件;通过模型训练学习到的两个模型参数的学习缩放参数和,用于避免经指数映射后数值发生溢出;专利图文多模态双曲模型训练:基于所述专利图文多模态双曲数据集构建方法,处理样本库专利文献构建专利附图文本对数据集;附图文本对分别通过附图编码器及文本编码器生成附图向量和文本向量;所述文本向量和附图向量通过映射,得到双曲空间的文本双曲嵌入表示和附图双曲嵌入表示;将所有附图文本对的附图双曲嵌入表示和文本双曲嵌入表示,以成对的形式输入预设的神经网络模型,经过编码后的文本和图像向量直接投影到多模态嵌入空间中,对角线为真实配对文本图像向量;模型训练过程在双曲空间利用模型损失函数计算损失,反向梯度传播更新模型参数;按照预定次数进行迭代,得到训练好的专利图文多模态双曲模型并保存;应用所述专利图文多模态双曲模型对待加工专利文献进行处理,得到待加工专利的附图双曲嵌入表示和文本双曲嵌入表示;所述IPC多标签分类的处理阶段包括如下步骤:IPC多标签分类模型训练数据集构建,预处理IPC分类体系构建IPC信息字典,读取样本库专利文献中的IPC分类信息,结合IPC信息字典,获取到附图文本对的IPC分类标签;将样本库专利文献的所有附图文本对,输入到训练好的专利附图文本多模态双曲模型中,模型输出得到附图文本对双曲嵌入表示;利用所述附图文本对双曲嵌入表示和所述IPC分类标签,构建IPC多标签分类模型训练数据集;利用所述IPC多标签分类模型训练数据集进行IPC多标签分类模型训练:选取支持多分类的机器学习模型,将所构建的IPC多标签分类模型训练数据集,输入多分类机器学习模型,依据交叉熵损失函数计算损失,反向梯度传播更新模型参数;迭代执行达到迭代次数阈值止,得到训练好的IPC多标签分类模型;利用所述IPC多标签分类模型对待加工专利文献进行IPC多标签分类。

全文数据:

权利要求:

百度查询: 北京知呱呱科技有限公司 一种基于图文多模态双曲嵌入的专利IPC分类方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。