买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】用于专利的检索方法、存储介质及装置_新长城科技有限公司_202011141538.6 

申请/专利权人:新长城科技有限公司

申请日:2020-10-22

公开(公告)日:2024-04-05

公开(公告)号:CN112836010B

主分类号:G06F16/33

分类号:G06F16/33;G06F40/289;G06F40/30;G06F18/22;G06F18/25;G06N3/045;G06N3/084;G06Q50/18

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2023.12.01#著录事项变更;2021.06.11#实质审查的生效;2021.05.25#公开

摘要:本发明公开了用于专利的检索方法、存储介质及装置,涉及计算机技术领域。该方法包括:根据预先建立的神经网络模型分别对待检索专利进行语义和表面信息的特征抽取,将得到的语义特征向量和表面信息特征向量进行拼接,得到融合特征向量;根据融合特征向量从预设的特征数据库中匹配相似度满足预设相似度条件的专利,得到检索结果。本发明适用于专利文件的相似文本的检索,能够得到准确的检索结果,能够充分挖掘不同专利之间的关联性,从而提高检索结果的可信度。

主权项:1.一种用于专利的检索方法,其特征在于,包括:根据预先建立的神经网络模型分别对待检索专利进行语义和表面信息的特征抽取,将得到的语义特征向量和表面信息特征向量进行拼接,得到融合特征向量;根据所述融合特征向量从预设的特征数据库中匹配相似度满足预设相似度条件的专利,得到检索结果;所述根据预先建立的神经网络模型分别对待检索专利进行语义和表面信息的特征抽取之前,还包括:从专利库中选择hard正样本和semi-hard负样本作为训练集,对所述神经网络模型进行训练,并通过对比损失函数计算损失值,根据所述损失值调整优化所述神经网络模型;所述从专利库中选择hard正样本和semi-hard负样本作为训练集,具体包括:根据预设选取规则从专利库中选择一篇目标专利,确定用于评价所述目标专利的新颖性和或创造性的被引证专利,分别计算每篇所述被引证专利与所述目标专利之间的相似度,将相似度距离最远的被引证专利作为hard正样本;确定所述目标专利的IPC分类号,确定目标分类层级和所述目标专利的领域,在所述目标分类层级下,与所述目标专利的领域不同的其他领域分别选择所述目标专利的非被引证专利,作为semi-hard负样本;所述在所述目标分类层级下,与所述目标专利的领域不同的其他领域分别选择所述目标专利的非被引证专利,作为semi-hard负样本,具体包括:从专利库中随机选择预设数量的所述目标专利的非被引证专利,其中,所述预设数量大于所述目标分类层级下的领域数量;通过所述神经网络模型计算每个所述非被引证专利的第一融合特征向量、所述目标专利的第二融合特征向量和所述被引证专利的第三融合特征向量;根据所述第一融合特征向量和所述第二融合特征向量计算每个所述非被引证专利与所述目标专利之间的第一距离,并根据所述第二融合特征向量和所述第三融合特征向量计算所述被引证专利与所述目标专利之间的第二距离;根据所述第一距离的升序对全部所述非被引证专利排序,并去除第一距离小于所述第二距离的非被引证专利,按照顺序从剩余的非被引证专利中挑选所属IPC分类号的领域互不相同的专利,作为semi-hard负样本。

全文数据:

权利要求:

百度查询: 新长城科技有限公司 用于专利的检索方法、存储介质及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。