北京智谱华章科技股份有限公司房小涵获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京智谱华章科技股份有限公司申请的专利防止学者论文库过拆分的历史错误纠正方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114707574B 。
龙图腾网通过国家知识产权局官网在2025-06-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210199458.9,技术领域涉及:G06F18/22;该发明授权防止学者论文库过拆分的历史错误纠正方法和系统是由房小涵;李晓彦;宋健;赵祎;仇瑜;刘德兵;褚晓泉;李青设计研发完成,并于2022-03-02向国家知识产权局提交的专利申请。
本防止学者论文库过拆分的历史错误纠正方法和系统在说明书摘要公布了:本申请提出一种防止学者论文库过拆分的历史错误纠正方法与系统,该方法包括:对学者名称进行重新构建;根据能够唯一确定作者的信息对目标学者论文库和待分配的论文簇进行直接匹配;对于匹配未成功的论文簇,通过BERT‑Bi‑LSTM‑CRF模型识别论文的作者相关信息和摘要中的实体信息;分别计算待匹配的论文包括的作者所属机构信息和期刊信息的匹配度;分别计算每个候选对齐论文簇与目标学者论文库的相似性特征,判断每个候选对齐论文簇与目标学者论文库是否对齐;将集成学习模型判定为对齐的候选对齐论文簇进行合并,并对未对齐的论文簇进行人工标注。该方法可解决消歧过程产生的过拆分错误,提高了过拆分错误纠正的速度、精确度和召回率。
本发明授权防止学者论文库过拆分的历史错误纠正方法和系统在权利要求书中公布了:1.一种防止学者论文库过拆分的历史错误纠正方法,其特征在于,包括以下步骤:通过对学者名称进行重新构建,快速获取目标学者论文库和对应的多个待分配的论文簇;根据能够唯一确定作者的信息对所述目标学者论文库和所述待分配的论文簇进行直接匹配,对于直接匹配成功的论文簇进行直接对齐;对于直接匹配未成功的论文簇,通过基于转换器的双向编码表征-双向长短记忆网络-条件随机场BERT-Bi-LSTM-CRF模型,识别所述论文簇和所述目标学者论文库中的论文的作者相关信息和摘要中的实体信息;分别计算所述目标学者论文库和候选对齐论文簇中待匹配的论文包括的作者所属机构信息的匹配度和期刊信息的匹配度;结合所述实体信息和所述匹配度分别计算每个所述候选对齐论文簇与所述目标学者论文库的相似性特征,基于每个所述候选对齐论文簇对应的全部相似性特征构建对应的相似度向量,并根据所述相似度向量训练对应的集成学习模型,通过训练完成的集成学习模型判断每个所述候选对齐论文簇与所述目标学者论文库是否对齐;其中,所述结合所述实体信息和所述匹配度分别计算每个所述候选对齐论文簇与所述目标学者论文库的相似性特征,包括:根据每个所述候选对齐论文簇包含论文数量是否超过预设的数量阈值,将全部的候选对齐论文簇划分为第一部分和第二部分,其中,所述第一部分的候选对齐论文簇包含的论文数量大于等于所述数量阈值,所述第二部分的候选对齐论文簇包含的论文数量小于所述数量阈值;对于属于所述第一部分的每个候选对齐论文簇,计算与所述目标学者论文库之间的共同作者相似度、共同机构相似度、共同期刊相似度、摘要和标题的词频相似度、杰卡德Jaccard相似度、作者的稀缺度、论文发表时间重合度和论文专有名词相似度;对于属于所述第二部分的每个候选对齐论文簇,计算与所述目标学者论文库之间的论文的作者所属机构的相似度、论文中的期刊信息的相似度、作者的稀缺度、论文专有名词相似度和论文嵌入之间的相似度;将所述训练完成的集成学习模型判定为对齐的候选对齐论文簇与所述目标学者论文库进行合并,并对判定为未对齐的论文簇进行人工标注,根据标注结果将误判的论文簇重新放入训练集中,以更新模型精度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京智谱华章科技股份有限公司,其通讯地址为:100084 北京市海淀区中关村东路1号院9号楼10层整层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。