买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于大规模文献数据的作者姓名同一性判断方法_安徽工大信息技术有限公司_202110954858.1 

申请/专利权人:安徽工大信息技术有限公司

申请日:2021-08-19

公开(公告)日:2024-04-12

公开(公告)号:CN113688257B

主分类号:G06F16/38

分类号:G06F16/38;G06F16/35;G06F16/26

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2021.12.10#实质审查的生效;2021.11.23#公开

摘要:本发明公开了一种基于大规模文献数据的作者姓名同一性判断方法,属于同名消歧技术领域。包括以下步骤:读取文献数据信息;分组排序,得到含有相同作者名的多个数据块;数据处理为结构化的数据;再分组,每一数据块按照文献id分组得到多个数据小块;数据小块间作者名进行同一性判断,依据作者所属的机构名,循环的在数据小块之间,两两不断取交集,若交集不为空则取并集,使交集不为空的数据小块中包含的记录数不断扩大,直到不再变化为止;最终以相同id标识的为同一作者。本发明克服了现有技术中,由于忽略了文献间内在的关联关系和大量数据造成的混杂度,无需人工标注信息,将数据经过一层层分组排序后化繁为简,提高了同名区分的效率与准确率。

主权项:1.一种基于大规模文献数据的作者姓名同一性判断方法,其特征在于:所述方法为:读取文献数据信息:其中包含4列信息:作者姓名,作者所属机构名,文献id,作者id;分组排序:按照作者名分组同时按照文献id降序排序,得到含有相同作者名的多个数据块;数据处理为结构化的数据:对于一个作者对应多个机构的记录要将原有的对应关系映射为多条逻辑关系不变的记录;再分组:针对结构化的数据,每一数据块按照文献id分组再得到多个数据小块;数据小块间作者名进行同一性判断:依据作者所属的机构名,循环的在数据小块之间,两两不断取交集,若交集不为空则取并集,使交集不为空的数据小块中包含的记录数不断扩大,直到不再变化为止;最终将数据集中被辨别为同一位作者的作者id置为相同以此来标识为同一个实体。

全文数据:

权利要求:

百度查询: 安徽工大信息技术有限公司 一种基于大规模文献数据的作者姓名同一性判断方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。