【发明授权】一种基于大规模文献数据的作者姓名同一性判断方法_安徽工大信息技术有限公司_202110954858.1

申请/专利权人：安徽工大信息技术有限公司

申请日：2021-08-19

公开（公告）日：2024-04-12

公开（公告）号：CN113688257B

主分类号：G06F16/38

分类号：G06F16/38;G06F16/35;G06F16/26

优先权：

专利状态码：有效-授权

法律状态：2024.04.12#授权;2021.12.10#实质审查的生效;2021.11.23#公开

摘要：本发明公开了一种基于大规模文献数据的作者姓名同一性判断方法，属于同名消歧技术领域。包括以下步骤：读取文献数据信息；分组排序，得到含有相同作者名的多个数据块；数据处理为结构化的数据；再分组，每一数据块按照文献id分组得到多个数据小块；数据小块间作者名进行同一性判断，依据作者所属的机构名，循环的在数据小块之间，两两不断取交集，若交集不为空则取并集，使交集不为空的数据小块中包含的记录数不断扩大，直到不再变化为止；最终以相同id标识的为同一作者。本发明克服了现有技术中，由于忽略了文献间内在的关联关系和大量数据造成的混杂度，无需人工标注信息，将数据经过一层层分组排序后化繁为简，提高了同名区分的效率与准确率。

主权项：1.一种基于大规模文献数据的作者姓名同一性判断方法，其特征在于：所述方法为：读取文献数据信息：其中包含4列信息：作者姓名，作者所属机构名，文献id，作者id；分组排序：按照作者名分组同时按照文献id降序排序，得到含有相同作者名的多个数据块；数据处理为结构化的数据：对于一个作者对应多个机构的记录要将原有的对应关系映射为多条逻辑关系不变的记录；再分组：针对结构化的数据，每一数据块按照文献id分组再得到多个数据小块；数据小块间作者名进行同一性判断：依据作者所属的机构名，循环的在数据小块之间，两两不断取交集，若交集不为空则取并集，使交集不为空的数据小块中包含的记录数不断扩大，直到不再变化为止；最终将数据集中被辨别为同一位作者的作者id置为相同以此来标识为同一个实体。

全文数据：

权利要求：

百度查询：安徽工大信息技术有限公司一种基于大规模文献数据的作者姓名同一性判断方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：具有求平均值功能的装置和/或分析设备_西门子股份公司_202311415545.4

下一篇：通话数据的检测方法、装置、电子设备及存储介质_马上消费金融股份有限公司_202311151138.7

相关技术

具有求平均值功能的装置和/或分析设备_西门子股份公司_202311415545.4

通话数据的检测方法、装置、电子设备及存储介质_马上消费金融股份有限公司_202311151138.7

消防救援中多设备协同的交互控制系统_东莞理工学院_202310667377.1

隐私保护图像传感器_豪威科技股份有限公司_202310919691.4

生物样本分析设备以及生物样本分析方法_深圳迈瑞生物医疗电子股份有限公司_202311216052.8

针对SAR ADC的分裂电容模组及相应的开关方法_深圳大学_202311804036.0

一种显示设备及笔迹显示方法_京东方科技集团股份有限公司_202310637028.5

一种栓接桥梁结构安装三维姿态控制方法_重庆交通大学_202311485642.0

一种环丁砜废液的处理方法_中国石油化工股份有限公司_202211328730.5

一种用于废气净化的镍合金洗涤器_南京胜德金属装备有限公司_202311756686.2

一种气象数据对船闸影响度的预测方法及系统_长江三峡通航管理局_202311632552.X

数据储存装置与写入缓存器管理方法_慧荣科技股份有限公司_202211437472.4

龙图腾网&IPTOP

【发明授权】一种基于大规模文献数据的作者姓名同一性判断方法_安徽工大信息技术有限公司_202110954858.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务