买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于语义的多源表格自动匹配方法、装置及存储介质_之江实验室_202311285984.8 

申请/专利权人:之江实验室

申请日:2023-10-07

公开(公告)日:2024-04-02

公开(公告)号:CN117252183B

主分类号:G06F40/194

分类号:G06F40/194;G06F18/22

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2024.01.05#实质审查的生效;2023.12.19#公开

摘要:本说明书公开了一种基于语义的多源表格自动匹配方法、装置及存储介质,首先获取两个待匹配的表格,针对每个待匹配的表格,确定该表格的结构和该表格中实体单元格的语义以及列类型。根据每个表格的列类型,进行初步匹配得到初步匹配结果,并将初步匹配结果中存在匹配关系的列作为目标列,计算目标列之间的第一相似度和第二相似度,确定两个表格中的目标列是否匹配。从上述方法中可以看出,本申请对两个表格进行相似度匹配前,先确定出了表格语义和列类型,以对全表格的语义信息进行解析,在语义信息的基础上进行相似度匹配,使得多源表格相似度匹配更加高效准确,方便后续对多源表格进行关联分析。

主权项:1.一种基于语义的多源表格自动匹配方法,其特征在于,包括:获取待匹配的两个表格,并针对每个表格,确定该表格的表格结构,所述表格结构至少表征所述表格中的实体单元格;将该表格输入训练完成的语义注释模型,确定该表格中各实体单元格的语义,以及该表格中各列的列类型;根据所述两个表格中各列的列类型以及所述各实体单元格的语义,对所述两个表格中的列进行初步匹配,确定所述两个表格中存在初步匹配关系的列,作为目标列;通过训练完成的特征提取模型分别确定所述两个表格中的目标列的列标识特征,并确定所述两个表格中的目标列的列标识特征之间的第一相似度,以及根据所述两个表格中的目标列的内容的数据类型,根据所述数据类型选择对应的相似度匹配方式,并根据所述相似度匹配方式,确定所述两个表格中的目标列的第二相似度,所述两个表格包括第一表格和第二表格,所述目标列中属于第一表格的列为第一目标列,所述目标列中属于第二表格的列为第二目标列;将所述第一相似度和所述第二相似度进行加权平均操作,确定所述第一目标列和所述第二目标列之间的相似度,作为匹配相似度;若各第一目标列中存在重复的列或各第二目标列中存在重复的列,利用二分匹配算法,求解各第一目标列和各第二目标列间的最大匹配,将所述最大匹配中存在匹配关系的第一目标列和第二目标列,作为匹配列;若各第一目标列中没有重复的列且各第二目标列中也没有重复的列,将存在匹配关系的第一目标列和第二目标列,作为匹配列;若所述匹配列的所述匹配相似度低于指定阈值,则确定所述匹配列中的所述第一目标列和所述第二目标列为互相不匹配的列;若所述匹配列的所述匹配相似度高于指定阈值,则确定所述匹配列中的所述第一目标列和所述第二目标列为互相匹配的列;其中,根据所述数据类型选择对应的相似度匹配方式,并根据所述相似度匹配方式,确定所述两个表格中的目标列的第二相似度,具体包括:若目标列内容为数值型,从所述第一目标列和所述第二目标列分别随机抽取第一指定数量单元格的数值内容,将所述第一指定数量单元格的数值内容按照特定方式转换为向量表示,得到第一数值向量和第二数值向量,并确定第一数值向量和第二数值向量之间的相似度,作为所述第一目标列和所述第二目标列之间的第二相似度;若目标列内容为字符型,从所述第一目标列随机抽取第二指定数量的单元格的字符内容作为第一段落,从所述第二目标列随机抽取第二指定数量的单元格的字符内容作为第二段落,将所述第一段落和所述第二段落输入所述特征提取模型进行特征提取,得到第一段落特征和第二段落特征,并确定所述第一段落特征和所述第二段落特征之间的相似度,作为所述第一目标列和所述第二目标列之间的第二相似度;若目标列内容为其他类型,所述其他类型至少包括日期型、布尔型、空间数据类型,将目标列内容的数据类型相同的所述第一目标列和所述第二目标列之间的第二相似度设为预设相似度。

全文数据:

权利要求:

百度查询: 之江实验室 一种基于语义的多源表格自动匹配方法、装置及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。