【发明授权】一种基于语义的多源表格自动匹配方法、装置及存储介质_之江实验室_202311285984.8

导航：龙图腾网> 最新专利技术> 一种基于语义的多源表格自动匹配方法、装置及存储介质_之江实验室_202311285984.8

申请/专利权人：之江实验室

申请日：2023-10-07

公开（公告）日：2024-04-02

公开（公告）号：CN117252183B

主分类号：G06F40/194

分类号：G06F40/194;G06F18/22

优先权：

专利状态码：有效-授权

法律状态：2024.04.02#授权;2024.01.05#实质审查的生效;2023.12.19#公开

摘要：本说明书公开了一种基于语义的多源表格自动匹配方法、装置及存储介质，首先获取两个待匹配的表格，针对每个待匹配的表格，确定该表格的结构和该表格中实体单元格的语义以及列类型。根据每个表格的列类型，进行初步匹配得到初步匹配结果，并将初步匹配结果中存在匹配关系的列作为目标列，计算目标列之间的第一相似度和第二相似度，确定两个表格中的目标列是否匹配。从上述方法中可以看出，本申请对两个表格进行相似度匹配前，先确定出了表格语义和列类型，以对全表格的语义信息进行解析，在语义信息的基础上进行相似度匹配，使得多源表格相似度匹配更加高效准确，方便后续对多源表格进行关联分析。

主权项：1.一种基于语义的多源表格自动匹配方法，其特征在于，包括：获取待匹配的两个表格，并针对每个表格，确定该表格的表格结构，所述表格结构至少表征所述表格中的实体单元格；将该表格输入训练完成的语义注释模型，确定该表格中各实体单元格的语义，以及该表格中各列的列类型；根据所述两个表格中各列的列类型以及所述各实体单元格的语义，对所述两个表格中的列进行初步匹配，确定所述两个表格中存在初步匹配关系的列，作为目标列；通过训练完成的特征提取模型分别确定所述两个表格中的目标列的列标识特征，并确定所述两个表格中的目标列的列标识特征之间的第一相似度，以及根据所述两个表格中的目标列的内容的数据类型，根据所述数据类型选择对应的相似度匹配方式，并根据所述相似度匹配方式，确定所述两个表格中的目标列的第二相似度，所述两个表格包括第一表格和第二表格，所述目标列中属于第一表格的列为第一目标列，所述目标列中属于第二表格的列为第二目标列；将所述第一相似度和所述第二相似度进行加权平均操作，确定所述第一目标列和所述第二目标列之间的相似度，作为匹配相似度；若各第一目标列中存在重复的列或各第二目标列中存在重复的列，利用二分匹配算法，求解各第一目标列和各第二目标列间的最大匹配，将所述最大匹配中存在匹配关系的第一目标列和第二目标列，作为匹配列；若各第一目标列中没有重复的列且各第二目标列中也没有重复的列，将存在匹配关系的第一目标列和第二目标列，作为匹配列；若所述匹配列的所述匹配相似度低于指定阈值，则确定所述匹配列中的所述第一目标列和所述第二目标列为互相不匹配的列；若所述匹配列的所述匹配相似度高于指定阈值，则确定所述匹配列中的所述第一目标列和所述第二目标列为互相匹配的列；其中，根据所述数据类型选择对应的相似度匹配方式，并根据所述相似度匹配方式，确定所述两个表格中的目标列的第二相似度，具体包括：若目标列内容为数值型，从所述第一目标列和所述第二目标列分别随机抽取第一指定数量单元格的数值内容，将所述第一指定数量单元格的数值内容按照特定方式转换为向量表示，得到第一数值向量和第二数值向量，并确定第一数值向量和第二数值向量之间的相似度，作为所述第一目标列和所述第二目标列之间的第二相似度；若目标列内容为字符型，从所述第一目标列随机抽取第二指定数量的单元格的字符内容作为第一段落，从所述第二目标列随机抽取第二指定数量的单元格的字符内容作为第二段落，将所述第一段落和所述第二段落输入所述特征提取模型进行特征提取，得到第一段落特征和第二段落特征，并确定所述第一段落特征和所述第二段落特征之间的相似度，作为所述第一目标列和所述第二目标列之间的第二相似度；若目标列内容为其他类型，所述其他类型至少包括日期型、布尔型、空间数据类型，将目标列内容的数据类型相同的所述第一目标列和所述第二目标列之间的第二相似度设为预设相似度。

全文数据：

权利要求：

百度查询：之江实验室一种基于语义的多源表格自动匹配方法、装置及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：整形压块及焊接装置_宁德时代新能源科技股份有限公司_202321970130.9

下一篇：双组份胶水即停防干装置_重庆金芯麦斯传感器技术有限公司_202322250925.9

相关技术

整形压块及焊接装置_宁德时代新能源科技股份有限公司_202321970130.9

双组份胶水即停防干装置_重庆金芯麦斯传感器技术有限公司_202322250925.9

房屋建设用墙面喷漆装置_台州龙翔建设有限公司_202322374884.4

一种打印机线路板加工用吸附输送轨道_威海光大光电有限公司_202322481598.8

一种旋转式防撞护栏和混凝土护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419697.3

一种旋转式防撞护栏和波形梁护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419695.4

一种超低能耗制备电解液及硫酸氧钒晶体的系统_广东中科天钒储能科技有限公司_202322441183.8

一种盒式包装机输送机构_安徽从仁堂生物科技有限公司_202322459283.3

一种玉米种植用病虫害防治装置_黄金双_202322446508.1

用于高压柜体的固定防护装置_江苏贯中电气有限公司_202322341188.3

一种钢带波纹螺旋管接头防护模具_吉林建工集团有限公司_202322063597.1

一种用于负极材料粉尘除尘器_天津燃洁斯工业设备有限公司_202322051874.7

匹配相关技术

一种RF Generator阻抗匹配装置_江苏志文半导体科技有限公司_202322668416.8

专家匹配方法和装置以及存储介质_北京赛时科技有限公司_201711090934.9

一种地图匹配定位及偏离线路判定方法_北京航空航天大学_202210956358.6

一种双电压下线性LED负载匹配电路_苏州菲达旭微电子有限公司_201910053224.1

用于物理下行链路共享信道(PDSCH)的速率匹配_高通股份有限公司_202180023971.6

一种基于改进的形状特征匹配的书法书写质量评价方法_广东新裕信息科技有限公司_202311480424.8

训练样本处理方法、跨模态匹配方法、装置、设备和介质_北京百度网讯科技有限公司_202211668247.1

基于计算机输出财税推理匹配结果的电子装置及方法_陕西迅税通智能科技有限公司_202110560378.7

直播连麦匹配方法、系统、装置、电子设备及存储介质_广州方硅信息技术有限公司_202210763042.5

一种基于复数阻抗匹配的零反射网络_华中科技大学_202111005352.2

自动相关技术

自动脱模注塑装置_唐山铮诚塑业有限公司_202321922113.8

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

自动并线机_无锡星陵威科技有限公司_201810119180.3

自动清洁涂装机_佛山星铭达自动化设备有限公司_202322558790.2

自动上下料车_加西亚电子电器股份有限公司_202010419915.1

全自动多功能烫画机_缙云县盛达缝制设备有限公司_202322206454.1

鸡舍自动投喂粮仓_华南师范大学_202322702234.8

线材自动封装装置_鸿硕精密电工(湖北)有限公司_202322324101.1

料盒自动化输送装置及料盒自动化输送系统_广汽乘用车(杭州)有限公司_202322231946.6

一种自动上土设备_安徽宏敏农业科技有限公司_202322751841.3

方法相关技术

图像处理方法、图像处理模型和训练方法_北京百度网讯科技有限公司_202310251906.X

能力确定方法、上报方法、装置、设备及存储介质_北京小米移动软件有限公司_202280001087.7

曝光方法、曝光装置、以及物品的制造方法_佳能株式会社_202311346914.9

定子及其制造方法_LG麦格纳电子动力总成有限公司_202110012057.3

通信方法及装置_华为技术有限公司_202010617172.9

通信方法及装置_华为技术有限公司_202211296381.3

信息处理方法_丰田自动车株式会社_202311358127.6

蓄电设备的检查方法及制造方法_丰田自动车株式会社_202010574534.0

冰箱及其控制方法_LG电子株式会社_202080061858.2

冰箱及其控制方法_重庆海尔制冷电器有限公司_202211295888.7

龙图腾网&IPTOP

【发明授权】一种基于语义的多源表格自动匹配方法、装置及存储介质_之江实验室_202311285984.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务