买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】表格提取方法、装置、终端及计算机可读存储介质_平安科技(深圳)有限公司_201910783743.3 

申请/专利权人:平安科技(深圳)有限公司

申请日:2019-08-23

公开(公告)日:2024-04-12

公开(公告)号:CN110659346B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/383

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2021.08.03#实质审查的生效;2020.01.07#公开

摘要:本发明公开了一种表格提取方法,包括获取查询请求以及待提取的word文档;根据所述查询请求获得对应的查询关键词;识别所述word文档,获得word文档中各表格对应的表格关键词;将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度;提取所述相似度最高的预设个数的表格关键词对应的表格。本发明还提供一种表格提取装置、终端及计算机可读存储介质。本发明提出的技术方案基于数据查询对word中的表格进行提取,能够直接在word文档中提取到需要的目标表格。

主权项:1.一种表格提取方法,其特征在于,所述表格提取方法包括:获取查询请求以及待提取的word文档;根据所述查询请求获得对应的查询关键词;识别所述word文档,获得word文档中各表格对应的表格关键词;将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度;提取所述相似度最高的预设个数的表格关键词对应的表格;所述识别所述word文档,获得word文档中各表格对应的表格关键词的步骤包括:识别word文档中的表格,获得各表格的内部关键词;解析word文档的文档类型;若所述文档类型是排版格式类型,则根据所述文档类型获取与各表格对应的段落文本,并对所述段落文本进行关键词提取获得各表格的外部关键词;若所述文档类型不是排版格式类型,则获取各表格之前和之后的预设段落的段落文本,并对所述段落文本进行关键词提取获得各表格的外部关键词;将各表格的内部关键词和外部关键词一起组成各表格对应的表格关键词;所述将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度的步骤,包括:判断各表格对应的外部关键词中是否存在表格的标题;若存在表格的标题,则将表格的标题与查询关键词进行对比,判断表格的标题与查询关键词是否一致;若表格的标题与查询关键词一致,则获取第一预设相似度作为查询关键词与表格对应的表格关键词的相似度;所述将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度的步骤,还包括:若不存在表格的标题或表格的标题与查询关键词不一致,则获得表格对应的表格关键词中的内部关键词,并将内部关键词与查询关键词进行对比,获得内部关键词与查询关键词的第一匹配度;获取第一匹配度大于预设匹配度的表格的数量,并判断所述数量是否大于或等于所述预设个数;若所述数量小于所述预设个数,则将所述第一匹配度作为查询关键词与表格对应的表格关键词的相似度;若所述数量大于或等于所述预设个数,则获得第一匹配度大于预设匹配度的表格对应的表格关键词中的外部关键词,并获取第二预设相似度作为查询关键词与第一匹配度小于预设匹配度的表格对应的表格关键词的相似度;将第一匹配度大于预设匹配度的表格对应的外部关键词与查询关键词进行对比,获得外部关键词与查询关键词的第二匹配度,且将所述第二匹配度作为查询关键词与表格对应的表格关键词的相似度。

全文数据:

权利要求:

百度查询: 平安科技(深圳)有限公司 表格提取方法、装置、终端及计算机可读存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。