买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于文档结构提取检索多语言文档_国际商业机器公司_201880070140.2 

申请/专利权人:国际商业机器公司

申请日:2018-11-20

公开(公告)日:2024-04-12

公开(公告)号:CN111279335B

主分类号:G06F16/95

分类号:G06F16/95

优先权:["20171121 US 15/818,860"]

专利状态码:有效-授权

法律状态:2024.04.12#授权;2020.07.07#实质审查的生效;2020.06.12#公开

摘要:提供了一种用于搜索多语言文档的方法,从多语言文档中提取结构组件。基于所提取的组件,文档被分组为各类别,包括以各自不同的自然语言表达的各自的文档集合。检测查询中的自然语言。基于文档具有由查询指示的内容以及文档的自然语言与所检测的自然语言匹配选择一个文档。提取所选择的文档的结构组件。基于所选文档的提取的结构组件,识别所述类别中的,包括了所选择的文档的一个类别。识别所述类别中其他文档,以及将其呈现为具有与所选择的文档的内容相匹配的内容。所述其他文档的自然语言的每一个都与所选择的文档的自然语言不同。

主权项:1.一种用于搜索以多种自然语言表达的多个文档的计算机实现的方法,所述方法包括如下步骤:计算机提取以所述多种自然语言表达的所述多个文档的结构的多个组件,其中提取所述多个组件包括以下步骤:将包括在所述多个文档中的第一文档的结构建模为第一组件的第一流,所述第一流包括所述第一文档的第一单词和所述第一文档的结构的第一指示符,而没有所述第一文档的语义含义的指示符;由文档流编码器采用指示由第一标签替换的所述第一单词中的每一个为单词的所述第一标签替换所述第一流中的所述第一单词;以及由文档结构编码器通过利用长短期记忆LSTM网络将所述第一流编码为第一数值固定长度向量;基于所提取的所述多个文档的结构的组件,计算机将所述多个文档分类为包括以各自不同的自然语言表达的各自相互排他的文档集合的各类别,每个集合中的文档具有匹配的内容,其中将所述多个文档分类的步骤包括确定包括所述第一文档和一个或多个其他文档的第一类别,所述第一类别通过最小化在所述第一数值固定长度向量和一个或多个其他数值固定长度向量之间的第一距离确定,所述其他数值固定长度向量产生于为对所述一个或多个其他文档建模的一个或多个其他流的编码;计算机检测查询用的第一自然语言;基于所述查询和所检测的第一自然语言以及基于搜索引擎的利用,计算机选择包含在所述多个文档中的其内容由查询指示并且其自然语言与所检测的第一自然语言匹配的第二文档;计算机提取所述第二文档的结构的第二组件,其中提取所述第二文档的步骤包括以下步骤:将所述第二文档的结构建模为所述第二组件的第二流,所述第二流包括所述第二文档的第二单词和所述第二文档的结构的第二指示符,而没有所述第二文档的语义含义的指示符;由所述文档流编码器采用所述第一标签替换所述第二流中的所述第二单词;以及由文档结构编码器通过利用所述LSTM网络将所述第二流编码为第二数值固定长度向量;计算机确定在所述第二数值固定长度向量和所述第一数值固定长度向量之间的第二距离;计算机确定所述第二距离小于阈值距离;基于所提取的第二组件和小于所述阈值距离的所述第二距离,所述计算机将所述第一类别识别为包括所述第二文档并且确定在所识别的第一类别中的多个文档具有与所述第二文档的内容相匹配的内容;计算机基于i所述查询的所述第一自然语言,ii提供所述查询的用户的第二自然语言,以及iii所识别的第一类别中的所述多个文档的普及性来排列所识别的第一类别中的所述多个文档;以及计算机将所识别的第一类别中的所排列的多个文档呈现为具有与所述第二文档的内容相匹配的内容,所识别的第一类别中的所排列的多个文档中的至少一个以与所述第二文档的自然语言不同的相应的自然语言表达。

全文数据:

权利要求:

百度查询: 国际商业机器公司 基于文档结构提取检索多语言文档

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。