买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】文本单位语义距离预计算方法及装置、查询方法及装置_杭州朗目达信息科技有限公司_202311569661.1 

申请/专利权人:杭州朗目达信息科技有限公司

申请日:2023-11-23

公开(公告)日:2024-03-08

公开(公告)号:CN117272073B

主分类号:G06F18/22

分类号:G06F18/22;G06F40/30;G06N3/042;G06N3/08;G06N5/04;G06F16/335;G06F16/338

优先权:

专利状态码:有效-授权

法律状态:2024.03.08#授权;2024.01.09#实质审查的生效;2023.12.22#公开

摘要:本发明公开了一种文本单位语义距离预计算方法及装置、查询方法及装置,其中预计算方法包括:获取预计算知识库中的所有文本单位,并基于关联单位获取方式获取每个文本单位的关联文本单位集合;通过预设对象知识表示获取方式,基于关联文本单位集合获取预计算知识库中所有对象属性文本单位的知识表示,通过预设范畴知识表示获取方式,获取预计算知识库中所有范畴属性文本单位的知识表示;基于文本单位的知识表示,通过文本单位关系确定方式对所有文本单位对的语义距离进行计算,将所有计算出语义距离的文本单位对以及所对应的语义距离集合为预计算知识库的语义距离库。本发明语义距离计算过程无向量embedding、chunk过程,对数据原信息无损。

主权项:1.一种文本单位语义距离预计算方法,包括:获取预计算知识库中的所有文本单位,并基于关联单位获取方式获取每个文本单位的关联文本单位集合;通过预设对象知识表示获取方式,基于所述关联文本单位集合获取所述预计算知识库中所有对象属性文本单位的知识表示,通过预设范畴知识表示获取方式获取所述预计算知识库中所有范畴属性文本单位的知识表示;获取所有所述文本单位所能构成的所有文本单位对,基于所述文本单位的知识表示,通过文本单位关系确定方式对所有所述文本单位对的语义距离进行计算,将所有计算出语义距离的文本单位对以及所对应的语义距离集合为所述预计算知识库的语义距离库;其中,所述对象属性文本单位为所述预计算知识库中的对象,所述范畴属性文本单位为所述预计算知识库中的范畴;基于关联单位获取方式获取文本单位的关联文本单位集合包括:从所述预计算知识库中获取常规文本单位的描述页;将所述描述页中的文本单位作为所述常规文本单位的内部文本单位,将所述常规文本单位的所有类型所述内部文本单位集合为所述常规文本单位的关联文本单位集合;其中,所述常规文本单位为所述预计算知识库中的任意一个文本单位;通过预设对象知识表示获取方式,基于所述关联文本单位集合获取所述预计算知识库中对象属性文本单位的知识表示包括:以对象属性文本单位为筛选单位对其所面对所述关联文本单位集合进行筛选,并将符合筛选条件的关联文本单位集合所对应的文本单位,集合为所述对象属性文本单位的知识表示;其中,对象属性文本单位为所述预计算知识库中任意一个对象;对象属性文本单位对其所面对关联文本单位集合包括所述预计算知识库中,除所述对象属性文本单位所对应关联文本单位集合外的其他所有关联文本单位集合;所述筛选条件为所述关联文本单位集合中包含所述筛选单位;通过预设范畴知识表示获取方式,获取所述预计算知识库中单个范畴属性文本单位的知识表示包括:获取属于范畴属性文本单位的对象属性文本单位作为对象文本单位,将范畴属性文本单位的所有所述对象文本单位的知识表示集合为范畴属性文本单位的知识表示;其中,范畴属性文本单位为所述预计算知识库中任意一个范畴。

全文数据:

权利要求:

百度查询: 杭州朗目达信息科技有限公司 文本单位语义距离预计算方法及装置、查询方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。