买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于向量数据库的职业信息查询方法及装置_深圳市一览网络股份有限公司_202311495259.3 

申请/专利权人:深圳市一览网络股份有限公司

申请日:2023-11-10

公开(公告)日:2024-04-02

公开(公告)号:CN117235137B

主分类号:G06F16/2455

分类号:G06F16/2455;G06F18/23

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2024.01.02#实质审查的生效;2023.12.15#公开

摘要:本发明适用于人工智能的技术领域,提供了一种基于向量数据库的职业信息查询方法、装置及终端设备,所述查询方法包括:获取查询语句中的主干词汇向量和主题标签,并通过主题标签将查询范围缩小至一定范围。由于不同的主题标签具有不同的向量特征,为了更加精准得匹配查询结果,故需要基于第一转换矩阵对主干词汇向量进行转换,得到特征向量。为了进一步缩小查询范围,通过聚类算法匹配目标聚类中心,并基于目标聚类中心对应的第二转换矩阵,将特征向量转换为查询向量,以适应不同聚类中心的向量特征。最后,根据查询向量与多个目标向量数据之间的距离,匹配精确的职业信息查询结果。不仅大大提高了查询效率,且具有较高的查询精确度。

主权项:1.一种基于向量数据库的职业信息查询方法,其特征在于,所述查询方法包括:将查询语句进行分词处理,得到多个第一词汇;通过编码模型对多个所述第一词汇进行编码处理,得到多个第一向量值;根据上下文关系,获取当前第一词汇和其他第一词汇之间的词间距;根据所述词间距换算第一关联值;获取所述当前第一词汇和所述其他第一词汇各自对应的词性,并根据所述词性之间的映射关系,计算第二关联值;将所述当前第一词汇和所述其他第一词汇组合为短语,将所述短语输入语句识别模型,得到对应的组合概率;所述组合概率用于表征所述当前第一词汇和所述其他第一词汇组成正确短语的概率;将所述第一关联值、所述第二关联值和所述组合概率代入如下公式,得到相关性参数;所述公式为:其中,表示所述相关性参数,x表示所述第一关联值,P表示所述组合概率,y表示所述第二关联值,和表示常数,n为预设系数;以多个词汇各自对应的向量值为节点,以每个词汇之间的对应的相关性参数为边,构建初始语义图;其中,所述初始语义图的节点为所述第一向量值,所述初始语义图的边为每个所述第一词汇之间的相关性参数;将所述初始语义图中相关性参数低于阈值的边剔除,并将孤立节点剔除,得到目标语义图;在所述目标语义图中,根据所述相关性参数选择目标路径;基于所述目标路径上多个节点的排序关系,将所述多个节点各自对应的第一向量值组合得到主干词汇向量;将多个所述第一词汇分别与主题语料库进行匹配,得到主题标签;其中,每个主题标签对应多个主题词汇;根据所述主题标签,匹配所述主题标签对应的多个目标向量数据;其中,所述向量数据库中多个主题标签各自对应不同的向量数据;获取所述主题标签对应的第一转换矩阵,将所述主干词汇向量与所述第一转换矩阵相乘,得到特征向量;基于聚类算法,计算所述特征向量和多个聚类中心的距离,将最小距离对应的聚类中心作为目标聚类中心;获取所述目标聚类中心对应的第二转换矩阵,将所述特征向量与所述第二转换矩阵相乘,得到查询向量;获取所述目标聚类中心对应的多个子目标向量数据,分别计算所述查询向量和多个所述子目标向量数据之间的距离,将最大距离对应的所述子目标向量数据对应的原始数据作为职业信息查询结果。

全文数据:

权利要求:

百度查询: 深圳市一览网络股份有限公司 一种基于向量数据库的职业信息查询方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。