首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于概率聚类的向量数据库检索算法_武汉纺织大学;李思源_202410090402.9 

申请/专利权人:武汉纺织大学;李思源

申请日:2024-04-08

公开(公告)日:2024-05-17

公开(公告)号:CN118051547A

主分类号:G06F16/2458

分类号:G06F16/2458;G06F16/22;G06F18/2321

优先权:

专利状态码:在审-公开

法律状态:2024.05.17#公开

摘要:本发明涉及向量数据库检索领域,具体为一种基于概率聚类的向量数据库检索算法,表现为在不降低正确率的情况下,对检索过程进行加速。算法分为两个阶段,聚类和检索。初始的聚类阶段使用标准的高斯混合模型GMM,将数据分布到k个簇中,其中k为检索的加速因子。随后的检索阶段包括聚类选择、聚类排名和簇搜索。在查询和每个簇之间的距离用负对数似然值来计算。随后,选择两个具有最高负对数似然值的簇,并通过置信度度量,对其进行重新排名。具有更高置信水平的簇被选择用于搜索操作。搜索操作涉及通过定位与查询具有最大点积的数据来识别与查询最相似的数据。本发明寻找向量数据库中的最近向量时,更大概率获得全数据库最近的目标向量,且速度更快。

主权项:1.一种基于概率聚类的向量数据库检索算法。其特征在于,包括:S1:确定高斯混合模型的初始参数,包括均值、协方差矩阵以及每个分量的权重。初始化生成n簇,获得超球体中每条向量数据的坐标,基于初始化坐标计算每个簇的中心坐标值。S2:使用EM算法,首先根据当前参数估计每个样本属于每个高斯分量的概率后验概率。然后使用前面步骤中计算的后验概率,更新模型参数,包括均值、协方差矩阵和权重。最后对模型值进行迭代,重复进行前面两个步骤,直到模型参数收敛或达到预定的迭代次数。S3:基于收敛后参数模型,计算出GMM模型。并使用后验概率进行分类或通过选择概率最高的分量确定每个样本所属的簇。S4:对概率聚类结果进行再次分配,当一个查询输入到系统中时,会对该查询与每个簇进行比较,基于它们的比较结果,计算马氏距离,并得到每一个簇的权重。基于负对数似然性对聚类进行排序,并选择前2名。S5:基于前两条数据,计算Z-score值,并对样本的置信水平进行评判,最后利用马氏距离来测量样本置信度。S6:对所选簇中所有的特征向量,依次计算余弦相似度。与原有簇的样本矩阵点积,计算出最相似的样本。S7:输出最终的最相似的样本向量,以及该位置对应的簇的值。

全文数据:

权利要求:

百度查询: 武汉纺织大学;李思源 一种基于概率聚类的向量数据库检索算法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。