申请/专利权人:浙江大学
申请日:2023-11-02
公开(公告)日:2024-03-26
公开(公告)号:CN117763098A
主分类号:G06F16/332
分类号:G06F16/332;G06F16/33;G06F16/31;G06F16/338
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.12#实质审查的生效;2024.03.26#公开
摘要:本发明公开了一种基于LSH和VP树结合的语义回答系统及方法,包括语言模型、缓存系统和缓存控制器,语言模型为大语言模型及嵌入模型,嵌入模型能够将当前文本转化为嵌入向量,大语言模型能够为当前文本输入根据与历史信息相关程度进行评分,能够将多段历史信息进行摘要提取,同时还能根据缓存控制器输出回答或解决相应问题;缓存系统由历史文本的嵌入向量组成,构建成LSH和VP树结合的数据结构的形式;缓存控制器根据当前文本的嵌入向量,在缓存系统中查找最相似的k个嵌入向量,通过设计的Prompt将获取的k个历史文本与当前文本输入拼接输入到语言模型。本发明减少了搜索时间和计算成本,提高了任务完成的效率。
主权项:1.一种基于LSH和VP树结合的语义回答系统,其特征在于,包括:语言模型、缓存系统和缓存控制器,所示语言模型为大语言模型及嵌入模型,所述嵌入模型用于将当前文本转化为嵌入向量,大语言模型用于为当前文本输入根据与历史信息相关程度进行评分,用于判断历史信息文本长度,选择是否将多段历史信息进行摘要提取,以此来压缩文本长度,同时还能根据缓存控制器输出回答或解决相应问题;所述缓存系统由历史文本的嵌入向量组成,构建成LSH和VP树结合的数据结构的形式,文本内容包括超长文本输入或用户问题,文本经过嵌入模型转化为嵌入向量,根据嵌入向量之间的相似性构建成相应LSH和VP树结合的数据结构的形式,LSH通过一组哈希函数将嵌入向量多次映射到不同的桶中,哈希函数由一组随机矩阵组成,通过和嵌入向量相乘,将嵌入向量映射到低维空间,每个桶中的嵌入向量在逐渐积累到一定阈值后被组织成VP树的形式,所述缓存控制器根据当前文本的嵌入向量,在缓存系统中查找最相似的k个嵌入向量,该嵌入向量通过相同的一组哈希函数映射到多个桶中,收集每个桶中最相似的k个嵌入向量构成集合Candidates,遍历集合Candidates利用小顶堆获得最终的k个嵌入向量,k个嵌入向量对应k个文本,通过设计的Prompt将获取的k个文本与当前文本输入拼接输入到语言模型。
全文数据:
权利要求:
百度查询: 浙江大学 一种基于LSH与VP树结合的语义回答系统及方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。