申请/专利权人:安徽大学
申请日:2023-12-29
公开(公告)日:2024-03-22
公开(公告)号:CN117493585B
主分类号:G06F16/38
分类号:G06F16/38;G06F40/279;G06F40/30;G06F16/33
优先权:
专利状态码:有效-授权
法律状态:2024.03.22#授权;2024.02.23#实质审查的生效;2024.02.02#公开
摘要:本发明公开了一种基于大语言模型的数据检索系统,包括:转换模型,对输入语言进行跨语言的转换,将输入语言转换为输出语言,基于输出语言进行大语言模型的数据检索,对输入语言进行扩展检索,生成扩展语言集,根据扩展语言集与输入语言之间的关联度进行计算,获取扩展语言集中输入语言的语义,根据输入语言语义的限定,进行输入语言与输出语言的转换。本发明通过对关键词的扩展来增加对关键词语义的限定,并根据所生成的限定来缩小跨语言的语义,从而增加跨语言进行关键词的检索时,输入语言与输出语言之间的相通性,进而来确保在进行跨语言检索时,反馈结果与预期值的匹配程度。
主权项:1.一种基于大语言模型的数据检索系统,其特征在于,包括:转换模型,对输入语言进行跨语言的转换,将输入语言转换为输出语言,基于输出语言进行大语言模型的数据检索,对输入语言进行扩展检索,生成扩展语言集,根据扩展语言集与输入语言之间的关联度进行计算,获取扩展语言集中输入语言的语义,根据输入语言语义的限定,进行输入语言与输出语言的转换;语义限定模型,对输入语言进行关键词的检索,将关键词筛选为核心关键词和限定关键词,通过限定关键词增加对核心关键词的语义限定,对语义限定对核心关键词以及限定关键词的语言转换;关键词的检索包括对副助词的筛选,首先将输入语言拆分为不同的词语,即对输入语言中所出现的词语语义进行检索,前后形成完整语义的词语即为一个组成词,在出现歧义词语与前后词语均能够形成完整语义时,对歧义词语与前后词语的语义匹配度进行计算;对组成词的核心关键词和限定关键词的筛选,计算每两个组成词进行检索出现的组合检索数量,即: ;其中,为第x个组成词出现数量,为第n个组成词出现的数量,为第x个组成词与第n个组成词的重复出现数量;分别计算每两个组成词出现的数量,并筛选组合检索数量最大的组成词,两个组成词中出现数量进行对比,组成词出现次数多的标记为核心关键词,其余组成词为限定关键词;校对模块,在输入语言转换为输出语言后,对核心关键词以及限定关键词的语义限定转换来修改输出语言,改变大语言模型的反馈结果。
全文数据:
权利要求:
百度查询: 安徽大学 一种基于大语言模型的数据检索系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。