买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于大语言模型的问答系统_北京易华录信息技术股份有限公司_202311818708.3 

申请/专利权人:北京易华录信息技术股份有限公司

申请日:2023-12-27

公开(公告)日:2024-04-30

公开(公告)号:CN117951269A

主分类号:G06F16/332

分类号:G06F16/332;G06F16/33;G06F16/31;G06F40/151;G06N5/04;G06N5/022;G06N20/00

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.17#实质审查的生效;2024.04.30#公开

摘要:本发明涉及数据处理技术领域,公开了一种基于大语言模型的问答系统,具体包括用户端模块,用于获取用户的问题并生成问题文本;多模态转换模块,用于将文本文件转换为文本类型为纯文字文档;数据处理模块,用于将文本拆分成若干个文本块,还用于将文本块转换为数据向量;数据库,用于存储文本块、数据向量和数据文件;应答输出模块,用于判断数据向量的相似度,调取文本块并生成自然语言文本;本发明通过通过设置多模态转换模块,支持多模态知识录入,允许用户以不同的方式输入知识,同时结合大语言模型通过对知识数据向量化,实现自动化知识点拆分和向量化知识库构建,大幅提升了系统的知识检索效率和准确率。

主权项:1.一种基于大语言模型的问答系统,其特征在于,包括:用户端模块,用于获取用户手动输入的问题文字并生成问题文本,问题文本输入预训练大语言模型并输出包含文本数据特征的第一数据向量;多模态转换模块,用于识别问题文本和从外部采集的源数据文件的文件类型,将问题文本和源数据文件分别转换为文本类型为纯文字文档的第一文本和第二文本;数据处理模块,用于将第一文本和第二文本按照预设文本长度分别拆分成若干个第一文本块和第二文本块,源数据文件的链接嵌入第二文本块中,按照顺序给每个文本块标记序号;还用于将文本块输入预训练的大语言模型并输出包含文本数据特征的第二数据向量,其中,文本块和第二数据向量互为对应关系;数据库,用于存储第二文本块、第二数据向量、元数据文件和源数据文件,元数据文件包含第二数据向量在数据库中的文件位置信息和文件名称;应答输出模块,用于查询在数据库中与第一数据向量最相似的第二数据向量,计算第一数据向量和第二数据向量的相似度并判断相似度是否超过预设相似度第一阈值,若是,则依据元数据文件调取第二数据向量对应的第二文本块以及第二文本块序号顺序前后的文本块输入所述的预训练大语言模型并生成自然语言文本,自然语言文本与源数据文件的链接传输至用户端模块,否则反馈无搜索结果至用户端模块。

全文数据:

权利要求:

百度查询: 北京易华录信息技术股份有限公司 一种基于大语言模型的问答系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。