买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于Bert模型的电力安全规程智能问答方法及系统_华南理工大学_202311467507.3 

申请/专利权人:华南理工大学

申请日:2023-11-06

公开(公告)日:2024-04-02

公开(公告)号:CN117407511B

主分类号:G06F16/332

分类号:G06F16/332;G06F16/33;G06F16/338;G06F16/31;G06N3/0455;G06N3/084;G06N3/0985;G06N5/04

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2024.02.02#实质审查的生效;2024.01.16#公开

摘要:本发明公开了一种基于Bert模型的电力安全规程智能问答方法及系统,方法包括:配置FAQ模块的问答对,针对用户输入的问题,匹配用户输入的问题与预设的问答对中的问题,若匹配,则返回匹配到的问题对应的答案,若不匹配,则进行下一步;对电力安全规程文档进行文本分段,并加入中文维基百科的文本数据,生成索引文件;采用Anserini模块基于输出的索引文件建立索引,并进行段落抽取,生成段落评分;采用预训练的Bert模型,并使用专业数据集进行训练;本发明旨在提供一种基于Bert模型的电力安全规程智能问答方法及系统,有效地改进了计算时间过长的问题,减少计算负担,保证计算精度基本不变,具有显著工程实用价值和广泛应用前景。

主权项:1.一种基于Bert模型的电力安全规程智能问答方法,其特征在于,包括以下步骤:步骤S1:配置FAQ模块的问答对,问答对用于过滤高频问题,针对用户输入的问题,使用FAQ模块匹配用户输入的问题与预设的问答对中的问题,若匹配,则返回匹配到的问题对应的答案,若无返回结果或匹配分值低于阈值,则进行步骤S2;步骤S2:使用预处理方式对电力安全规程文档进行文本分段,并加入中文维基百科的文本数据,生成索引文件;步骤S3:采用Anserini模块基于输出的索引文件建立索引,并进行段落抽取,生成段落评分;步骤S4:采用预训练的Bert模型,并使用CMRC2018数据以及电力安全规程考试题目作为专业数据集进行训练;步骤S5:根据规章类文档的结构和特性,对训练的Bert模型的算法中的参数进行调优;步骤S6:使用Bert模型在Anserini模块中抽取候选答案并给出阅读理解评分,候选答案为抽取的N个段落中抽取问题的准确答案;步骤S7:对候选答案进行综合加权评分并进行得分排序,最后输出得分最高的答案,并给出答案出处的原始文档名称及具体章节信息;所述步骤S1包括以下子步骤:子步骤S11:建立预设问题库:预设问题库包含多个问题以及回答对;子步骤S12:FAQ模块使用开源的分布式搜索和分析引擎,对用户输入的问题和预设问题库中的问题进行匹配,并采用BM25文本相似度算法计算两者的相似度,具体公式如下: 其中:D表示一个文档;Q表示查询语句;qi表示词项;fqi,D为qi在D中的出现频率;|D|为文档D的长度;avgdl为所有文档的平均长度;k1、b为调节因子;IDFqi为qi在全部预设问题中的逆向文本频率指数;N为索引中的文档总数,nqi为包含qi的数量;子步骤S13:在使用时,当分析引擎返回的BM25算法的分数高于预设的阈值时,则直接返回匹配到的问题的预设答案;当返回分数低于阈值时,则不返回答案,进行步骤S2;所述步骤S2包括以下子步骤:子步骤S21:将电力安全规程文档转换为txt格式的纯文本;子步骤S22:去除与内容无关的信息;子步骤S23:使用正则表达式,将文本中的标题编号提取出来,将标题编号与文本相互对应;子步骤S24:过滤掉不适用于机器阅读理解的段落;子步骤S25:采用Anserini模块,将文本标题编号与其对应的正文进行分词,并建立索引。

全文数据:

权利要求:

百度查询: 华南理工大学 一种基于Bert模型的电力安全规程智能问答方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。