买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于生成式模型的中医药教材问答题生成方法及装置_浙江大学_202311447327.9 

申请/专利权人:浙江大学

申请日:2023-11-02

公开(公告)日:2024-01-26

公开(公告)号:CN117453881A

主分类号:G06F16/332

分类号:G06F16/332;G06F16/33;G06F16/36;G06F40/289;G06F40/284;G16H70/40

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.02.13#实质审查的生效;2024.01.26#公开

摘要:本发明公开了一种基于生成式模型的中医药教材问答题生成方法及装置,首先对教材习题集中源数据进行数据预处理构建习题数据集,将《中国中医药学主题词表》中源数据结构化处理后获取中医药主题词表。然后使用提示学习方法,根据中医药主题词表获取提示,与习题数据构建为模型训练样本,训练得到习题生成模型。之后计算原始文本各段落中医学文本丰富度,选取丰富度较高段落作为生成习题来源。并选取段落进行分词和过滤计算词语关键度,选取关键词作为答案文本。将选取段落和答案文本输入模型获取生成题目,与答案组成问答习题。本发明提出了一种适用于专业领域计算段落文本信息丰富度的方法,有助于选取出高质量的段落从而提升生成习题的质量。

主权项:1.一种基于生成式模型的中医药教材问答题生成方法,其特征在于,该方法包括以下步骤:1教材习题数据集构建:对中医学科领域的纸质教材习题集进行OCR处理,获取其中的习题集源数据,对习题集源数据进行数据分类、数据清洗和结构化处理获取每道题目的元数据包括题目题干、题目答案和题目解析,使用模板的方法将题目元数据转化为固定格式的文本,构建习题数据集;2中医药主题词表获取:获取中医药领域的主题词表并进行OCR处理获取词表源数据,对词表源数据进行结构化处理获取每个词汇的详细信息;3模型训练:采用提示学习的方法进行模型训练,使用步骤2中获取到的中医药主题词表对步骤1中获取到的题目答案进行信息补充,将补充后的信息填充到提示模板,然后将提示模板与步骤2中获取到的题目解析和答案进行拼接得到完整的输入样本,将步骤1中获取到的对应的习题数据作为输出样本,得到模型训练样本,将模型训练样本输入t5-pegasus模型进行训练得到中医药问答教材习题生成模型;4原始文本构建:对中医学科领域教材进行OCR处理获取教材源数据,对源数据进行结构化处理获取“篇-章-节”三个层级的标题内容和文本内容作为原始文本;5段落选取:输入需要生成习题的中医学科领域教材的原始文本、篇序号、章序号和节序号,计算选定节中每个段落的中医学文本丰富度,选取大于文本信息丰富度阈值的段落作为生成中医药问答教材习题的段落来源;6答案抽取:对步骤5中选取的段落进行分词处理,过滤掉停用词后筛选中医药相关词汇,计算词汇的关键度,选取关键度较高的词汇作为答案文本;7习题生成:将步骤5中选取的段落和步骤6中抽取的答案文本根据步骤3中输入样本构建方法构建为模型输入,传输到3中训练得到的中医药问答教材习题生成模型,获取输出为生成的题目,与步骤6中抽取的答案文本组成中医药问答教材习题。

全文数据:

权利要求:

百度查询: 浙江大学 一种基于生成式模型的中医药教材问答题生成方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。