买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于改进Seq2Seq模型的数学试题自动标注方法_江苏大学_202110509310.6 

申请/专利权人:江苏大学

申请日:2021-05-11

公开(公告)日:2021-09-21

公开(公告)号:CN113420543A

主分类号:G06F40/216(20200101)

分类号:G06F40/216(20200101);G06F40/284(20200101);G06F40/30(20200101);G06N3/04(20060101);G06N3/08(20060101);G06F17/16(20060101);G06F40/126(20200101)

优先权:

专利状态码:在审-实质审查的生效

法律状态:2021.10.12#实质审查的生效;2021.09.21#公开

摘要:本发明涉及一种基于改进Seq2Seq模型的数学试题自动标注方法,该方法包括以下步骤:采集数学试题数据;对数据进行预处理;构建基于改进的Seq2Seq模型;训练模型网络参数,并对未标记数学试题进行知识点预测标注。本发明能解决现有的人工标注数学试题费时费力,而且对于知识点会存在漏标、误标等问题,改进了传统的Seq2Seq模型,使之在预测知识点标签时更加关注数学试题中的关键部分以及相关知识点标签信息,从而进一步提高模型预测数学试题多个知识点标签的正确率。

主权项:1.一种基于改进Seq2Seq模型的数学试题自动标注方法,其特征在于,包括以下步骤:S1:采集数学试题数据,形成数学试题数据集,所述数学试题数据集格式为通用自然语言文本、Latex表达的数学符号及表达式,所述每条数学试题数据包含一至多个知识点标签,所述知识点标签采用通用自然语言文本;S2:对数学试题数据进行数据预处理,包括分词、去停用词、Latex字符串的正则表达式语义转换;S3:将预处理后的数学试题数据送入ERNIE词向量提取层,将通用自然语言文本转换为数学试题词向量,所述ERNIE词向量提取层采用基于BERTBASE版本,由12层Transformer编码器构成;S4:将转换后的数学试题词向量送入关键词突出的DPCNN编码器,提取数学文本语义信息;S5:将S1中采集的带知识点标签的数学试题数据送入FSLLDA监督主题模型中,获得数学试题数据所属知识点标签的主题分布信息STM;S6:解码器通过DPCNN编码器与注意力层提供的上下文语义向量C、解码器隐藏单元状态Z、上一个时刻预测最大概率标签向量gyt-1、S5中提供的主题分布信息STM,计算当前时刻的解码器输出状态ot;S7:将当前时刻的解码器输出状态ot通过掩码层,防止重复预测已经生成的标签,通过softmax函数,生成当前时刻的标签概率分布向量yt;S8:将标签概率分布向量yt通过词向量嵌入层,获得最大概率标签向量gyt,该最大概率标签向量gyt将用来计算下一个时刻的标签概率分布向量yt+1;S9:直到预测的最大概率标签向量为EOS,此时模型预测结束,在开始标记向量SOS与结束标记向量EOS中间生成的数学知识点标签向量,即为这道数学试题打上知识点标签。

全文数据:

权利要求:

百度查询: 江苏大学 基于改进Seq2Seq模型的数学试题自动标注方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。