买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种智能化的在线教学资源知识点概念实体链接方法_西北大学_202210018754.4 

申请/专利权人:西北大学

申请日:2022-01-09

公开(公告)日:2024-04-09

公开(公告)号:CN114443813B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/36;G06F40/216;G06F40/295;G06F40/30;G06F18/24;G06N3/0455;G06N3/0442;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2022.05.24#实质审查的生效;2022.05.06#公开

摘要:一种智能化的在线教学资源知识点概念实体链接方法,知识点概念实体识别模型和知识点概念链接模型,由于应用场景主要面向国内在线学习平台中的教学资源组织管理,国内的教学基本为中文教学,因此仅适用于中文语言文本,兼容部分英文文本。知识点概念实体识别是要从教学资源文本中抽取出包含的知识点概念实体词汇,学科、专业术语和历史事件等,抽取出的知识点概念实体称之为知识点提及;知识点概念关联指,根据所抽取出的知识点概念提及以及其所处的上下文语境,从知识库中找出语义相似度最高的概念知识,进行关系。通过知识点概念实体识别和知识点概念链接,实现教学资源之间与知识点概念之间的关联,达到了构建以概念知识为核心的教学资源组织体系目的。

主权项:1.一种智能化的在线教学资源知识点概念实体链接方法,其特征在于,包括以下步骤:1首先对字符串进行字符串清洗的预处理过程,字符串清洗主要是判断一个字符是否是为中文、数字和英文字符集,若不在该字符集中,则将该字符移除;2模型需要对清洗后的字符串C={c1,c2,......,cl}中的各个元素通过”BIO”标注机制进行序列标注,当一个字符ci被标注为”B”时,代表字符ci为某个知识点概念词汇实体的首个字符,”I”为个知识点概念词汇实体的中间字符,”O”为非知识点概念词汇字符,最终得到文本数据;3文本数据增强通过知识库中的知识点词条名词及其别名构建知识点概念词典Dict,使用最大双向匹配算法BiDirectionalMaximumMatchingalgorithm对字符串C进行匹配,找出字符串中包含的词典词汇,所匹配到的字符子串均以“BIEO”机制进行标注,即若匹配到的字符子串为Csub={ci,ci+1,......,ci+m},Csub∈Dict,对子串中的起始字符ci标注为“B”,结束字符ci+m标注为“E”,起始字符ci和结束字符ci+m之间的字符串{ci+1,ci+2,......,ci+m-1}包含的字符全部标注为”I”,未匹配到的其它字符标注为“O”,通过这种机制,可以得到一串带标注的字符串同时添加起始字符“[CLS]”和结束字符“[SEP]”,S={s[CLS],s1,s2,......,sl,S[SEP]},其中每个元素si由字符串C中相应索引位置的字符ci和标注字符组成;4将上述得到带标注的字符串S进行向量空间嵌入操作EmbeddingS,即将S中的每个元素si表征为一个维度为ds的高维向量,其向量中的数值均使用KaiMing分布随机初始化,嵌入后的序列向量为5通过上述操作得到的序列向量ES包含了知识点概念词汇的边界信息,将对字符串C中所包含的上下文语义信息进行表征,使用的是预训练的神经网络语言模型Bert,预训练模型指已在大规模通用文本数据训练后的模型,将预训练的语言模型Bert作为语义编码器,能够有效地将文本序列表征为高维向量,将清洗后的字符串C作为预训练Bert语言模型的输入,Bert模型是以字符为单位对字符串C进行计算,对于输入的字符串C={c1,c2,......,cl},Bert模型会首先在字符串的起始位置之前和末尾位置之后分别插入标识符”[CLS]”和”[SEP]”,即字符串{″[CLS]″,c1,c2,......,cl,″[SEP]″}作为模型的计算数据;6通过上述Bert模型的得到的输出向量F即为字符串C的编码向量,接下来将结合带有概念知识点词汇边界信息的序列向量ES,并通过LSTM模型和条件随机场CRF从字符串C中抽取候选概念知识点实体;将预测标签序列上相应的子串进行提取,可以得到知识点概念提及实体;7知识点概念实体链接模型是将抽取出的知识点概念提及实体M={m1,m2,......,mk}与知识库中的知识点实体进行匹配和关联,基于LevenshteinDistance字符串模糊匹配算法的候选知识点概念实体生成,将当前的提及实体mi与知识库中的知识点概念词汇进行模糊匹配,通过设定模糊匹配算法中的编辑距离参数Distance,将匹配到的编辑距离大于Distance的知识点概念词汇进行过滤,生成候选知识点概念实体集8通过上述介绍的预训练Bert模型对每个候选知识点概念实体的摘要文本描述进行编码,获取用于表征候选知识点概念实体的向量,对于一个候选知识点概念实体entityi,其相应的摘要描述为字符串作为Bert模型的输入,Bert模型编码后的输出向量为将标识符”CLS”相应的隐含向量hcls,通过激活函数为tanh的全连接层,得到输出向量作为候选知识点概念实体的表征向量,即通过这种方式,可以获得候选知识点概念实体集的表征向量集合9对于每个提及知识点概念mi的表征,首先通过预训练Bert模型对提及知识点概念所位于的课程文本C={c1,c2,......,cl}进行编码,获取课程文本的表征向量VC,获取表征向量VC的方式与候选知识点概念实体的表征向量方法相同;10课程文本中每个字符通过Bert模型计算后的编码向量为HC={hcls,h1,h2,......,hl,hsep},对于所抽取的提及知识点概念mi,其表示的明文子串在课程文本C的索引位置可以表示为一个二元组其中,beg表示子串在C中的起始位置索引,end表示子串在C中的结束位置索引,将编码向量HC中提取中起始位置索引beg与结束位置索引end之间的编码向量,表示为将通过文本卷积网络TextCNN,得到提及知识点概念实体的表征向量TextCNN模型对于输入的计算,将课程文本的表征向量VC与提及知识点概念实体的表征向量进行Concatenate拼接操作,并经过一个激活函数为tanh的全连接层,得到输出向量即11将提及知识点概念实体的输出向量与候选知识点概念实体集的表征向量集合中的每个向量进行cos相似度计算,即从候选知识点概念实体集选择选择相似度最高的知识点概念与提及知识点概念进行关联,即最后的关联结果可以表示为一个二元组12输入课程文本中所包含的知识点概念链接结果为完成对教学资源之间与知识库中知识点概念之间的关联。

全文数据:

权利要求:

百度查询: 西北大学 一种智能化的在线教学资源知识点概念实体链接方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。