买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于句袋注意力远程监督的课程知识关系抽取方法及系统_湖北工业大学_202010758190.9 

申请/专利权人:湖北工业大学

申请日:2020-07-31

公开(公告)日:2024-04-16

公开(公告)号:CN111914558B

主分类号:G06F40/295

分类号:G06F40/295;G06F40/211;G06F16/35;G06N3/0442;G06N3/0464;G06N3/045;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2020.11.27#实质审查的生效;2020.11.10#公开

摘要:本发明属于关系抽取技术领域,公开了一种基于句袋注意力远程监督的课程知识关系抽取方法及系统,通过TF‑IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体;基于人工标注的知识三元组,利用远程监督方法从课程教学文本中自动获取训练语料;用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪;通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、类型信息构造实体特征,输入Bi_LSTM模型获得知识点关系抽取。本发明不需要繁重的人工标注工作,减轻了人为构造特征的工作,可应用于不同科目的课程教学中,能对课程中的知识关系抽取取得很好的结果。

主权项:1.一种基于句袋注意力远程监督的课程知识关系抽取方法,其特征在于,所述基于句袋注意力远程监督的课程知识关系抽取方法包括:通过词聚类关键词抽取算法抽取知识实体;基于人工标注的知识三元组,利用远程监督方法从课程教学文本中自动获取训练语料;用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪;通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、类型信息构造实体特征,输入Bi_LSTM模型获得知识点关系抽取;所述基于句袋注意力远程监督的课程知识关系抽取方法包括以下步骤:步骤一,对文本进行预处理;步骤二,通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体;步骤三,定义知识点之间的描述关系,前导后继关系,包含关系,等价关系,相关关系,对抽取出的知识实体进行人为的关系判定,构造三元组;步骤四,利用远程监督方法以及构造的三元组,从课程教学文本中自动获取训练语料;步骤五,用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪;步骤六,通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、类型信息构造实体特征,输入Bi_LSTM模型获得知识点关系抽取;步骤五中,所述用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪包括:1用PCNN提取句子特征:1.1进行向量表示:给定句子以及句中的词语句子的每个词语映射到dw维词向量中,利用位置特征PFs描述当前词语与两个实体之间的相对距离,并进一步映射为dp维的两个向量和将三个向量连接起来,得到dw+2dp维的字表示1.2卷积层设置:滤波器的窗口为l,w∈Rm,m=l*d,给定S为序列{q1,q2,...,qs},其中qi∈Rd,qi:j表示qi与qj的串联,滤波器的第j个部分表示为:cj=wqj-w+1:j,索引j的取值范围从1到s+w-1;使用n个滤波器W={w1,w2,...,wn},卷积运算表示为:cij=wiqj-w+1:j1≤i≤n;卷积的结果为一个矩阵C={c1,c2,...,cn}∈Rn×s+w-1;1.3进行分段最大池化:根据两个选定的实体将每个卷积滤波器ci的输出分成三段{ci1,ci2,ci3},分段最大池化过程表示如下:pij=maxcij1≤i≤n,1≤j≤3;对于每个卷积滤波器的输出,得到一个三维向量pi={pi1,pi2,pi3},把所有的向量p1:n连接起来,应用双曲切线非线性函数,如下所示:g=tanhp1:n;其中g∈R3n;将特征向量g输入到Softmax分类器中,计算每个关系的置信度;2进行袋内注意力去噪:设表示袋bi中所有句子的表示,表示关系嵌入矩阵,其中h是关系数,袋表示为计算方式如下: 其中k∈{1,2,...,h}是关系索引,是在bi袋中第j个句子被赋予第k个关系的权重,如下所示: 其中是袋bi中第k个关系与第j句之间的匹配度,采用一个简单的向量间点积计算匹配度,如下所示: 其中rk是关系嵌入矩阵R2的第k行;袋bi的表示组成矩阵3进行袋间注意力去噪:两个袋子和都有关系k标签,则表示和相近的,对于每一组具有相同关系标签的袋子,为在一组中与其他袋子相近的袋子分配更高的权重;袋组g的表示如下: 其中gk是图中矩阵的第k行,k是关系索引,βik构成注意力权矩阵β∈Rn×h;每个βik被定义为: 其中γik描述了袋bi与第k个关系的置信度;利用向量本身计算一组向量的注意权重,根据袋子本身的向量表示计算袋子的权重,γik被定义为: 其中相似性函数是一个简单的点积,被定义为:

全文数据:

权利要求:

百度查询: 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。