买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于词向量的中文词义预测方法_南京邮电大学_201910735241.3 

申请/专利权人:南京邮电大学

申请日:2019-08-09

公开(公告)日:2023-06-13

公开(公告)号:CN110442874B

主分类号:G06F40/289

分类号:G06F40/289;G06F40/247;G06N3/04;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2023.06.13#授权;2019.12.06#实质审查的生效;2019.11.12#公开

摘要:本发明公开了一种基于词向量的中文词义预测方法,用于中文自然语言处理时将向量化的词语进行语义预测的场景。神经网络语言模型和词义预测模型组成,其中神经网络语言模型是核心;最终形成的词义预测模型是目的。在神经网络语言模型中,使用两种词义预测模型,依次对实验文本进行遍历计算,使文本词语之间关联性提升。语义预测模型中,根据词向量间的余弦相似度来搜索相关的近义词和反义词,从而提升了词语之间的关联性和对文本语境的预测性,扩展了以中心词为预测对象的相关词汇,提升了词汇的预测量和相关预测类比词语的预测量。

主权项:1.一种基于词向量的中文词义预测方法,其特征在于,包括以下步骤:步骤1.神经网络语言模型训练步骤1.1,中心词预测背景词:通过选取训练样本中的一个关键词语作为一次训练的中心词,中心词附近出现的其他词语作为背景词;将中心词作为输入层,背景词作为输出层对神经网络语言模型进行训练;根据中心词生成与它距离不超过窗口大小的背景词的条件概率,该条件概率计算公式如下: 其中,T代表所选取的训练样本的长度,t=1表示从文本中第一词开始计算概率,m表示为训练模型的窗口大小;Pwt+j|wt表示以wt为中心词,m为窗口大小,其各个背景词wt+j的出现概率,当中心词出现时,每一个背景词出现的概率是相互独立的,上述公式10等价于最小化损失函数: 将上式11中的Pwt+j|wt替换为两个向量的点乘,向量点乘的公式为: 其中,V代表整个文本序列,其中中心词为wc,背景词为wo,用uo和vc来分别表示背景词和中心词的向量,exp表示以自然常数e为底数的指数函数,c∈V表示对文本中所有的词语都进行点乘,使用随机梯度下降来计算公式12的参数的梯度,公式如下: 步骤1.2,背景词预测中心词:选取训练样本中背景词作为神经网络的输入层,经过神经网络隐藏层,最终输出一个中心词;根据已经出现的背景词来计算中心词,其概率计算公式如下: 其中,T代表所选取的训练样本的长度,t=1表示从文本中第一词开始计算概率,m表示为训练模型的窗口大小,公式14是计算在背景词wt-m到wt+m已出现的情况下中心词wt出现的概率,上述公式14等价于最小化损失函数: 在最小化损失函数的计算中,上式Pwt|wt-m,…,wt-1,wt+1,…,wt+m替换为两个向量的点乘,向量点乘的公式为: 其中,V代表整个文本序列,假设wc为中心词,wo1,…,wo2m为以中心词为中心,m为窗口大小时的背景词,使用uc来表示中心词向量,由于有2m个背景词向量,所以在点乘时需要对这2m个词向量进行平均,求出一个平均向量;exp表示以自然常数e为底数的指数函数,使用随机梯度下降来计算公式16的参数的梯度,公式如下: 步骤2.词义预测模型:步骤2.1,近义词和反义词预测:通过余弦相似度度量出训练样本中词语之间的相似程度,判定两个词语之间的关系;针对不同的词语,搜索出与之相关的近义词和反义词,实现了词语关系的扩充,公式如下: 上述公式18用来求解两个n维向量的余弦相似度,xi和yi分别表示向量x和向量y的各个分量,其中i从1到n表示n维向量的不同分量,cosθ表示两个向量的余弦相似度;步骤2.2,类比词词义预测:步骤2.2.1:获取类比词训练样本,设置好词语窗口大小m,以便进行环境词对中心词的预测;步骤2.2.2:通过环境词向量对“新词”进行预测;环境词向量除“新词”外,其他背景词的词向量均出现在训练样本中,通过神经网络语言模型中背景词预测中心词的方式,对该“新词”向量进行词义预测,增强词向量的关联性;步骤2.2.3:将类比词训练样本中新词所在词向量与训练样本中的词向量通过位置类比,在两个文本序列中,将新词与训练样本中词向量空间中已存在的中心词进行词义预测;在中心词的环境词向量满足近义词标准的情况下,由于两个词语在文本序列的位置上具有很高的相似性,判定新词与中心词具有相同的词性,并且同属于相同的词语类别。

全文数据:

权利要求:

百度查询: 南京邮电大学 一种基于词向量的中文词义预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。