买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种监督的词向量学习方法_重庆邂智科技有限公司_201811075603.2 

申请/专利权人:重庆邂智科技有限公司

申请日:2018-09-14

公开(公告)日:2023-05-26

公开(公告)号:CN109271632B

主分类号:G06F40/284

分类号:G06F40/284;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2023.05.26#授权;2019.02.26#实质审查的生效;2019.01.25#公开

摘要:本发明申请公开了一种监督的词向量学习方法,涉及自然语言处理方法领域,包括以下步骤:步骤一,通过在word2vec神经网络模型的基础上增加词关系分类模型,搭建深度学习网络模型;步骤二,将多个相邻的输入词向量和某一指定词向量输入到深度学习网络模型中进行多任务学习;步骤三,重复步骤四,进行迭代计算,得到优化后的word2vec神经网络模型和词关系分类模型。本发明申请能够在计算得到词向量的同时,得到该词向量与指定词向量之间的关系。

主权项:1.一种监督的词向量学习方法,其特征在于:包括以下步骤:步骤一,通过在word2vec神经网络模型的基础上增加词关系分类模型,搭建深度学习网络模型;步骤二,将多个相邻的输入词向量和某一指定词向量输入到深度学习网络模型中进行多任务学习;步骤三,重复步骤二,进行迭代计算,得到优化后的word2vec神经网络模型和词关系分类模型;在训练完成后,不仅能够获得词对应的词向量,同时能够根据分类器模型计算出该词向量与指定词向量之间的关系;在步骤二中,word2vec神经网络通过误差反向传播机制对神经网络参数进行优化,误差包括霍夫曼树的分类误差和词关系分类误差;在步骤三中,将随机选出的多个输入向量和指定向量分别输入到word2vec神经网络模型和词关系分类模型中,计算得到一个输出词向量以及该输出词向量与指定词向量之间的关系。

全文数据:一种监督的词向量学习方法技术领域本发明涉及自然语言处理方法领域,具体涉及一种监督的词向量学习方法。背景技术词向量wordembedding,词的向量表征,是自然语言处理中常见的一个操作,是搜索引擎、广告系统、推荐系统等互联网服务背后常见的基础技术。词向量,可以简单理解为将词进行向量化表示,实体的抽象成了数学描述,例如一个词:“苹果”,将其表示成[0.4,0.5,0.9,...],“香蕉”:[0.3,0.8,0.1,...],向量的不同维度用来表征不同特征,不同维度上就代表着不同的语义。自然语言处理naturallanguageprocessing,缩写作NLP是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言,让电脑“懂”人类的语言,把计算机数据转化为自然语言,把自然语言转化为计算机程序更易于处理的形式。现在自然语言处理,包括多种方式,其中,word2vec是现在比较通用的用来进行自然语言处理的系列模型。Word2vec依赖skip-grams或连续词袋CBOW来建立神经词嵌入,利用神经网络模型得到词向量。相比于skip-grams,CBOW更加符合在日常沟通中将自然语言与机器语言进行互换的要求。虽然word2vec能够进行自然语言处理,但是却经常出现词语歧义和语句不通的情况,究其原因,是因为Word2vec无监督机制,word2vec考虑的仅仅是词和周围词之间的关系,当两个同义词的周围词不同时,这两个同义词训练出的词向量当然也大不相同。通过大语料的word2vec学习出的词向量,在词向量空间中离给定词距离较近的有:同义词、同位词、上下位词、相关词等,但word2vec并不能区分这些关系。而很多NLP任务需要这类词与词的关系,但是现有的学习方法中获得的词向量不具备这样的功能。发明内容本发明意在提供一种监督的词向量学习方法,不仅能够得到自然语言对应的词向量还能预测两个词向量之间关系。本方案中监督的词向量学习方法,包括以下步骤:步骤一,通过在word2vec神经网络模型的基础上增加词关系分类模型,搭建深度学习网络模型;步骤二,将多个相邻的输入词向量和某一指定词向量输入到深度学习网络模型中进行多任务学习;步骤三,重复步骤四,进行迭代计算,得到优化后的word2vec神经网络模型和词关系分类模型。本发明的优点在于:本发明提出一种基于词和词关系的有监督式的词向量生成方法。该方法在现有的word2vec基础上,增加了用来计算词和词关系的词关系分类模型,采用神经网络多任务学习的机制同时学习词向量和词词关系。训练完成后,不仅能够得到词所对应的词向量,而且能够预测两个词的词关系。这种词关系在自然语言的文本相似度计算、信息检索等多个技术领域都有非常重要的作用。另外,在训练过程中告诉神经网络词的先验知识,有助于消除低频词的学习不充分的情况。进一步,在步骤一之前,将语料文本分词,建立词表和与词表对应的初始词向量。通过收集语料,建立词表和初始词向量来对新建的深度学习网络模型进行初始训练。进一步,在步骤一之前,根据词表,标注语料文本中每个词向量与词向量彼此之间的关系。通过标注了关系的词向量能够对深度学习网络模型的输出向量和词关系进行反向学习和教正,使深度学习网络模型中的word2vec神经网络模型和词关系分类模型中的参数都能够得到优化。其中,采用爬虫向互联网以及语料典籍中收集语料文本。语料典籍中的语料文本比较完整,但是却不是最新的,通过爬虫爬取互联网上的网络用语作为现有语料典籍中语料文本的补充,能够使建立的词表和初始词向量都符合时代语言特征。进一步,在步骤一中,词关系分类模型包括依次连接的输入层、拼接层、全连阶层以及概率层;其中拼接层将经过word2vec神经网络模型计算得到的输出向量Wi和输入到词关系分类模型的指定向量Wk按照以下公式进行拼接:[Wi,Wk,Wi-Wk,Wi°Wk,CosWi,Wk]。通过词关系分类模型,将初始词向量之间的关系进行对应标注,方便后面在训练计算过程中带着关系一起计算。进一步,在步骤二中,通过初始词向量来定义输入词向量和指定词向量。所有的词向量都被初始化为指定的相同长度的向量。进一步,在步骤二中,采用连续池袋模型向word2vec的神经网络模型输入与输出词向量相邻的多个词向量作为输入词向量。连续池袋模型,是word2vec当中现在用来进行自然语言处理的主要模型,但是每个池袋当中的词向量彼此之间没有进行关系对应,这就使得最后计算得到的词向量也很难准确地和其他词向量建立正确的关系。本发明通过增加词关系分类模型有效解决了这一问题。而神经网络模型叠加连续池袋模型,能够极大减小计算的层数和迭代的次数,减少计算量,使自然语言能够更快地被处理成标准的词向量,进而进行后续应用。进一步,在步骤二中,在进行多任务学习时,word2vec神经网络盘模型在计算输出向量Wi的同时,词关系分类模型计算出Wi和Wk的关系labelWk,Wi。在用初始向量训练word2vec神经网络的同时,训练词关系分类模型,训练好的深度学习网络模型能够在得到输出词向量Wi的同时,得到Wi和Wk的关系labelWk,Wi。进一步,在步骤二中,word2vec神经网络通过误差反向传播机制对神经网络参数进行优化,误差包括霍夫曼树的分类误差和词关系分类误差。使计算得到的输出向量Wi和word2vec神经网络模型得到优化。进一步,在步骤二中,词关系分类模型通过神经网络误差反向传播机制对全连接层参数进行优化。利用标注关系的词向量,对词关系分类模型计算后的关系进行对比优化,进而修正更新全连接层参数,使计算得到的labelWk,Wi以及词关系分类模型得到优化。进一步,在步骤三中,将随机选出的多个输入向量和指定向量分别输入到word2vec神经网络模型和词关系分类模型中,计算得到一个输出词向量以及该输出词向量与指定词向量之间的关系。在经过多次迭代,将word2vec神经网络模型和词关系分类模型训练好后,使用的时候,在得到输出词向量的同时还能同步得到该输出词向量与指定词向量的关系。附图说明图1为本发明实施例的流程图。图2为本发明实施例的运算框架图。具体实施方式下面通过具体实施方式进一步详细说明:实施例基本如附图1所示:本实施例中监督的词向量学习方法,包括以下步骤:第一步,建立语料文本库,对语料文本分词,分词方法可以采用现有的ltp、结巴、甚至是手工分词;分词过后建立词表,词表为一个个词组成的集合;并随机选取初始词向量。在建立语料文本库时,通过现有的中文语料典籍如《ccs》词典、《hownet》、《大词林》以及通过爬虫在互联网上收集语料文本,形成多个大语料文本,并将这些大语料文本建立成可供收索的语料文本库。在完成语料文本库的建立后,对库中的语料文本进行分词。同时,将每个词的初始词向量定义为W0={w1,...,wn},其中,W0为词向量,w1至wn分别为词向量在n个不同维度的特征值,其中n是word2vec设定的词向量特征维数。第二步,根据词表,标注一个词的关系词,标注可以根据已有的词典,如大词林、ccs等,也可以手工标注。关系词包括有同义词、同位词、上位词、下位词、无关词等。在建立词与词之间的联系时,首先按照现有技术,采用现有语料典籍中的词语关系建立词与词之间的关系,语料典籍如《ccs》词典、《hownet》、《大词林》等。如果只是现有的语料典籍,其提供的词词关系并不完整。在本实施例中,我们采用下列方式构造词词关系,对于Wi的所有词关系用labelWi,Wk表示,i和k属于{1,...,n}。词关系有{同义词、同位词、上位词、下位词、无关词、未知}。把未知的词关系标签设置为“未知”,这些词关系并不参与训练。第三步,搭建深度学习网络结构。利用word2vec的神经网络模型计算输出词向量,在计算过程中通过CBOW模型嵌入初始词向量。同时,通过词关系分类模型在计算输出词向量的同时,同步计算出该输出词向量与指定词向量之间的关系。具体地,如图2所示,利用word2vec的CBOW模型将输入词向量Wi-m至Wi+m输入到word2vec神经网络型中计算得到输出词向量Wi。然后将Wi输入到霍夫曼模型hierarchicalsoftmax中计算输出向量的概率,按照现有技术通过霍夫曼模型输出的概率来修正神经网络模型的神经网络参数和输出向量,使神经网络模型之后获得的输出词向量更加准确。在计算输出词向量的同时,通过词关系分类模型,即词关系分类模型计算输出词向量Wi与指定词向量Wk之间的关系。具体地,词关系分类模型,包括依次连接的输入层、拼接层、全连阶层fullyconnectedlayer以及概率层softmax。第四步,多任务学习。在向word2vec输入多个词向量的同时,通过词关系模型的输入层向词关系分类模型输入指定词向量Wk。然后,在神经网络模型输出Wi的同时,将Wi和Wk将输入的拼接层,两个向量按照基本的数学公式重组特征形成行向量,重组后的行向量为WiWkWi-WkWi°WkCosWi,Wk,再通过全连接层的网络重新映射,最后由softmax分类器实现词关系分类和误差计算,得到按照预定维度设置的两个词向量之间的关系。假设word2vec选用Cbow,Cbow的窗口选择为2m+1。[Wi-m,...,Wi+m]是除Wi外一个窗口的向量化的语料数据。Wk是Wi的关系词,即指定词向量,这两个词向量的关系表示为labelWi,Wk。这个变量代表Wi和Wk的关系。本实施例中,labelWi,Wk等于{同义词、同位词、上位词、下位词、无关词、未知}中每一特征维度计算的相似性概率,labelWi,Wk通过词关系分类模型计算得到。本方法采用神经网络模型和分类器模型的输出和标注联合训练,把两个模型的损失用对数化的概率形式表示再相加得到整个网络的损失函数,如下:Loss=logPWi|Wi-m,...,Wi+m+s*logPlabelWi,Wk|Wi,Wk其中,s是预先设定的系数,例如取s=0.5。在获得损失函数后,利用损失函数采用神经网络误差反向传播的机制学习网络参数,其中网络参数是神经网络自带的,通过损失函数不断修正网络参数,使神经网络模型得到的输出词向量更加准确。同时,利用误差反向传播的机制学习分类器模型中的全连阶层参数,使全连阶层参数在词向量关系的逐渐计算过程中被不断训练优化,使最后得到的词关系分类模型能够准确计算出两个词向量之间的关系。第五步,更新网络参数和全连阶层参数,得到优化后的深度神经网络模型,即得到更新后的word2vec神经网络模型和词关系分类模型。在具体应用的时候,随机输入某一个词向量相邻的词向量,经过神经网络模型得到输出词向量Wi,同时输入指定词向量Wk,经过分类器模型的迭代计算得到词向量Wi与词向量相关的Wk两者之间的关系labelWi,Wk。经过以上步骤,在训练完成后,不仅能够获得词对应的词向量,同时能够根据分类器模型计算出该词向量与指定词向量之间的关系。本方法在现有的word2vec基础上,增加了词和词关系的分类器,采用神经网络多任务学习的机制同时学习词向量和词词关系,在CBOW词向量模型进行学习的过程中,通过词关系分类模型将每个词向量与其他词向量的关系进行预测和定义。如图2所示,本方法具体地采用两个网络的输出和标注联合训练,左边网络是基于霍夫曼树的vec2vecCBOW网络,右边是词关系分类网络。把左右两网络的损失用对数化的概率形式表示再相加,作为网络的损失函数。训练完成后,不仅能够得到词所对应的词向量,而且能够预测两个词的词关系。这种词关系在自然语言的文本相似度计算、信息检索等多个技术领域都有非常重要的作用。另外,在训练过程中告诉神经网络词的先验知识,有助于消除低频词的学习不充分的情况。比如:“张三”和“李四”是同义词,训练文本中“李四”出现的频次很多,认为可以被充分训练,而“张三”出现的频次很少,按照传统的word2vec不能够都充分训练。在本发明的网络中,训练张三时,基于词词分类网络和“李四”的词向量,通过误反向传播机制,可以更新“张三”词向量,所以本发明网络有助于消除低频词的学习不充分的情况。同理,在训练过程中告诉神经网络词的先验知识,基于词词分类网络增强了输入的两个有先验关系的词向量区别和联系,克服了原有word2vec网络模型中词向量只与依赖文本相关的机制上的不足。以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

权利要求:1.一种监督的词向量学习方法,其特征在于:包括以下步骤:步骤一,通过在word2vec神经网络模型的基础上增加词关系分类模型,搭建深度学习网络模型;步骤二,将多个相邻的输入词向量和某一指定词向量输入到深度学习网络模型中进行多任务学习;步骤三,重复步骤四,进行迭代计算,得到优化后的word2vec神经网络模型和词关系分类模型。2.根据权利要求1所述的监督的词向量学习方法,其特征在于:在步骤一之前,将语料文本分词,建立词表和与词表对应的初始词向量。3.根据权利要求2所述的监督的词向量学习方法,其特征在于:根据词表,标注语料文本中每个词向量与词向量彼此之间的关系。4.根据权利要求1所述的监督的词向量学习方法,其特征在于:在步骤一中,词关系分类模型包括依次连接的输入层、拼接层、全连阶层以及概率层;其中拼接层将经过word2vec神经网络模型计算得到的输出向量Wi和输入到词关系分类模型的指定向量Wk按照以下公式进行拼接:[Wi,Wk,Wi-Wk,Wi°Wk,CosWi,Wk]。5.根据权利要求2所述的监督的词向量学习方法,其特征在于:在步骤二中,通过初始词向量来定义输入词向量和指定词向量。6.根据权利要求5所述的监督的词向量学习方法,其特征在于:在步骤二中,采用连续池袋模型向word2vec的神经网络模型输入与输出词向量相邻的多个词向量作为输入词向量。7.根据权利要求4所述的监督的词向量学习方法,其特征在于:在步骤二中,在进行多任务学习时,word2vec神经网络盘模型在计算输出向量Wi的同时,词关系分类模型计算出Wi和Wk的关系labelWk,Wi。8.根据权利要求1所述的监督的词向量学习方法,其特征在于:在步骤二中,word2vec神经网络通过误差反向传播机制对神经网络参数进行优化,误差包括霍夫曼树的分类误差和词关系分类误差。9.根据权利要求1所述的监督的词向量学习方法,其特征在于:在步骤二中,词关系分类模型通过神经网络误差反向传播机制对全连接层参数进行优化。10.根据权利要求1所述的监督的词向量学习方法,其特征在于:在步骤三中,将随机选出的多个输入向量和指定向量分别输入到word2vec神经网络模型和词关系分类模型中,计算得到一个输出词向量以及该输出词向量与指定词向量之间的关系。

百度查询: 重庆邂智科技有限公司 一种监督的词向量学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。