买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于深度学习的文本情感分类表示方法_天津大学_201711137565.4 

申请/专利权人:天津大学

申请日:2017-11-16

公开(公告)日:2021-04-27

公开(公告)号:CN108009148B

主分类号:G06F40/295(20200101)

分类号:G06F40/295(20200101);G06F16/35(20190101);G06N3/04(20060101);G06N3/08(20060101)

优先权:

专利状态码:失效-未缴年费专利权终止

法律状态:2022.10.28#未缴年费专利权终止;2018.06.01#实质审查的生效;2018.05.08#公开

摘要:本发明涉及一种基于深度学习的文本情感分类表示方法,包括:文本预处理;词语向量化:a.分布式词语特征向量表示;b.浅层词语特征向量化表示;将词语的分布式特征与浅层特征进行融合,得到特征融合矩阵;利用卷积神经网络提取抽象特征;利用句子特征训练文本情感分类模型。

主权项:1.一种基于深度学习的文本情感分类表示方法,包括下列步骤:1文本预处理a.数据描述:针对文本进行情感分类,数据类别包括正向情感,中性情感,负向情感;b.构造数据集:经过数据清洗之后,在数据中随机选择80%的数据作为训练数据,剩余20%作为分类模型性能评估的测试数据,全部数据用于训练词向量矩阵;2词语向量化:a.分布式词语特征向量表示:设一条文本s由n个词构成,经分词预处理后词语序列为W={w1,w2,...,wn},每个词都用k维向量表示;词性序列为POS={pos1,pos2,...,posn},每个词的词性都用m维向量表示,其中,词语与词性的向量表示均由word2vec工具训练得到;b.浅层词语特征向量化表示:对于一条文本,经分词预处理后词语序列表示为NEG={neg1,neg2,...,negn},将语句的命名实体识别结果表示为二值向量,其中该词语若为命名实体则设置为0,否则为1,引入每个文本中词语的位置信息,表示为P={p1,p2,...,pn}={1,2,...,n};c.将词语的分布式特征与浅层特征进行融合,每个词语表示为k+m+2长度的向量,令l=k+m+2,那么每一条文本表示为l×n的特征融合矩阵;3利用卷积神经网络提取抽象特征:该卷积神经网络由输入层和卷积层组成,其中输入层为某条文本经步骤1和2后得到的特征融合矩阵,而卷积层又分为卷积和池化两部分,首先利用不同长度的卷积核对输入层的矩阵依次进行卷积,并通过Sigmoid激活函数得到相应的不同长度的卷积结果;为使结果归一化,采用池化方法选取每个卷积核卷积后的最大值作为该卷积核下的局部特征,用局部特征代替文本的抽象特征;4根据步骤3得到的句子特征训练文本情感分类模型。

全文数据:基于深度学习的文本情感分类表示方法技术领域[0001]本发明涉及一种文本情感分类表示方法。背景技术[0002]为了使计算机能够处理文本,必须将文本表示成计算机可以处理的数学向量。目前文本表示模型主要包括向量空间模型、概率模型、语言模型。[0003]向量空间模型(VSM把文本内容的处理简化为向量空间中的向量运算,并且以向量空间中的相似度表示文本语义的相似度。其中文本向量化过程如下:1分词;2去停用词;3特征词项选择;4计算特征项权重;5特征归一化。其中特征词项权重计算方法有布尔权值计算、词频权值计算、词频反文档频率。每个词项的权重代表其重要程度。[0004]概率模型是一种基于概率排队原理的文本表示模型。概率排队原则为当文本按照概率降序的原则进行排列时,可以获得最好的检索性能。对于用户给定的查询,概率模型计算所有文档的概率,并按照文档概率的大小对文本进行降序排列。概率模型是利用词条与词条以及词条与文档之间的概念相关性来进行信息检索的文本表示模型,它克服了VSM模型和布尔模型忽略词条相关性的缺点。[0005]语言模型定义了自然语言中标记序列的概率分布。根据具体模型的设计,标记可以是词、字符甚至是字节。其中标记代表离散的实体。最早成功的语言模型是基于固定长度序列的标记模型,称作n-granun-gram是一个包含η个标记的序列。其基本假设为,当前标记进入前面η-1个标记相关。不同于n-gram,神经网络语言模型通过神经网络学习词的分布式表示,使得模型能够在识别两个相似词的同时不丧失对每个词编码为不同值能力。[0006]信息处理任务的困难与否很大程度取决于信息的表示形式。这是一个广泛适用于日常生活、科学计算以及机器学习的基本原则。在机器学习中,在数据处理过程中找到与任务对应的恰当的表现形式有助于模型的训练。基于深度学习的表示学习没有给学成的中间特征明确强加任何条件,而其他的表示学习算法往往会以某种特定的表示方式明确设计表示。目前基于深度学习的文本表示方法利用分布式词向量的线性表达能力和深度学习模型有助于提升文本特征的抽象能力。发明内容[0007]本发明的目的是提供一种基于深度学习的文本表示方法,应用于文本情感分类。该表示方法融合词语的深层特征与浅层特征,经过卷积神经网络CNN学习句子的向量表示。可以有效利用句子信息,有助于后续情感分类模型训练。技术方案如下:[0008]—种基于深度学习的文本情感分类表示方法,包括下列步骤:[0009]1文本预处理[0010]a.数据描述:针对文本进行情感分类,数据类别包括正向情感,中性情感,负向情感;[0011]b.构造数据集:经过数据清洗之后,在数据中随机选择80%的数据作为训练数据,剩余20%作为分类模型性能评估的测试数据,全部数据用于训练词向量矩阵;[0012]2词语向量化:[0013]a.分布式词语特征向量表示:设一条文本s由η个词构成,经分词预处理后词语序列为W={wi,W2,"_,wn},每个词都用k维向量表示;词性序列为POS={p〇Sl,p〇S2,"_,P〇Sn},每个词的词性都用m维向量表示,其中,词语与词性的向量表示均由word2vec工具训练得到;[0014]b.浅层词语特征向量化表示:对于一条文本,经分词预处理后词语序列表示为NEG={negi,neg2,…,negn},将语句的命名实体识别结果表示为二值向量,其中该词语若为命名实体则设置为〇,否则为1,引入每个文本中词语的位置信息,表示为P={Pl,p2,…,pn}={1,2,···,n};[0015]c.将词语的分布式特征与浅层特征进行融合,每个词语表示为k+m+2长度的向量,令I=k+m+2,那么每一条文本表示为IXη的特征融合矩阵;[0016]3利用卷积神经网络提取抽象特征:该卷积神经网络由输入层和卷积层组成,其中输入层为某条文本经步骤1和2后得到的特征融合矩阵,而卷积层又分为卷积和池化两部分,首先利用不同长度的卷积核对输入层的矩阵依次进行卷积,并通过Sigmoid激活函数得到相应的不同长度的卷积结果;为使结果归一化,可采用池化方法选取每个卷积核卷积后最大值作为该卷积核下的局部特征,用局部特征代替文本的抽象特征。[0017]4根据步骤3得到的句子特征训练文本情感分类模型。[0018]本发明有点在于:提出了一种基于浅层特征融合的词语级特征选择方法,该方法不同于传统特征提取方法,其不需要使用者拥有较强的先验知识。同时其向量表示将传统的词向量表示与词语本身特性进行融合,使得最终得到的词向量具有较为丰富的信息;如图1所示,提出一种通用框架,其中句子向量化模型可以根据具体任务对模型结构进行调整,或者使用循环神经网络进行表示。同时,情感分类器也可根据实际需求进行选择,实现较为灵活,具有一定的普适性。附图说明[0019]图1为基于深度学习的文本情感分类流程图[0020]图2为特征融合过程[0021]图3为基于卷积神经网络的文本子向量化过程具体实施方式[0022]本发明提出一种基于深度学习的文本情感分类表示方法,在分布式词向量表示之夕卜,融合了词语本身特性,得到文本中每个词语的向量表示。同时利用深度神经网络抽取文本的抽象特征。这种文本表示方式有助于后续情感分类模型的训练,使得情感分析更加精确。图1显示了本发明实现基于深度学习的文本情感分类的过程。图2显示了词语级别特征融合过程,融合之后的向量为F=r»图3显示了卷积实现文本特征提取的过程。[0023]具体包括下列步骤:[0024]2文本预处理[0025]c.数据描述:在本专利中,针对文本进行情感分类,数据类别包括正向情感,中性情感,负向情感。[0026]d.构造数据集:经过数据清洗之后,在数据中随机选择80%的数据作为训练数据。剩余20%作为分类模型性能评估的测试数据。其中全部数据用于训练词向量矩阵。[0027]2词语向量化:[0028]a.分布式词向量表示:设一条文本s由η个词构成,经分词预处理后词语序列为W={wi,W2,…,wn}每个词都用k维向量表示;词性序列为POS={p〇Sl,p〇S2,…,posn},每个词的词性都用m维向量表示。其中,词语与词性的向量表示均由word2vec工具训练得到。[0029]b.浅层词语特性向量化表示:设一条文本s由η个词构成,经分词预处理后词语序列表示为NEG={negi,neg2,…,negn},将语句的命名实体识别结果表示为二值向量,其中该词语若为命名实体则设置为0,否则为1。同时引入每个文本中词语的位置信息,表示为P={pi,P2,…,Ρη}={1,2,···,η}〇[0030]C.将词语的分布式特征与浅层特征进行融合,每个词语表示为k+m+2长度的向量,令l=k+m+2。那么每一条文本表示为IXn的矩阵[0031]3利用卷积神经网络提取抽象特征:该卷积神经网络由输入层和卷积层组成,其中输入层为某条文本经步骤1和2后得到的矩阵,而卷积层又分为卷积和池化两部分,首先利用不同长度的卷积核对输入层的矩阵依次进行卷积,并通过Sigmoid激活函数得到相应的不同长度的卷积结果;为使结果归一化,可采用池化方法选取每个卷积核卷积后最大值作为该卷积核下的局部特征,用局部特征代替文本的抽象特征。[0032]4根据步骤3得到的句子特征训练文本情感分类模型。[0033]本发明使用中应根据具体使用场景进行适当调整。基于word2VeC训练向量化矩阵时,应根据实际情况选择算法超参数,包括向量表示维数、语料迭代次数、word2vec训练方法等。一般情况下英文文本应映射为50维向量,中文文本映射为300维向量,同时注意在语料资源不足情况下应增加训练的迭代次数。针对长文本情感分类任务,本发明采用CNN对句子进行抽象特征提取,当句子长度较短或者长度差异较高时可以考虑利用RNN实现句子编码表示。最终情感分类模型也应根据实际应用场景选择恰当的分类器。

权利要求:I.一种基于深度学习的文本情感分类表示方法,包括下列步骤:1文本预处理a.数据描述:针对文本进行情感分类,数据类别包括正向情感,中性情感,负向情感;b.构造数据集:经过数据清洗之后,在数据中随机选择80%的数据作为训练数据,剩余20%作为分类模型性能评估的测试数据,全部数据用于训练词向量矩阵;2词语向量化:a.分布式词语特征向量表示:设一条文本s由η个词构成,经分词预处理后词语序列为W={wi,W2,...,wn},每个词都用k维向量表示;词性序列为POS={p〇Sl,p〇S2,...,posn},每个词的词性都用m维向量表示,其中,词语与词性的向量表示均由word2vec工具训练得到;b.浅层词语特征向量化表示:对于一条文本,经分词预处理后词语序列表示为NEG={negl,neg2,M_,negn},将语句的命名实体识别结果表示为二值向量,其中该词语若为命名实体则设置为〇,否则为1,引入每个文本中词语的位置信息,表示为Ρ={Ρΐ,ρ2,···,ρη}={1,2,···,η};c.将词语的分布式特征与浅层特征进行融合,每个词语表示为k+m+2长度的向量,令I=k+m+2,那么每一条文本表示为IXη的特征融合矩阵;3利用卷积神经网络提取抽象特征:该卷积神经网络由输入层和卷积层组成,其中输入层为某条文本经步骤1和2后得到的特征融合矩阵,而卷积层又分为卷积和池化两部分,首先利用不同长度的卷积核对输入层的矩阵依次进行卷积,并通过Sigmoid激活函数得到相应的不同长度的卷积结果;为使结果归一化,可采用池化方法选取每个卷积核卷积后最大值作为该卷积核下的局部特征,用局部特征代替文本的抽象特征。4根据步骤3得到的句子特征训练文本情感分类模型。

百度查询: 天津大学 基于深度学习的文本情感分类表示方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。