买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种微博短文本情感极性识别的方法、装置及存储介质_厦门市美亚柏科信息股份有限公司_201811583268.7 

申请/专利权人:厦门市美亚柏科信息股份有限公司

申请日:2018-12-24

公开(公告)日:2023-01-24

公开(公告)号:CN109815485B

主分类号:G06F40/30

分类号:G06F40/30;G06F40/289;G06N3/0464

优先权:

专利状态码:有效-授权

法律状态:2023.01.24#授权;2019.12.03#实质审查的生效;2019.05.28#公开

摘要:本发明提供了一种微博短文本情感极性识别的方法、装置及存储介质。该方法包括:抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征tc;计算每一条微博T的先验极性特征值SenScoret;使用深度卷积神经网络生成微博T的固定长度向量y′;基于所述微博上下文情感特征tc、先验极性特征值SenScoret和固定长度向量y′确定微博短文本的情感极性。本发明解决了微博向量表示维数爆炸和数据稀疏的问题,组合了不同层次的情感特征向量表示,能够更加全面和多样的描述微博文本的情感语义特征,从而提高微博短文情感极性识别的性能。

主权项:1.一种微博短文本情感极性识别的方法,其特征在于,包括以下步骤:抽取步骤,抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征tc;计算步骤,计算每一条微博T的先验极性特征值SenScoret;固定长度向量生成步骤,使用深度卷积神经网络生成微博T的固定长度向量y';固定长度向量生成步骤包括:映射子步骤,使用GloVe模型,训练微博文本语料,获得词或单词的词向量表,计算获得每条微博T的分布式词向量表示t=[w1,w2,...,wn],其中微博中的每个词或单词w都被映射为一个向量;特征向量生成子步骤,将分布式词向量表示t输入到深度卷积神经网络的卷积层,卷积层使用多个可变窗口大小h的卷积核,分别计算生成微博文本局部特征向量xi=fW·ti:i+h-1+b,连接多个文本局部特征向量,组成微博文本上下文情感信息特征向量其中fW·ti:i+h-1+b为一个阶跃函数,W为计算的网络权重,b是对应的偏执参数;向量再生子步骤,将分布式词向量表示t分别输入到前向GRU网络和后向GRU网络中,分别计算获得前向GRU输出序列和后向GRU输出序列连接和生成新向量全局特征生成子步骤,将微博上下文情感信息特征向量ct输入深度卷积神经网络的池化层,使用Top-K池化策略,生成固定长度向量,将局部语句特征整合为全局特征t′=kmax{ct};高级特征向量生成子步骤,新向量hn输入注意力机制神经网络ANN的注意力机制层,计算微博文本中各词的上下文权重值,输出带权重表示更高抽象层次的特征向量表示v;连接子步骤,连接向量t′和v,生成多层次文本语义向量固定长度向量生成子步骤,将特征向量ot输入深度卷积神经网络的池化层,使用最大池化策略,生成固定长度向量y′=max{v,t′};组成子步骤,将向量y′经过Flat转换为一阶向量y′d,连接微博先验极性特征向量SenScoret和上下文情感特征tc组成识别步骤,基于所述微博上下文情感特征tc、先验极性特征值SenScoret和固定长度向量y′确定微博短文本的情感极性。

全文数据:一种微博短文本情感极性识别的方法、装置及存储介质技术领域本发明涉及自然语言处理技术领域,特别是一种微博短文本情感极性识别的方法、装置及存储介质。背景技术以微博为代表的新兴社交媒体已经成为广大网络用户获取新闻资讯、社会交往、自我表达、分享观点、传播信息和社会参与的重要媒介,成为社会公共舆论、企业品牌和产品推广以及传统媒体传播的主要平台。截止2018年6月,全球微博服务站点Twitter月活跃用户达到3.26亿,中文微博平台新浪微博月度活跃用户数达到4.31亿,日活跃用户达到1.9亿。数以亿计的活跃用户来自不同的社会文化背景,遍布全球,每时每刻都在生成大量包含用户主观意见、情感的信息。这些文本信息包含着网民各种情绪、情感色彩和观点倾向。潜在用户通过阅读这些具有主观色彩的信息来了解大众舆论对于某一事件或产品的看法。针对特定应用需求,识别、分析和挖掘微博中所包含的有价值的用户情感、态度和意见信息,是当前互联网智能信息处理、数据挖掘、计算语言学等领域的一个热点研究问题,在政府管理、企业品牌和产品营销、消费者个体利益等方面均具有极其重要的意义。微博文本短小、语法结构不完整、而且表述随意和充斥噪声,使得微博文本情感极性识别面临更大的挑战。已有分类研究主要采用人工方式构建分类特征,分类特征多使用词袋模型,难以刻画词序信息并面临维数灾难和数据稀疏的问题,使得微博文本情感倾向判断速度慢,不适合对微博情况的快速分析。另外,微博文本经常出现“明褒暗贬”或隐式的表述方式,而人工构建特征的方式难以发现和描述这类隐含的语义关系。发明内容本发明针对上述现有技术中的缺陷,提出了如下技术方案。一种微博短文本情感极性识别的方法,包括以下步骤:抽取步骤,抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征tc;计算步骤,计算每一条微博T的先验极性特征值SenScoret;固定长度向量生成步骤,使用深度卷积神经网络生成微博T的固定长度向量y′;识别步骤,基于所述微博上下文情感特征tc、先验极性特征值SenScoret和固定长度向量y′确定微博短文本的情感极性。更进一步地,对所述微博文本进行抽取之前还进行获取用户发表的微博文本,清洗所述微博文本,删除微博中非文本字符、超链接、数字、一般标点符号和特殊符号,并对中文微博进行分词处理。更进一步地,所述先验极性特征值其中wi是微博中的词或单词项,n是微博T的长度,PMIwi,pos是词或单词项wi与正向情感分类的点互信息PMI,PMIwi,neg是词或单词项wi与负向情感分类的点互信息PMI,单词wi的情感值由情感字典获得。更进一步地,固定长度向量生成步骤包括:映射子步骤,使用GloVe模型,训练微博文本语料,获得词或单词的词向量表,计算获得每条微博T的分布式词向量表示t=[w1,w2,...,wn],其中微博中的每个词或单词w都被映射为一个向量;特征向量生成子步骤,将分布式词向量表示t输入到深度卷积神经网络的卷积层,卷积层使用多个可变窗口大小h的卷积核,分别计算生成微博文本局部特征向量xi=fW·ti:i+h-1+b,连接多个文本局部特征向量,组成微博文本上下文情感信息特征向量其中fW·ti∶i+h-1+b为一个阶跃函数,W为计算的网络权重,b是对应的偏执参数;向量再生子步骤,将分布式词向量表示t分别输入到前向GRU网络和后向GRU网络中,分别计算获得前向GRU输出序列和后向GRU输出序列连接和生成新向量全局特征生成子步骤,将微博上下文情感信息特征向量ct输入深度卷积神经网络的池化层,使用Top-K池化策略,生成固定长度向量,将局部语句特征整合为全局特征t′=kmax{ct};高级特征向量生成子步骤,新向量hn输入注意力机制神经网络ANN的注意力机制层,计算微博文本中各词的上下文权重值,输出带权重表示更高抽象层次的特征向量表示v;连接子步骤,连接向量t′和v,生成多层次文本语义向量固定长度向量生成子步骤,将特征向量ot输入深度卷积神经网络的池化层,使用最大池化策略,生成固定长度向量y′=max{v,t′};组成子步骤,将向量y′经过Flat转换为一阶向量y′d,连接微博先验极性特征向量SenScoret和上下文情感特征tc组成更进一步地,情感识别是对输出向量y使用softmax函数计算微博T属于主观情感正面或负面类别的概率值,概率值最大的类别作为微博T的情感极性类别。本发明还提出了一种微博短文本情感极性识别的装置,该装置包括:抽取单元,用于抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征tc;计算单元,用于计算每一条微博T的先验极性特征值SenScoret;固定长度向量生成单元,用于使用深度卷积神经网络生成微博T的固定长度向量y′;识别单元,基用于于所述微博上下文情感特征tc、先验极性特征值SenScoret和固定长度向量y′确定微博短文本的情感极性。更进一步地,对所述微博文本进行抽取之前还进行获取用户发表的微博文本,清洗所述微博文本,删除微博中非文本字符、超链接、数字、一般标点符号和特殊符号,并对中文微博进行分词处理。更进一步地,所述先验极性特征值其中wi是微博中的词或单词项,n是微博T的长度,PMIwi,pos是词或单词项wi与正向情感分类的点互信息PMI,PMIwi,neg是词或单词项wi与负向情感分类的点互信息PMI,单词wi的情感值由情感字典获得。更进一步地,固定长度向量生成单元包括:映射子单元,使用GloVe模型,训练微博文本语料,获得词或单词的词向量表,计算获得每条微博T的分布式词向量表示t=[w1,w2,...,wn],其中微博中的每个词或单词w都被映射为一个向量;特征向量生成子单元,将分布式词向量表示t输入到深度卷积神经网络的卷积层,卷积层使用多个可变窗口大小h的卷积核,分别计算生成微博文本局部特征向量xi=fW·ti:i+h-1+b,连接多个文本局部特征向量,组成微博文本上下文情感信息特征向量其中fW·yi∶i+h-1+b为一个阶跃函数,W为计算的网络权重,b是对应的偏执参数;向量再生子单元,将分布式词向量表示t分别输入到前向GRU网络和后向GRU网络中,分别计算获得前向GRU输出序列和后向GRU输出序列连接和生成新向量全局特征生成子单元,将微博上下文情感信息特征向量ct输入深度卷积神经网络的池化层,使用Top-K池化策略,生成固定长度向量,将局部语句特征整合为全局特征t′=kmax{ct};高级特征向量生成子单元,新向量hn输入注意力机制神经网络ANN的注意力机制层,计算微博文本中各词的上下文权重值,输出带权重表示更高抽象层次的特征向量表示v;连接子单元,连接向量t′和v,生成多层次文本语义向量固定长度向量生成子单元,将特征向量ot输入深度卷积神经网络的池化层,使用最大池化策略,生成固定长度向量y′=max{v,t′};组成子单元,将向量y′经过Flat转换为一阶向量y′d,连接微博先验极性特征向量SenScoret和上下文情感特征tc组成更进一步地,情感识别是对输出向量y使用softmax函数计算微博T属于主观情感正面或负面类别的概率值,概率值最大的类别作为微博T的情感极性类别。本发明还提出了一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。本发明的技术效果为:本发明所述的微博短文本情感极性识别方法在自动分析和挖掘微博文本的观点倾向时,先获取用户微博文本,再抽取计算微博文本上下文情感特征值和先验极性情感特征值,使用GloVe模型训练生成微博词向量表示,解决了微博向量表示维数爆炸和数据稀疏的问题,利用多窗口卷积操作,获取不同粒度的微博文本语义关系,使用门限循环网络,有效捕获和记忆微博上下文语义信息,多层卷积和池化组合从不同层次抽象微博文本语义表示,使用注意力机制网络,筛选出关注的重点语义信息,弥补循环神经网络语义表示偏向于最后或最前单词的问题,最后组合不同层次的情感特征向量表示,能够更加全面和多样的描述微博文本的情感语义特征,从而提高微博短文情感极性识别的性能。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。图1是根据本发明的实施例的一种微博短文本情感极性识别的方法的流程图。图2是根据本发明的所使用的分类网络结构示意图。图3是根据本发明的实施例的固定长度向量生成方法的流程图。图4是根据本发明的实施例的一种微博短文本情感极性识别的装置的结构图。图5是根据本发明的实施例的固定长度向量生成单元的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了一种微博短文本情感极性识别的方法,包括以下步骤:抽取步骤S101,抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征tc。在对微博文本进行抽取操作之前,可以使用编写好的用于获取微博文本的程序,通过官方提供的API接口获取真实的微博文本内容;然后清洗微博文本内容,一般包括删除微博中非文本字符信息、超链接、数字、一般标点符号和特殊符号等内容;这是因为微博内容由于表达形式多样,包含大量特殊符号、超链接和非文本字符以及不包含情感特征的内容,再进一步对文本进行处理前,删除这些信息,降低文本处理的词汇表空间,减少数据噪声信息。对中文微博进行分词操作。微博中的表情符号是一种显式的情感表达形式,利用表情符号表,转换表情符号为对应的情感值。英文微博文本中大写方式的单词是一种突出强调的表现,统计微博中大写单词数量作为情感特征的一项。微博中标点符号的重复是一种情绪或态度的突出强调,抽取这种重复标点符号的出现作为情感特征项。计算步骤S102,计算每一条微博T的先验极性特征值SenScoret。在计算步骤S102中,所述先验极性特征值其中wi是微博中的词或单词项,n是微博T的长度,PMIwi,pos是词或单词项wi与正向情感分类的点互信息PMI,PMIwi,neg是词或单词项wi与负向情感分类的点互信息PMI,单词wi的情感值由情感字典获得。微博观点倾向的表达体现在显式的微博词语的情感倾向和隐含在词语之间的语义关系中。计算微博词语所具有的情感特征值,作为显式情感倾向表达的特征。即本发明的方法中先计算一个先验极性特征值SenScoret,后续进行情感识别时考虑该因子,这是本发明的重要发明点之一。固定长度向量生成步骤S103,使用深度卷积神经网络生成微博T的固定长度向量y′。识别步骤S104,基于所述微博上下文情感特征tc、先验极性特征值SenScoret和固定长度向量y′确定微博短文本的情感极性。为了解决微博文本情况识别中面临维数灾难和数据稀疏的问题,使得微博文本情感倾向判断速度慢的技术问题,本发明采用固定长度向量以提高计算速度,本发明采用的分类网络的结构如图2所示,下面的介绍请结合图2及图3进行,所述固定长度向量生成步骤S103包括:映射子步骤S301,使用GloVe模型,训练微博文本语料,获得词或单词的词向量表,计算获得每条微博T的分布式词向量表示t=[w1,w2,...,wn],其中微博中的每个词或单词w都被映射为一个向量。使用GloVe模型,训练微博文本语料,获得微博单词的词向量表L∈Rk×|V|k是词向量的维度,V是语料库的规模。计算获得每条微博t的分布式词向量表示t=[w1,w2,...,wn],其中每个单词w都被映射为一个向量wi∈Rk。GloVe模型在“PenningtonJ,SocherR,ManningCD.GloVe:GlobalVectorsforWordRepresentation.”给出了定义和计算方法。特征向量生成子步骤S302,将分布式词向量表示t输入到深度卷积神经网络的卷积层,卷积层使用多个可变窗口大小h的卷积核,分别计算生成微博文本局部特征向量xi=fW·ti:i+h-1+b,连接多个文本局部特征向量,组成微博文本上下文情感信息特征向量其中fW·yi∶i+h-1+b为一个阶跃函数,W为计算的网络权重,b是对应的偏执参数。向量再生子步骤S303,将分布式词向量表示t分别输入到前向GRU网络和后向GRU网络中,分别计算获得前向GRU输出序列和后向GRU输出序列连接和生成新向量GRULongGatedRecurrentUnit,门限循环单元网络网络在“KyunghyunChoBvM,DzmitryBahdanau,YoshuaBengio.OnthePropertiesofNeuralMachineTranslation:Encoder-DecoderApproaches[J].arXiv:14091259”中提出并给出了网络结构定义。全局特征生成子步骤S304,将微博上下文情感信息特征向量ct输入深度卷积神经网络的池化层,使用Top-K池化策略,生成固定长度向量,将局部语句特征整合为全局特征t′=kmax{ct}。高级特征向量生成子步骤S305,新向量hn输入注意力机制神经网络ANN的注意力机制层,计算微博文本中各词的上下文权重值,输出带权重表示更高抽象层次的特征向量表示v。ANNAttentioninNeuralNetworks网络在“IttiL,KochC,NieburE.Amodelofsaliency-basedvisualattentionforrapidsceneanalysis.IEEETransactionsonPatternAnalysis&MachineIntelligence,11:1254-1259”提出。连接子步骤S306,连接向量t′和v,生成多层次文本语义向量固定长度向量生成子步骤S307,将特征向量ot输入深度卷积神经网络的池化层,使用最大池化策略,生成固定长度向量y′=max{v,t′};组成子步骤S308,将向量y′经过Flat转换为一阶向量y′d,连接微博先验极性特征向量SenScoret和上下文情感特征tc组成在固定长度向量生成步骤S103中,使用GloVe模型训练生成微博词向量表示,解决了微博向量表示维数爆炸和数据稀疏的问题,利用多窗口卷积操作,获取不同粒度的微博文本语义关系,使用门限循环网络,有效捕获和记忆微博上下文语义信息,多层卷积和池化组合从不同层次抽象微博文本语义表示,使用注意力机制网络,筛选出关注的重点语义信息,弥补循环神经网络语义表示偏向于最后或最前单词的问题,最后组合不同层次的情感特征向量表示,能够更加全面和多样的描述微博文本的情感语义特征,从而提高微博短文情感极性识别的性能。这是发明的重要发明点之另一。情感识别是对输出向量y使用softmax函数计算微博T属于主观情感正面或负面类别的概率值,概率值最大的类别作为微博T的情感极性类别。计算微博属于主观正面或负面情感分类概率值:进一步参考图4,作为对上述图1所示装置的实现,本申请提供了一种微博短文本情感极性识别的装置的一个实施例,该装置实施例与图1所示的装置实施例相对应,该装置具体可以包含于各种电子设备中。图4示出了本发明的一种微博短文本情感极性识别的装置,包括:抽取单元401,抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征tc。在对微博文本进行抽取操作之前,可以使用编写好的用于获取微博文本的程序,通过官方提供的API接口获取真实的微博文本内容;然后清洗微博文本内容,一般包括删除微博中非文本字符信息、超链接、数字、一般标点符号和特殊符号等内容;这是因为微博内容由于表达形式多样,包含大量特殊符号、超链接和非文本字符以及不包含情感特征的内容,再进一步对文本进行处理前,删除这些信息,降低文本处理的词汇表空间,减少数据噪声信息。对中文微博进行分词操作。微博中的表情符号是一种显式的情感表达形式,利用表情符号表,转换表情符号为对应的情感值。英文微博文本中大写方式的单词是一种突出强调的表现,统计微博中大写单词数量作为情感特征的一项。微博中标点符号的重复是一种情绪或态度的突出强调,抽取这种重复标点符号的出现作为情感特征项。计算单元402,计算每一条微博T的先验极性特征值SenScoret。在计算单元402中,所述先验极性特征值其中wi是微博中的词或单词项,n是微博T的长度,PMIwi,pos是词或单词项wi与正向情感分类的点互信息PMI,PMIwi,neg是词或单词项wi与负向情感分类的点互信息PMI,单词wi的情感值由情感字典获得。微博观点倾向的表达体现在显式的微博词语的情感倾向和隐含在词语之间的语义关系中。计算微博词语所具有的情感特征值,作为显式情感倾向表达的特征。即本发明的方法中先计算一个先验极性特征值SenScoret,后续进行情感识别时考虑该因子,这是本发明的重要发明点之一。固定长度向量生成单元403,使用深度卷积神经网络生成微博T的固定长度向量y′。识别单元404,基于所述微博上下文情感特征tc、先验极性特征值SenScoret和固定长度向量y′确定微博短文本的情感极性。为了解决微博文本情况识别中面临维数灾难和数据稀疏的问题,使得微博文本情感倾向判断速度慢的技术问题,本发明采用固定长度向量以提高计算速度,本发明采用的分类网络的结构如图2所示,下面的介绍请结合图2及图5进行,所述固定长度向量生成单元403包括:映射子单元501,使用GloVe模型,训练微博文本语料,获得词或单词的词向量表,计算获得每条微博T的分布式词向量表示t=[w1,w2,...,wn],其中微博中的每个词或单词w都被映射为一个向量。使用GloVe模型,训练微博文本语料,获得微博单词的词向量表L∈Rk×|V|k是词向量的维度,V是语料库的规模。计算获得每条微博t的分布式词向量表示t=[w1,w2,...,wn],其中每个单词w都被映射为一个向量wi∈Rk。GloVe模型在“PenningtonJ,SocherR,ManningCD.GloVe:GlobalVectorsforWordRepresentation.”给出了定义和计算方法。特征向量生成子单元502,将分布式词向量表示t输入到深度卷积神经网络的卷积层,卷积层使用多个可变窗口大小h的卷积核,分别计算生成微博文本局部特征向量xi=fW·yi∶i+h-1+b,连接多个文本局部特征向量,组成微博文本上下文情感信息特征向量其中fW·yi∶i+h-1+b为一个阶跃函数,W为计算的网络权重,b是对应的偏执参数。向量再生子单元503,将分布式词向量表示t分别输入到前向GRU网络和后向GRU网络中,分别计算获得前向GRU输出序列和后向GRU输出序列连接和生成新向量GRULongGatedRecurrentUnit,门限循环单元网络网络在“KyunghyunChoBvM,DzmitryBahdanau,YoshuaBengio.OnthePropertiesofNeuralMachineTranslation:Encoder-DecoderApproaches[J].arXiv:14091259”中提出并给出了网络结构定义。全局特征生成子单元504,将微博上下文情感信息特征向量ct输入深度卷积神经网络的池化层,使用Top-K池化策略,生成固定长度向量,将局部语句特征整合为全局特征t′=kmax{ct}。高级特征向量生成子单元505,新向量hn输入注意力机制神经网络ANN的注意力机制层,计算微博文本中各词的上下文权重值,输出带权重表示更高抽象层次的特征向量表示v。ANNAttentioninNeuralNetworks网络在“IttiL,KochC,NieburE.Amodelofsaliency-basedvisualattentionforrapidsceneanalysis.IEEETransactionsonPatternAnalysis&MachineIntelligence,11:1254-1259”提出。连接子单元506,连接向量t′和v,生成多层次文本语义向量固定长度向量生成子单元507,将特征向量ot输入深度卷积神经网络的池化层,使用最大池化策略,生成固定长度向量y′=max{v,t′};组成子单元508,将向量y′经过Flat转换为一阶向量y′d,连接微博先验极性特征向量SenScoret和上下文情感特征tc组成在固定长度向量生成单元403中,使用GloVe模型训练生成微博词向量表示,解决了微博向量表示维数爆炸和数据稀疏的问题,利用多窗口卷积操作,获取不同粒度的微博文本语义关系,使用门限循环网络,有效捕获和记忆微博上下文语义信息,多层卷积和池化组合从不同层次抽象微博文本语义表示,使用注意力机制网络,筛选出关注的重点语义信息,弥补循环神经网络语义表示偏向于最后或最前单词的问题,最后组合不同层次的情感特征向量表示,能够更加全面和多样的描述微博文本的情感语义特征,从而提高微博短文情感极性识别的性能。这是发明的重要发明点之另一。情感识别是对输出向量y使用softmax函数计算微博T属于主观情感正面或负面类别的概率值,概率值最大的类别作为微博T的情感极性类别。计算微博属于主观正面或负面情感分类概率值:为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和或硬件中实现。通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROMRAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备可以是个人计算机,服务器,或者网络设备等执行本申请各个实施例或者实施例的某些部分所述的方法。最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

权利要求:1.一种微博短文本情感极性识别的方法,其特征在于,包括以下步骤:抽取步骤,抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征tc;计算步骤,计算每一条微博T的先验极性特征值SenScoret;固定长度向量生成步骤,使用深度卷积神经网络生成微博T的固定长度向量y′;识别步骤,基于所述微博上下文情感特征tc、先验极性特征值SenScoret和固定长度向量y′确定微博短文本的情感极性。2.根据权利要求1所述的方法,其特征在于,对所述微博文本进行抽取之前还进行获取用户发表的微博文本,清洗所述微博文本,删除微博中非文本字符、超链接、数字、一般标点符号和特殊符号,并对中文微博进行分词处理。3.根据权利要求1所述的方法,其特征在于,所述先验极性特征值其中wi是微博中的词或单词项,n是微博T的长度,PMIwi,pos是词或单词项wi与正向情感分类的点互信息PMI,PMIwi,neg是词或单词项wi与负向情感分类的点互信息PMI,单词wi的情感值由情感字典获得。4.根据权利要求3所述的方法,其特征在于,固定长度向量生成步骤包括:映射子步骤,使用GloVe模型,训练微博文本语料,获得词或单词的词向量表,计算获得每条微博T的分布式词向量表示t=[w1,w2,...,wn],其中微博中的每个词或单词w都被映射为一个向量;特征向量生成子步骤,将分布式词向量表示t输入到深度卷积神经网络的卷积层,卷积层使用多个可变窗口大小h的卷积核,分别计算生成微博文本局部特征向量xi=fW·ti:i+h-1+b,连接多个文本局部特征向量,组成微博文本上下文情感信息特征向量其中fW·ti∶i+h-1+b为一个阶跃函数,W为计算的网络权重,b是对应的偏执参数;向量再生子步骤,将分布式词向量表示t分别输入到前向GRU网络和后向GRU网络中,分别计算获得前向GRU输出序列和后向GRU输出序列连接和生成新向量全局特征生成子步骤,将微博上下文情感信息特征向量ct输入深度卷积神经网络的池化层,使用Top-K池化策略,生成固定长度向量,将局部语句特征整合为全局特征t′=kmax{ct};高级特征向量生成子步骤,新向量hn输入注意力机制神经网络ANN的注意力机制层,计算微博文本中各词的上下文权重值,输出带权重表示更高抽象层次的特征向量表示v;连接子步骤,连接向量t′和v,生成多层次文本语义向量固定长度向量生成子步骤,将特征向量ot输入深度卷积神经网络的池化层,使用最大池化策略,生成固定长度向量y′=max{v,t′};组成子步骤,将向量y′经过Flat转换为一阶向量y′d,连接微博先验极性特征向量SenScoret和上下文情感特征tc组成5.根据权利要求4所述的方法,其特征在于,情感识别是对输出向量y使用softmax函数计算微博T属于主观情感正面或负面类别的概率值,概率值最大的类别作为微博T的情感极性类别。6.一种微博短文本情感极性识别的装置,其特征在于,该装置包括:抽取单元,用于抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征tc;计算单元,用于计算每一条微博T的先验极性特征值SenScoret;固定长度向量生成单元,用于使用深度卷积神经网络生成微博T的固定长度向量y′;识别单元,基用于于所述微博上下文情感特征tc、先验极性特征值SenScoret和固定长度向量y′确定微博短文本的情感极性。7.根据权利要求6所述的装置,其特征在于,对所述微博文本进行抽取之前还进行获取用户发表的微博文本,清洗所述微博文本,删除微博中非文本字符、超链接、数字、一般标点符号和特殊符号,并对中文微博进行分词处理。8.根据权利要求6所述的装置,其特征在于,所述先验极性特征值其中wi是微博中的词或单词项,n是微博T的长度,PMIwi,pos是词或单词项wi与正向情感分类的点互信息PMI,PMIwi,neg是词或单词项wi与负向情感分类的点互信息PMI,单词wi的情感值由情感字典获得。9.根据权利要求8所述的装置,其特征在于,固定长度向量生成单元包括:映射子单元,使用GloVe模型,训练微博文本语料,获得词或单词的词向量表,计算获得每条微博T的分布式词向量表示t=[w1,w2,...,wn],其中微博中的每个词或单词w都被映射为一个向量;特征向量生成子单元,将分布式词向量表示t输入到深度卷积神经网络的卷积层,卷积层使用多个可变窗口大小h的卷积核,分别计算生成微博文本局部特征向量xi=fW·ti:i+h-1+b,连接多个文本局部特征向量,组成微博文本上下文情感信息特征向量其中fW·yi∶i+h-1+b为一个阶跃函数,W为计算的网络权重,b是对应的偏执参数;向量再生子单元,将分布式词向量表示t分别输入到前向GRU网络和后向GRU网络中,分别计算获得前向GRU输出序列和后向GRU输出序列连接和生成新向量全局特征生成子单元,将微博上下文情感信息特征向量ct输入深度卷积神经网络的池化层,使用Top-K池化策略,生成固定长度向量,将局部语句特征整合为全局特征t′=kmax{ct};高级特征向量生成子单元,新向量hn输入注意力机制神经网络ANN的注意力机制层,计算微博文本中各词的上下文权重值,输出带权重表示更高抽象层次的特征向量表示v;连接子单元,连接向量t′和v,生成多层次文本语义向量固定长度向量生成子单元,将特征向量ot输入深度卷积神经网络的池化层,使用最大池化策略,生成固定长度向量y′=max{v,t′};组成子单元,将向量y′经过Flat转换为一阶向量y′d,连接微博先验极性特征向量SenScoret和上下文情感特征tc组成10.根据权利要求9所述的装置,其特征在于,情感识别是对输出向量y使用softmax函数计算微博T属于主观情感正面或负面类别的概率值,概率值最大的类别作为微博T的情感极性类别。11.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行权利要求1-5之任一的方法。

百度查询: 厦门市美亚柏科信息股份有限公司 一种微博短文本情感极性识别的方法、装置及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。