买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于ALBERT-BiLSTM模型和SVM-NB分类的文本情绪识别方法_武汉科技大学_202210623982.4 

申请/专利权人:武汉科技大学

申请日:2022-06-02

公开(公告)日:2024-04-16

公开(公告)号:CN114861632B

主分类号:G06F40/211

分类号:G06F40/211;G06F40/284;G06F40/289;G06F18/2411;G06N3/0442;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2022.08.23#实质审查的生效;2022.08.05#公开

摘要:一种基于ALBERT‑BiLSTM模型和SVM‑NB分类的文本情绪识别方法,步骤包括:对文本进行分词、去停用词、去除乱码等预处理,并打上相应的标签,然后使用ALBERT预训练模型进行训练,获取文本信息的动态特征表示,接着使用BiLSTM网络进行训练,获得词向量相关特征,最后利用SVM‑NB分类器先将情感极性分为积极和消极两种,进而将消极情绪细分为愤怒、低落、厌恶三种。本发明结合了ALBERT预训练语言模型与由双向LSTM叠加形成的循环神经网络BiLSTM以及SVM‑NB分类,采用句子向量进行预训练,而并非词向量,在训练模型时能够更好的结合上下文语句信息,能提高情绪识别的准确率,同时能够做到多种不同情感的识别,取得的效果较为明显。

主权项:1.一种基于ALBERT-BiLSTM模型和SVM-NB分类的文本情绪识别方法,其特征在于包括以下步骤:步骤1对文本进行分词、去停用词、去除乱码预处理,包括以下步骤:步骤1.1使用的是jieba库进行分词、去停用词、去除乱码操作,其中停用词指的是文档中一些十分常用但不会对文本含义造成影响的词汇;步骤1.2使用TF-IDF法,统计出重要单词在文本中出现的频率;单词wi的TF-IDF值计算公式: 其中fwi表示单词wi在文本中出现的频率,Dn表示文本总数,fnwi表示有单词wi出现的文本数量,通过对所有文本中的每一个单词都进项上述的分析,得到每一个单词的TF-IDF值,即可得到各个单词在文本中的重要程度;步骤2基于ALBERT预训练语言模型对文本进行预处理,包括以下步骤:步骤2.1利用输入层将步骤1中得到的文本数据输入到模型的ALBERT层中,输入的文本数据E={E1,E2...En}其中Ei表示该条文本中的第i个词;步骤2.2对输入的文本数据进行序列化,将文本数据X中的词向量转化成其在字典中相应的编号,序列化后的文本数据X∈{X1,X2...Xn}其中Xi表示文本中第i个词序列化之后的标号;步骤3将步骤2中得到的数据输入到BiLSTM神经网络,包括以下步骤:步骤3.1BiLSTM神经网络ForwardLayer按正向顺序进行读取,输出的向量集合为 其中为最后时刻前向隐层的特征向量;步骤3.2BiLSTM神经网络BackLayer按逆向顺序进行读取,输出的向量集合为 其中为最后时刻后向隐层的特征向量;步骤3.3将和拼接起来以获取文本最终的特征向量Hn,即BiLSTM的输出为 其中i为文本X的第i个词,且满足i≤n;步骤4将步骤3中得到的数据通过SVM-NB分类方法进行情绪分类,包括以下步骤:步骤4.1运用SVM分类,结合步骤3中得到的数据特征,将文本情绪分为积极和消极两类,同时为了方便对输入结果的理解,将SVM-NB层的SVM分类预测值λ大于情绪阈值α的情绪定义为积极情绪,λ小于情绪阈值α的情绪定义为消极情绪,取情绪阈值α=0.5;步骤4.2将步骤4.1中得到的情绪特征带入到朴素贝叶斯分类公式 进行朴素贝叶斯分类,式中X定义为“该情绪具有某特征”,Y定义为“该情绪属于某类”,将消极情绪细分为愤怒、厌恶以及悲伤,训练过程在于求解PX|Y,这个工作是通过进行文本数据的分析而来,具体为计算文本中某些特征的出现频率,如频数最大的一部分特征,所需数据在步骤1.1和步骤1.2中已经完成,朴素贝叶斯分类依赖于特征条件独立假设 式中ck表示的是该类情绪所具有的样本个数,由于各个情绪式中分母相同,因此只需要比较分子大小 由于一条文本内容可能会包含着多种情绪,因此,针对一种积极情绪和三种消极情绪共四种情绪的数据集分别进行训练得到四组测试集,将单个样例文本分别放入四种测试集中进行情绪预测得到fx情绪参数值μi,其中i=0、1、2、3,分别对应高兴、愤怒、厌恶以及悲伤情绪,定义情绪阈值参数βi,其中i=0、1、2、3;若得到的情绪参数值μi大于情绪阈值参数βi则认定该文本符合当前i所对应的情绪,若得到的情绪参数值μi小于情绪阈值参数βi则认定该文本不符合当前i所对应的情绪,取情绪参数阈值βi=0.5;通过比较各项乘积关系的大小即可确定特征所属文本的具体情绪。

全文数据:

权利要求:

百度查询: 武汉科技大学 一种基于ALBERT-BiLSTM模型和SVM-NB分类的文本情绪识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。