【发明授权】一种基于神经网络和幽默特征的幽默识别方法_大连理工大学_201810496016.4

导航：龙图腾网> 最新专利技术> 一种基于神经网络和幽默特征的幽默识别方法_大连理工大学_201810496016.4

申请/专利权人：大连理工大学

申请日：2018-05-22

公开（公告）日：2020-11-06

公开（公告）号：CN108874896B

主分类号：G06F16/35(20190101)

分类号：G06F16/35(20190101);G06F40/30(20200101);G06F40/247(20200101);G06F40/289(20200101);G06N3/04(20060101)

优先权：

专利状态码：有效-授权

法律状态：2020.11.06#授权;2018.12.18#实质审查的生效;2018.11.23#公开

摘要：一种基于神经网络和幽默特征的幽默识别方法，属于数据挖掘和自然语言处理领域，用以解决进行幽默识别的问题，要点是包括S1、幽默语料采集及预处理；S2、幽默特征提取；S3、文本的词向量表示；S4、神经网络模型构建；S5、幽默识别结果评价，效果是：对特定形式的幽默数据进行采集和预处理，根据相关成熟的幽默理论，充分考虑到幽默文本的语音特性，构造幽默的语音特征；利用幽默的模糊性特性，提取了句子中拥有同义词最多的词作为特征词并对其进行向量化；采用了深度学习方法，提取了幽默文本背后深层次的语义特征，并将幽默的语音特征和模糊性特征融合到神经网络当中，从而进行幽默识别，在数据集上的实验验证了本发明方法对幽默识别的有效性。

主权项：1.一种基于神经网络和幽默特征的幽默识别方法，其特征在于，包括以下步骤：S1、幽默语料采集及预处理步骤：a1、幽默语料采集：从网站上获取幽默的文本以及文本的评价信息；对文本ID进行编号作为文本的唯一标识；采集网站幽默的内容作为幽默文本候选集；从所述网站获取文本幽默的评价信息作为衡量文本幽默程度的标准；采集其他形式的文本作为非幽默文本的候选集，幽默语料为单句；a2、预处理步骤：对幽默文本候选集和非幽默文本候选集进行数据清洗，删除文本中的特殊字符和不可识别字符；标注幽默文本；根据句子长度相近和正负例所用词典一致原则从非幽默文本候选集中选取非幽默文本；对幽默文本和非幽默文本进行分词处理；S2、幽默特征提取步骤：b1、幽默的语音特征提取：对步骤S1得到的句子的词语集合，利用发音词典，提取句子的幽默语音特征向量P；b2、幽默的不一致性特征提取：对步骤S1得到的句子的词语集合，利用语义资源和词向量工具，提取幽默句子不一致性的特征向量Q；S3、基于神经网络的文本的词向量表示步骤：c1、词向量获取：获取语料，包括维基百科语料和笑话语料，作为训练词向量的语料集，使用词向量工具训练词向量，从而得到幽默文本和非幽默文本中每个词的低维稠密向量；c2、文本的词向量表示：利用c1获取的词向量将步骤S1得到的幽默句子和非幽默句子表示为n×m×d的词嵌入式矩阵，n为样本的数量，m为每个样本包含的单词数量，d为词向量的维度；c3、模糊性特征词抽取：对步骤S1得到的每个句子的词语集合，利用语义资源提取同义词集合Synseti＝{synset1，synset2，…，synsetj，…，synsetn}，i为句子中的第i个单词，n为同义词集个数，synsetj为同义词语意单元；利用同义词语意资源由synsetj得到每个同义词集的意义相近的单词集合synWordsi＝{W11，W12，…，W1m，…，Wn1，…，Wnm}，m为synsetj的同义词数量，去除synWordsi重复单词，计算句子中synWordsi最多的单词，句子中拥有近义词数量最多的单词作为幽默的模糊性特征词；c4、模糊性特征词向量表示：每个句子可能抽取出一个或多个有关幽默的模糊性特征的单词，若句子只包含一个特征词，则利用有关词向量方法和c1获取的词向量将特征词表示为向量形式T；若句子中包含多个特征词，则使用它们的平均词向量作为模糊性特征词向量；S4、神经网络模型构建步骤：d1、模型的输入：根据步骤c4得到的幽默的模糊性特征词向量T，将其与句子中的每一个单词的词向量wt进行拼接，作为模型的输入词向量；d2、构建幽默识别模型：利用循环神经网络提取d1中得到的输入的潜在语义特征，得到文本的隐层向量表示；d3、注意力机制幽默识别:采用注意力机制进行幽默识别，加大模糊性特征词及其周围词的权重，提高幽默识别的性能；d4、计算句子的平均词向量表示：根据步骤d3得到的幽默句子的隐层表示，计算句子的平均词向量表示；d5、融合幽默特征：将步骤b1中提取的幽默的语音特征和步骤b2提取的幽默的不一致性特征与步骤d4得到的句子的平均词向量表示进行拼接，得到句子的向量表示；d6、幽默识别：根据步骤d5得到的幽默句子的隐层表示s，计算句子是否是幽默语句的概率，从而最终判断给定的句子是幽默文本或非幽默文本；S5、幽默识别结果评价步骤：根据评价指标对幽默识别的结果进行评价。

全文数据：一种基于神经网络和幽默特征的幽默识别方法技术领域[0001]本发明涉及数据挖掘和自然语言处理领域，尤其是一种基于神经网络和幽默特征的幽默识别方法。背景技术[0002]随着人工智能的快速发展，幽默识别成为了自然语言处理中一个非常有趣热门的研究问题。幽默是一种特殊的语言表达形式，它能够活跃气氛，化解尴尬，维基百科中，幽默被定义为一种使人发笑的品质或使人发笑的能力。毫无疑问，人与人的交往中如果没有幽默，那么人的交际能力是不完整的。而在人机交互领域，问答系统、对话系统已经在很多家用产品中得以应用，人与计算机的交互也变得越来越普遍，如果能够使得计算机理解并使用幽默，计算机将更加人性化，计算机与人的交流也会更加顺畅，这也将成为人工智能时代人类的一项重大成就。使计算机能够理解并使用幽默，首先要让计算机具有幽默识别的能力。[0003]幽默识别任务就是让计算机能够自动的识别出给定的段落或句子是否是幽默的。幽默识别任务在自然语言处理领域仍然是一个具有挑战性的任务。首先，幽默的形式种类多种多样，很难对幽默的形式给出准确的定义和划分;其次，一些幽默需要较长的上下文信息进行铺垫;此外，许多幽默的理解需要发现文本内容背后大量的常识知识，需要对文本内容进行多次的加工，换句话说，幽默是一种潜在的语义表示，是人类语言的高级抽象形式。[0004]使计算机识别所有形式的幽默超出了计算机现有的计算能力，本发明将幽默识别的研究范围限定为句子级别。一个仅包含少量单词的句子具有幽默的效果，通常该句子会存在一些特别的语法结构或语义形式，这也为计算机能够自动寻找和学习幽默背后的特征提供了有迹可循的线索。[0005]幽默的理论研究可以追溯到上个世纪90年代，其中最具有影响力的幽默理论是语义脚本理论（SSTH等。根据幽默的相关理论，许多研究者投入到幽默计算的研究当中，Taylor等人采集了推特中的幽默文本并进行了标注，从幽默的语义特点和结构特点出发构造了一系列幽默特征，采用传统的机器学习方法对幽默进行了识别。[0006]目前对文本的幽默识别研究较少，大多数研究从幽默的理论出发，人工构造一些幽默的特征，采用传统的文本表示方法和分类算法进行幽默识别，识别的效果欠佳。而将深度学习方法应用于幽默识别还处于简单应用阶段，没有结合幽默的特征来进行文本的幽默识别。发明内容[0007]本发明的目的是提供一种能够有效避免传统的特征工程方法需要人工构造大量幽默特征的缺点，为用户提供一种结合少量幽默特征的自动对文本进行幽默识别的方法。[0008]本发明解决现有技术问题所采用的技术方案:一种基于神经网络和幽默特征的幽默识别方法，包括以下步骤：[0009]si、幽默语料采集及预处理步骤：[0010]al、幽默语料采集:从网站上获取幽默的文本以及文本的评价信息;对文本ID进行编号作为文本的唯一标识，便于存储和今后使用;采集网站幽默的内容作为幽默文本候选集;从所述网站获取文本幽默的评价信息作为衡量文本幽默程度的标准;采集新闻等形式的文本作为非幽默文本的候选集。幽默语料为单句。[0011]a2、预处理步骤:对幽默文本候选集和非幽默文本候选集进行数据清洗，删除文本中的特殊字符和不可识别字符;根据幽默评价信息，将评价得分较高的文本自动标注为幽默文本，即正例，并对自动标注信息进行人工审核;根据句子长度相近和正负例所用词典一致词典由正例不重复单词生成，如果非幽默成本中含有非词典中词汇，此非幽默文本不被选取两条原则从非幽默文本候选集中选取非幽默文本，即负例;对幽默文本和非幽默文本进行分词处理。[0012]S2、幽默特征提取步骤：[0013]bl、幽默的语音特征提取:对步骤SI得到的句子的词语集合，利用发音词典，将英文单词表示成音素的形式;提取句子中单词头部发音相同的单词个数、句子中单词头部发音相同的音素的最大长度、句子中单词尾部发音相同的单词个数、句子中单词尾部发音相同的音素的最大长度，即压头韵的单词个数、头韵链的最大长度、压尾韵单词个数、尾韵链的最大长度作为幽默的语音特征，从而得到4维的特征向量P。[0014]b2、幽默的不一致性特征提取:对步骤Sl得到的句子的词语集合，判断句子中是否有反义词对;利用步骤cl得到的词向量，将词语表示成低维稠密向量，计算句子中任意两个词的语义距离，计算语义距离最大值和语义距离最小值，将是否有反义词对，语义距离最大值和语义距离最小值作为幽默的不一致性特征，得到3维特征向量Q。语意距离计算采用Cosine相似度，其计算公式如下：[0015][0016]similarityA,B表示两个单词向量的cosine语义距离。A和B分别表示句子中的任意两个单词，分别表示单词向量A和B的2-范数。[0017]S3、基于神经网络的文本的词向量表示步骤：[0018]cl、词向量获取:获取维基百科语料和笑话语料作为训练词向量的语料集，使用词向量工具训练词向量。得到幽默文本和非幽默文本中每个词的低维稠密向量。[0019]c2、文本的词向量表示:利用c1获取的词向量将步骤S1得到的幽默句子和非幽默句子表不为ηXmXd的词嵌入式矩阵，η为样本的数量，m为每个样本包含的单词数量，d为词向量的维度。[0020]C3、模糊性特征词抽取:对步骤Sl得到的每个句子的词语集合，利用同义词语义资源提取同义词集合Synseti={synseti，synset2，…，synsetj，…，synsetn}，i为句子中的第i个单词，η为同义词集个数，synsek为同义词语意单元;利用同义词语意资源由Synsetj得到每个同义词集的意义相近的单词集合m为synsetj的同义词数量，去除synWordsi重复单词，计算句子中synWordsi最多的单词，既句子中拥有近义词数量最多的单词作为幽默的模糊性特征词。[0021]c4、模糊性特征词向量表示:每个句子可能抽取出一个或多个有关幽默的模糊性特征的单词。若句子只包含一个特征词，则利用cl获取的词向量将特征词表示为向量形式T;若句子中包含多个特征词，则使用它们的平均词向量作为模糊性特征词向量，其计算公式如下：[0022][0023]T为特征词的平均词向量，N为句子中特征词的个数，Tn为第η个特征词的词向量。[0024]S4、神经网络模型构建步骤：[0025]dl、模型的输入:根据步骤c4得到的幽默的模糊性特征词向量T,T6'，将其与句子中的每一个单词的词向量wt进行拼接，作为模型的输入词向量Xt，Xte，其中携表不向量空间，d表示向量维度，输入向量可表示为：[0026][0027]d2、构建幽默识别模型：利用循环神经网络RNN提取dl中得到的输入Xt的潜在语义特征，得到文本的隐层向量表示。本发明采用了双向长短期记忆网络Bi-LSTM，其中每个细胞计算单元的计算公式如下：[0028][0029][0030][0031][0032][0033][0034]X’为LSTM输入向量Xt和（t-1时刻的隐层输出向量ht-i的拼接，ft，it，〇t分别为LSTM的遗忘门、输入门和输出门，Ct为LSTM的细胞单元，Wf，Wi，W。分别为LSTM模型遗忘门、输入门和输出门的参数矩阵，bf，bi，b。分别为LSTM模型遗忘门、输入门和输出门的偏执量，以上参数由LSTM模型学习获得，〇为sigmoid函数，tanh为正切函数，Wc表示细胞单元的参数，bc为细胞单元的偏执量，θ表示矩阵的按元素乘法，ht表示隐层输出。[0035]d3、注意力机制attention:注意力机制能够使模型在进行幽默识别时加大模糊性特征词及其周围词的权重，从而提高幽默识别的性能。根据步骤dl中得到的基于特定模糊性特征词T的情况下句子的词嵌入式表示Xt和步骤d2中得到的句子的隐层表示ht，计算句子中单词的权重向量Ci1和句子的隐层表示r，计算公式如下：[0038][0039]其中Wa为注意力机制的权重，ba为注意力机制的偏执量，T为句子中单词数量。[0036][0037][0040]d4、计算句子的平均词向量表示:根据步骤d3得到的幽默句子的隐层表示rt，计算句子的平均词向量表示s’，其计算公式如下：[0041][0042]d5、融合幽默特征:将步骤bl中提取的幽默的语音特征P和步骤b2提取的幽默的不一致性特征Q与步骤d4得到的句子的平均词向量表示s’进行拼接，得到句子的向量表示s，s的维度为三部分特征向量的维度之和，其计算公式如下：[0043][0044]d6、幽默识别:根据步骤d5得到的幽默句子的隐层表示s，计算句子是否是幽默语句的概率p，从而最终判断给定的句子是幽默文本或非幽默文本，其计算公式如下：[0045][0046]S5、幽默识别结果评价步骤:根据预设的评价指标对幽默识别的结果进行评价。[0047]预设的评价指标为精确率、准确率、召回率和Fl值，精确率计算公式如下：[0048][0049]准确率计算公式如下：[0050][0051]召回率公式如下：[0052][0053]Fl值公式如下：[0054][0055]其中TP表示分类器将正例判定为正例的样本数，TN表示分类器将负例判定为负例的样本数，FP表示分类器将负例判定为正例的样本数，FN表示分类器将正例判定为负例的样本数。附图说明[0056]图1为本发明的逻辑原理图[0057]图2为本发明实施例步骤S4模型原理图[0058]图3为本发明实施例的幽默识别结果具体实施方式[0059]以下结合附图及具体实施例对本发明进行说明：[0060]—种基于神经网络和幽默特征的幽默识别方法，包括以下步骤：[0061]S1、幽默语料采集及预处理步骤：[0062]al、幽默语料采集：[0063]利用网络爬虫技术，从WWW.punoftheday.com爬取英文的幽默语料，获取幽默的文本ID、文本内容，文本的评价信息。该网站上的幽默文本均为单句形式，通常句子的长度小于30个单词，每个句子的投票信息代表网友对该句是否幽默的认可程度。从所述网站爬取了幽默文本ID作为文本的唯一标识，爬取了文本内容作为幽默文本候选集，爬取了网友投票信息作为衡量文本是否幽默的度量标准。[0064]新闻语料是对某一事实的调查陈述，通常不具有幽默性，从雅虎新闻、纽约时代等新闻网站爬取了新闻数据作为非幽默文本即负例的候选集。[0065]a2、预处理步骤:对幽默文本候选集和非幽默文本候选集进行数据清洗，删除文本中的特殊字符和不可识别字符;根据幽默评价信息，将3星及3星以上的文本作为幽默文本，即正例，对自动标注信息进行人工审核后，正例数据共2423条;从非幽默候选集中选取负例样本，遵循了两条规则:一是长度与正例样本相当，二是负例样本所用的单词均在正例中出现过，即负例用词词典和正例用词词典相同，人工审核后负例样本数量和正例数量相当。[0066]使用Python中的NLTK中的分词方法对幽默文本和非幽默文本进行分词处理。[0067]S2、幽默特征提取步骤：[0068]bl、幽默的语音特征提取:对步骤SI得到的句子的词语集合，利用CMU发音词典，得到带有重音的音素共69个，忽略音素的重音部分后最终得到的音素共39个，将英文单词用这39个音素进行表示，得到了单词的语音表示形式;根据音素的发音，提取句子中单词头部发音相同的单词个数、句子中单词头部发音相同的音素的最大长度、句子中单词尾部发音相同的单词个数、句子中单词尾部发音相同的音素的最大长度，即压头韵单词个数、头韵链的最大长度、压尾韵单词个数、尾韵链的最大长度作为幽默的语音特征，从而得到4维的特征向量P。[0069]b2、幽默的不一致性特征提取:对步骤Sl得到的句子的词语集合，利用同义词语意资源，查找句子中是否包含反义词对，如果句子中包含反义词对则该特征为1，否则为0;利用W〇rd2VeC工具，将词语表示成低维稠密向量，维度为300维，计算句子中单词对的语义距离，将单词对的最大语义距离和最小语意距离作为特征。由此句子的不一致性特征用3维特征向量Q进行表示。语意距离计算公式如下：[0070][0071]A和B分别表示句子中的两个单词，分别表示单词向量A和B的2-范数，（A，B表示通过遍历句子的词语集合得到的单词对，similarityA，B表示两个单词向量的cosine语义距离。[0072]S3、基于神经网络的文本的词向量表示步骤：[0073]cl、词向量获取:从网上获取维基百科语料13.6G和笑话语料20万条作为训练词向量的语料集，采用Python库中的gensim模块训练词向量，从而得到幽默文本和非幽默文本中每个词的低维稠密向量，向量维度为300维。[0074]c2、文本的词向量表示:利用cl获取的词向量将步骤SI得到的幽默句子表示为nXmXd的词嵌入式矩阵;利用cl获取的词向量将步骤SI得到的幽默句子表示为nXmXd的词嵌入式矩阵。其中η为样本的数量，m为每个样本包含的单词数量，d为词向量的维度。[0075]c3、模糊性特征词抽取:对步骤Sl得到的每个句子的词语集合，利用wordNet词典提取同义词集合Synseti={synseti，synset2，…，synsetj，…，synsetn}，i为句子中的第i个单词，η为同义词集个数，synsetj为同义词语意单元;利用wordNet词典由synsetj得到每个同义词集的意义相近的单词集合为synsetj的同义词数量，去除synWordsi重复单词，计算句子中synWordsi最多的单词，既句子中拥有近义词数量最多的单词作为幽默的模糊性特征词。[0076]c4、模糊性特征词向量表示:每个句子可能抽取出一个或多个有关幽默的模糊性特征的单词。若句子只包含一个特征词，则利用有关词向量方法和c1获取的词向量将特征词表示为向量形式T;若句子中包含多个特征词，则使用它们的平均词向量作为模糊性特征词向量，其公式如下：[0077][0078]T为特征词的平均词向量，N为句子中特征词的个数，Tn为第η个特征词的词向量。[0079]S4、神经网络模型构建步骤：[0080]dl、模型的输入:根据步骤c4得到的幽默的模糊性特征词向量将其与句子中的每一个单词的词向量wt进行拼接，作为模型的输入词向量其中M表示向量空间，d表示向量维度，输入向量可表示为：[0081][0082]d2、构建幽默识别模型：利用循环神经网络RNN对dl中得到的输入进行特征抽取，提取出幽默文本背后深层次的语义特征，得到文本的隐层向量表示ht，本发明采用了双向的长短期记忆网络Bi-LSTM作为分类模型，其中每个细胞计算单元的计算公式如下：[0083][0084][0085][0086][0087][0088][0089]X’为LSTM输入向量Xt和（t-1时刻的隐层输出向量ht-i的拼接，ft，it，〇t分别为LSTM的遗忘门、输入门和输出门，Ct为LSTM的细胞单元，Wf，Wi，W。分别为LSTM模型遗忘门、输入门和输出门的参数矩阵，bf，bi，b。分别为LSTM模型遗忘门、输入门和输出门的偏执量，以上参数由LSTM模型学习获得，〇为sigmoid函数，tanh为正切函数，Wc表示细胞单元的参数，bc为细胞单元的偏执量，θ表示矩阵的按元素乘法，ht表示隐层输出。[0090]d3、注意力机制attention:注意力机制能够使模型在进行幽默识别时加大模糊性特征词及其周围词的权重，从而提高幽默识别的性能。根据步骤dl中得到的基于特定模糊性特征词T的情况下句子的词嵌入式表示Xt和步骤d2中得到的句子的隐层表示ht，计算注意力机制的句子中单词的权重向量ai和句子的隐层表示r，计算公式如下：[0091][0092][0093][0094]其中Wa为注意力机制的权重，ba为注意力机制的偏执量，T为句子中单词数量。[0095]d4、计算句子的平均词向量表示:根据步骤d3得到的幽默句子的隐层表示rt，计算句子的平均词向量表示s’，其计算公式如下：[0096][0097]d5、融合幽默特征:将步骤bl中提取的幽默的语音特征P和步骤b2提取的幽默的不一致性特征a与步骤d4得到的句子的平均词向量表示s’进行拼接，得到句子的向量表示s，s的维度为三部分特征向量的维度之和，其计算公式如下：[0098][0099]d6、幽默识别:根据步骤d5得到的幽默句子的隐层表示s，计算句子为幽默语句的概率p，从而最终判断给定的句子是幽默文本或非幽默文本，其计算公式如下：[0100][0101]S5、幽默识别结果评价步骤:根据预设的评价指标对幽默识别的结果进行评价。[0102]预设的评价指标为精确率、准确率、召回率和Fl值，精确率计算公式如下：[0103][0104]准确率计算公式如下：[0105][0106]召回率公式如下：[0107][0108]Fl值公式如下：[0109][0110]其中TP表示分类器将正例判定为正例的样本数，TN表示分类器将负例判定为负例的样本数，FP表示分类器将负例判定为正例的样本数，FN表示分类器将正例判定为负例的样本数。对比实验如下：[0111]SVM:n-gram、语音特征、不一致性特征作为输入，采用支持向量机SVM为分类器模型进行幽默识别。[0112]CNN:，采用卷积神经网络CNN对文本进行幽默识别。[0113]LSTM:文本的词向量作为输入，长短期记忆神经网络进行幽默识别。[0114]ATF-LSTM:本发明所述方法。[0115]如图3所示，传统的分类器SVM需要人工构造大量的特征作为输入，在特征不能充分反映幽默数据特点的情况下，实验性能较低，由于幽默特征往往隐藏在表面语义之下，难以进行表征，因此采用传统的机器学习方法对幽默进行识别效果欠佳。深度学习方法，如卷积神经网络CNN、循环神经网络LSTM不需要构造复杂的有关幽默的特征，能够自动提取深层次的语义特征，发掘幽默潜在的语义内涵，幽默识别的性能较之传统机器学习方法有所提高。本发明的方法，结合了神经网络模型自动提取的特征，构造了词向量无法充分反映的语音及不一致性特征，使得幽默识别的性能有了进一步的提升。[0116]以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护。

权利要求：1.一种基于神经网络和幽默特征的幽默识别方法，其特征在于，包括以下步骤：51、幽默语料采集及预处理步骤：al、幽默语料采集:从网站上获取幽默的文本以及文本的评价信息;对文本ID进行编号作为文本的唯一标识;采集网站幽默的内容作为幽默文本候选集;从所述网站获取文本幽默的评价信息作为衡量文本幽默程度的标准;采集其他形式的文本作为非幽默文本的候选集，幽默语料为单句；a2、预处理步骤:对幽默文本候选集和非幽默文本候选集进行数据清洗，删除文本中的特殊字符和不可识别字符;标注幽默文本;根据句子长度相近和正负例所用词典一致原则从非幽默文本候选集中选取非幽默文本;对幽默文本和非幽默文本进行分词处理；52、幽默特征提取步骤：bl、幽默的语音特征提取:对步骤SI得到的句子的词语集合，利用发音词典，提取句子的幽默语音特征向量P;b2、幽默的不一致性特征提取:对步骤Sl得到的句子的词语集合，利用语义资源和词向量工具，提取幽默句子不一致性的特征向量Q;53、基于神经网络的文本的词向量表示步骤：cl、词向量获取:获取语料，包括维基百科语料和笑话语料，作为训练词向量的语料集，使用词向量工具训练词向量，从而得到幽默文本和非幽默文本中每个词的低维稠密向量；c2、文本的词向量表示:利用cl获取的词向量将步骤SI得到的幽默句子和非幽默句子表不为nXmXd的词嵌入式矩阵，η为样本的数量，m为每个样本包含的单词数量，d为词向量的维度；c3、模糊性特征词抽取:对步骤SI得到的每个句子的词语集合，利用语义资源提取同义词集合Synseti={synseti，synset2,…，synsetj，…，synsetn}，i为句子中的第i个单词，η为同义词集个数，Synsetj为同义词语意单元;利用同义词语意资源由Synsetj得到每个同义词集的意义相近的单词集合SynWordsi={Wii，Wi2,…，Wim，…，Wni，…，Wnm}，m为synsetj的同义词数量，去除synWordsi重复单词，计算句子中synWordsi最多的单词，句子中拥有近义词数量最多的单词作为幽默的模糊性特征词；c4、模糊性特征词向量表示:每个句子可能抽取出一个或多个有关幽默的模糊性特征的单词，若句子只包含一个特征词，贝Ij利用有关词向量方法和c1获取的词向量将特征词表示为向量形式T;若句子中包含多个特征词，则使用它们的平均词向量作为模糊性特征词向量；54、神经网络模型构建步骤：dl、模型的输入:根据步骤c4得到的幽默的模糊性特征词向量T，将其与句子中的每一个单词的词向量Wt进行拼接，作为模型的输入词向量；d2、构建幽默识别模型：利用循环神经网络提取dl中得到的输入的潜在语义特征，得到文本的隐层向量表示；d3、注意力机制幽默识别:采用注意力机制进行幽默识别，加大模糊性特征词及其周围词的权重，提高幽默识别的性能；d4、计算句子的平均词向量表示:根据步骤d3得到的幽默句子的隐层表示，计算句子的平均词向量表示；d5、融合幽默特征:将步骤bl中提取的幽默的语音特征和步骤b2提取的幽默的不一致性特征与步骤d4得到的句子的平均词向量表示进行拼接，得到句子的向量表示；d6、幽默识别:根据步骤d5得到的幽默句子的隐层表示s，计算句子是否是幽默语句的概率，从而最终判断给定的句子是幽默文本或非幽默文本；S5、幽默识别结果评价步骤:根据评价指标对幽默识别的结果进行评价。2.根据权利要求1所述的一种基于神经网络和幽默特征的幽默识别方法，其特征在于，步骤a2，所述的标注幽默文本为:根据幽默评价信息，将评价得分较高的文本自动标注为幽默文本，即正例，并对自动标注信息进行人工审核。3.根据权利要求1所述的一种基于神经网络和幽默特征的幽默识别方法，其特征在于，步骤a2中分词处理采用了Python语言中的NLTK模块。4.根据权利要求1所述的一种基于神经网络和幽默特征的幽默识别方法，其特征在于，步骤bl中，所述的发音词典为CMU发音词典，所述的幽默的语音特征提取是将英文单词表示成音素的形式;提取句子中单词头部发音相同的单词个数、句子中单词头部发音相同的音素的最大长度、句子中单词尾部发音相同的单词个数、句子中单词尾部发音相同的音素的最大长度，是提取压头韵的单词个数、头韵链的最大长度、压尾韵单词个数、尾韵链的最大长度作为幽默的语音特征，得到4维的特征向量P。5.根据权利要求1所述的一种基于神经网络和幽默特征的幽默识别方法，其特征在于，步骤b2中所述的幽默的不一致性特征提取是对步骤Sl得到的句子的词语集合，利用语义资源，判断句子中是否有反义词对;利用词向量工具，将词语表示成低维稠密向量，提取句子中单词对的最大和最小的语义距离，将以上是否有反义词对，最大语义距离，最小语义距离作为幽默句子不一致性的特征，得到3维特征向量Q。6.根据权利要求1所述的一种基于神经网络和幽默特征的幽默识别方法，其特征在于，步骤b2中和步骤c3中，所述的语义资源为wordNet。7.根据权利要求1所述的一种基于神经网络和幽默特征的幽默识别方法，其特征在于，步骤S4中，模型的输入向量Xt可以表示为：所述的循环神经网络为双向长短期记忆网络Bi-LSTM，其中每个细胞计算单元的计算公式如下：X'为LSTM输入向量Xt和t-1时刻的隐层输出向量ht-i的拼接，ft，it，〇t分别为LSTM的遗忘门、输入门和输出门，Ct为LSTM的细胞单元，Wf，Wi，W。分别为LSTM模型遗忘门、输入门和输出门的参数矩阵，bf，bi，b。分别为LSTM模型遗忘门、输入门和输出门的偏执量，以上参数由LSTM模型学习获得，σ为sigmoid函数，tanh为正切函数，Wc表示细胞单元的参数，bc为细胞单元的偏执量，θ表示矩阵的按元素乘法，ht表示隐层输出；所述的注意力机制幽默识别为:根据步骤dl中得到的基于特定模糊性特征词T的情况下句子的词嵌入式表示模型的输入向量Xt和步骤d2中得到的句子的隐层表示ht，计算注意力机制的句子中单词的权重向量^和句子的隐层表示r，计算公式如下：其中Wa为注意力机制的权重，ba为注意力机制的偏执量，T为句子中单词数量。8.根据权利要求1所述的一种基于神经网络和幽默特征的幽默识别方法，其特征在于，步骤S4中，所述的评价指标为精确率、准确率、召回率和Fl值，精确率计算公式如下：准确率计算公式如下：召回率公式如下：Fl值公式如下：其中TP表示分类器将正例判定为正例的样本数，TN表示分类器将负例判定为负例的样本数，FP表示分类器将负例判定为正例的样本数，FN表示分类器将正例判定为负例的样本数。

百度查询：大连理工大学一种基于神经网络和幽默特征的幽默识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

下一篇：一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

相关技术

一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

一种无人机使用高清摄像模组_陕西泰沃云科技有限公司_202322392870.5

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

一种无缝钢管送料设备_宁波东进钢管有限公司_202322167126.5

电子设备_深圳市嘉晋实业有限公司_202322601396.2

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

一种方便拆装的瓦楞机用瓦楞辊_浙江永暉瓦楞辊有限公司_202322675014.0

一种散热户外路灯灯头_中山市澳斯朗电控科技有限公司_202322819842.7

一种新型加湿器_莆田市必捷电子有限公司_202322599727.3

一种带防撞装置的压力机工作台_扬州蔚来机械装备制造有限责任公司_202322611255.9

一种可调节车挡_自贡市城市规划设计研究院有限责任公司_202322421392.6

特征相关技术

一种多特征融合的行人跟踪方法_杭州锐颖科技有限公司_202311346658.3

包括自动特征检测和分类的检查工具_米沃奇电动工具公司_202280047516.4

一种基于改进的形状特征匹配的书法书写质量评价方法_广东新裕信息科技有限公司_202311480424.8

稀疏2D点集的深度特征提取方法及装置_三星(中国)半导体有限公司_202010006265.8

模型训练和特征提取方法、装置、电子设备及存储介质_北京旷视科技有限公司_202110791892.1

一种特征初始化的非均匀校正方法及其系统_中国科学院长春光学精密机械与物理研究所_202210650466.0

一种钻探岩芯特征的智能识别描述方法、系统及存储介质_北京建工环境修复股份有限公司_202310969059.0

基于脉搏信号特征提取的身份识别方法_安徽建筑大学_202010663024.0

填充衬底上的凹陷特征的方法及相关结构_ASMIP私人控股有限公司_202311352654.6

应用于OCT图像中目标特征分割的模型训练方法及装置_唯智医疗科技(佛山)有限公司_202110885125.7

幽默相关技术

机器高阶认知的预训练语言模型幽默回复能力增强方法_复旦大学_202311195450.6

基于幽默度的文本分类方法、装置、电子设备及存储介质_中国平安人寿保险股份有限公司_202011144840.7

一种基于量子熵的幽默特征提取方法_天津大学_202211375762.0

一种幽默文本自动生成方法、系统、介质、设备及终端_华中农业大学_202210576890.5

一种外部知识增强的幽默文本生成方法_四川大学_202010164493.8

基于注意力机制的幽默文本分类方法、装置、设备、介质_中国平安人寿保险股份有限公司_202111433978.3

基于人工智能的幽默生成与情感交互方法及机器人系统_大国创新智能科技(东莞)有限公司_201910793954.5

一种基于NER识别情景喜剧对话幽默度的方法_安徽清博大数据科技有限公司_202111035246.9

基于反向翻译的中文幽默分类模型_大连民族大学_202110088848.4

基于幽默度的文本分类方法、装置、电子设备及存储介质_中国平安人寿保险股份有限公司_202011144840.7

网络相关技术

用于标识通信网络中的网络节点的方法和通信网络_罗伯特·博世有限公司_201910574227.X

网络设备的升级_瑞典爱立信有限公司_201780096272.8

在区块链网络中验证交易的方法以及构成该网络的节点_比特飞翔区块链株式会社_201980026000.X

一种移动通信网络辅助广播网络的收发方法及其装置_上海交通大学_202210665237.6

基于多通道图卷积网络的社交网络节点分类方法与系统_扬州大学_202210353954.5

网络恢复方法、装置、设备及存储介质_北京华耀科技有限公司_202210476307.3

管理IOT网络中的数据和数据使用_勤达睿公司_202080032483.7

一种时间敏感网络性能评估方法_中国科学院沈阳自动化研究所_202111441534.4

主动安全网络及构建方法_北京北信源软件股份有限公司_202210505613.5

一种网络加速方法和装置_荣耀终端有限公司_202211284598.2

龙图腾网&IPTOP

【发明授权】一种基于神经网络和幽默特征的幽默识别方法_大连理工大学_201810496016.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务