买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于背景知识的讽刺检测方法_北京工业大学_201911387640.1 

申请/专利权人:北京工业大学

申请日:2019-12-27

公开(公告)日:2023-09-12

公开(公告)号:CN111159405B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/30;G06F40/295

优先权:

专利状态码:有效-授权

法律状态:2023.09.12#授权;2020.06.09#实质审查的生效;2020.05.15#公开

摘要:本发明公开了一种基于背景知识的讽刺检测方法,该方法步骤如下:步骤1获取讽刺文本数据集SARC;步骤2数据预处理;步骤3提取目标文本中的实体并构建实体列表;步骤4构建背景知识并获取背景知识的句向量;步骤5训练讽刺检测模型;步骤6预测讽刺文本。本方法利用百科搜索引擎构建与数据集文本相关的背景知识,通过加入相关的背景知识来解决文本是否为讽刺的二分类问题。采用深度学习方法对文本进行分类。实验结果表明,加入相关的背景知识对文本的讽刺检测性能有明显的提升。

主权项:1.基于背景知识的讽刺检测方法,其特征在于:该方法的步骤如下,步骤1获取讽刺文本数据集;步骤2数据预处理;步骤3提取数据集中的实体并构建实体列表;对数据集进行命名实体识别,识别的实体类型包括人名、宗教或政治团体、地名、机构、战争、法律的实体,通过百科搜索引擎对实体进行搜索,取网页中的锚文本作为数据集中提取出的实体的拓展,一起构建出一个针对数据集的实体列表;步骤4构建背景知识并获取背景知识的句向量;分别对构建的实体列表中的实体在百科搜索引擎中检索其相关文本信息,并且将相关文本信息作为数据集的背景知识,通过doc2vec模型训练获取背景知识的句向量;步骤5训练讽刺检测模型;步骤6预测讽刺文本;使用数据集中的训练集对模型进行训练调参后,得到讽刺检测模型参数,使用模型对测试集文本进行预测测试,预测文本的类别,类别包含讽刺与非讽刺两类;其中,步骤5的实施过程如下:步骤5.1卷积神经网络模型提取数据集文本特征;数据集中第i条文本通过卷积神经网络模型得到文本特征向量ci;步骤5.2将文本特征向量与文本对应的背景知识句向量拼接;将第i条文本的特征向量ci,和第i条文本对应的背景知识句向量di连接起来,形成了一个统一的向量表示⊕为向量拼接操作符;步骤5.3对拼接后的向量vi进行训练;通过Softmax计算第i条文本预测为j类别的概率pj,计算如下:pi,j=softmaxwcvi+bc上述公式中的wc和bc为随机初始化的向量,讽刺检测为二分类问题,分别计算讽刺和非讽刺两个类别的概率,概率大的为该向量最后预测的类别;其中,损失函数为: 其中N为数据集训练集文本个数,pi为第i条文本真实值的one-hot向量,j为第i条文本的标签,pi,j为第i条文本模型的预测为j类的概率,使用随机梯度下降进行训练,使损失函数值不断减小,梯度由反向传播获取,当损失函数取最小值时,则模型训练完成,得到讽刺模型参数wc和bc。

全文数据:

权利要求:

百度查询: 北京工业大学 基于背景知识的讽刺检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。