买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于主题记忆网络的仇恨和攻击性言论识别方法及系统_济南大学_202111005000.7 

申请/专利权人:济南大学

申请日:2021-08-30

公开(公告)日:2024-04-09

公开(公告)号:CN113704472B

主分类号:G06F16/35

分类号:G06F16/35;G06F16/31;G06F40/205;G06F40/279;G06Q50/00

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2021.12.14#实质审查的生效;2021.11.26#公开

摘要:本发明属于自然语言处理领域,提供了基于主题记忆网络的仇恨和攻击性言论识别方法及系统,首先将文本转换为词袋向量和词索引序列向量,并进行特征提取得到特征向量;然后基于词袋向量,主题提取模型提取主题混合分布;基于主题混合分布,主题记忆机制获得主题词权重矩阵,并通过两次级联运算与词索引序列向量和特征向量进行联合学习,得到分类特征;最后基于分类特征,分类器得到文本是否属于仇恨和攻击性言论的结果;达到了丰富短文本特征的目的,解决了短文本存在的特征稀疏问题,提高了仇恨和攻击性言论识别的精度。

主权项:1.基于主题记忆网络的仇恨和攻击性言论识别方法,其特征在于,包括:获取待识别文本,对待识别文本进行预处理;将预处理后文本转换为词袋向量和词索引序列向量,并进行特征提取得到特征向量;基于词袋向量,主题提取模型提取主题混合分布;基于主题混合分布,主题记忆机制获得主题词权重矩阵,并通过两次级联运算与词索引序列向量和特征向量进行联合学习,得到分类特征;基于分类特征,分类器得到文本是否属于仇恨和攻击性言论的结果;所述联合学习的具体步骤为:所述词索引序列向量与第一记忆内存矩阵进行级联运算,并基于主题词权重矩阵计算第一匹配度;基于第一匹配度和所述特征向量,计算第二匹配度;混合所述主题混合分布、第一匹配度和第二匹配度,得到集成内存权重;基于集成内存权重和第二记忆内存矩阵,计算分类特征;所述特征提取包括情绪特征提取、数目特征提取和可读性特征提取;两个记忆内存矩阵都以主题词权重矩阵作为输入;使用R来代表嵌入的词索引序列向量,词索引序列向量与第一记忆内存矩阵进行级联运算,并基于主题词权重矩阵计算第一匹配度;计算第m个主题和第n个词在词索引序列向量中的匹配度,即第一匹配度为: 其中,表示进行级联运算,[M1R]代表第一记忆内存矩阵M1和词索引序列向量R进行级联运算,和b是要学习的参数;经过上述处理后,通过计算特征向量和第一匹配度的匹配度,得到第二匹配度,进行仇恨言论和攻击性的语言特征的学习;第二匹配度为: 其中,d是要学习的参数;为进一步结合文档主题,混合主题混合分布、第一匹配度和第二匹配度,将集成内存权重定义为: 其中,τ是一个超参数;通过第二记忆矩阵M2和集成内存权重χ,得到主题记忆机制的输出表示,即分类特征D: 。

全文数据:

权利要求:

百度查询: 济南大学 基于主题记忆网络的仇恨和攻击性言论识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。