首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于命名实体识别的违法广告词检测方法_艾迪恩(山东)科技有限公司;西南交通大学烟台新一代信息技术研究院_202111012858.6 

申请/专利权人:艾迪恩(山东)科技有限公司;西南交通大学烟台新一代信息技术研究院

申请日:2021-08-31

公开(公告)日:2024-04-30

公开(公告)号:CN113849597B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/35;G06F40/295;G06F40/30;G06Q30/0242;G06N3/0442;G06N3/08;G06N7/01

优先权:

专利状态码:有效-授权

法律状态:2024.04.30#授权;2022.01.14#实质审查的生效;2021.12.28#公开

摘要:本发明提供基于命名实体识别的违法广告词检测方法,步骤1)将广告数据转化为文本格式,形成广告文本;步骤2)对广告领域进行分类,利用BERT中文预训练模型将广告文本按领域分类;步骤3)对应不同广告领域类别,根据每个广告领域的广告违法行为编码对广告文本按字粒度进行标注形成标注文本;步骤4)将标注文本分为训练集与验证集,将训练集映射到BERT中文预训练模型中获得动态字向量;步骤5)将动态字向量传入BiLSTM双向长短期记忆网络获取得分向量;步骤6)将得分向量传入条件随机场CRF,CRF获取标签之间的关系,对最终预测的标签加以约束,得到最优标签,本发明通过深层网络BERT+BiLSTM+CRF结构学习违法词特征,达到提取违法词并匹配违法条例的功能。

主权项:1.基于命名实体识别的违法广告词检测方法,其特征在于:包括以下步骤:步骤1)对广告数据进行预处理,将广告数据转化为文本格式,形成广告文本;步骤2)对广告领域进行分类,利用BERT中文预训练模型将广告文本按领域分类;步骤3)对应步骤2中的不同广告领域类别,根据每个广告领域的广告违法行为编码对广告文本按字粒度进行标注形成标注文本;将广告文本中的违法词当作特殊实体,违法词对应的违法法条即为特殊实体的特征,不同的违法条例对应不同的标签,违法词通过标签实现标注;步骤4)将标注文本分为训练集与验证集,将训练集映射到BERT中文预训练模型中获得动态字向量,字向量是将标注文本的字词转化成用数学表达的向量,动态指BERT中文预训练模型将每个输出的字向量都包含了字向量对应的字词所在文本的上下文语境信息;步骤5)将步骤4的动态字向量传入BiLSTM双向长短期记忆网络,BiLSTM双向长短期记忆网络结合上下文语境信息得到动态字向量对应的违法条例的特征,结合特征输出每个字的得分向量,得分向量是每个字符对应相应标签概率的向量; ;BiLSTM获取得分向量的计算流程表示为: ;式中,为文本长度,为输入的广告文本的第个字,为sigmod激活函数,、、分别为输入门、遗忘门、输出门,为输入权重矩阵、为输入偏置项,为当前字的输入权重矩阵,为输入门的输入权重矩阵,为遗忘门的输入权重矩阵,输出门的输入权重矩阵,为当前字的输入权偏置项,为输入门的输入偏置项,为遗忘门的输入偏置项,为输出门的输入偏置项,为记忆细胞,为临时细胞状态,为当前细胞状态,为前一个字细胞状态,为字的隐层状态,为前一个字的隐层状态,每个字的输出和到下一个字参与计算,并且将每个字的保存,包含了每个字结合过上下文语境信息后的特征,用于得到得分向量;步骤6)将步骤5输出的得分向量传入条件随机场CRF,CRF获取标签之间的关系,对最终预测的标签加以约束,得到最优标签。

全文数据:

权利要求:

百度查询: 艾迪恩(山东)科技有限公司;西南交通大学烟台新一代信息技术研究院 基于命名实体识别的违法广告词检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术