买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于对比学习和对抗训练的海关商品规范申报审核方法_大连理工大学_202311523063.0 

申请/专利权人:大连理工大学

申请日:2023-11-16

公开(公告)日:2024-01-30

公开(公告)号:CN117473323A

主分类号:G06F18/214

分类号:G06F18/214;G06F18/24;G06F40/30;G06Q10/10;G06Q50/26;G06N3/094;G06N3/084

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.02.20#实质审查的生效;2024.01.30#公开

摘要:本发明涉及自然语言处理技术领域,具体涉及基于对比学习和对抗训练的海关商品规范申报审核方法。本发明针对BERT训练和推断过程不一致的问题,以及没有考虑到的表达退化问题,提出了CLAT‑ELECTRA模型。通过ELECTRA改善BERT训练和推断过程的不一致,并通过两种不同的方法从不同的角度缓解表达退化问题,使模型生成高质量的申报文本语义信息,从而进行分类,提高了海关商品规范申报审查效率。

主权项:1.基于对比学习和对抗训练的海关商品规范申报审核方法,其特征在于,具体包括:步骤1:商品申报数据预处理步骤1.1对规范申报数据进行常规清洗,对低质量数据进行过滤;步骤1.2通过原始数据中存在的标记,进行申报要素的分割;步骤1.3针对数据缺失和非常少的商品编码,进行数据增强;步骤2:将商品申报文本数据送入CL-ELECTRA模块步骤2.1将一条商品申报文本送入ELECTRA模型两次,在ELECTRA自带的dropout作用下,随机丢弃不同单元,生成略有不同的两个模型,从而构造出正样本对输出1和输出2;步骤2.2通过最小化输出1和输出2之间的KL散度损失函数来拉近正样本对的距离,正则化模型的预测;输出1和输出2的两个标签都是原样本的标签,使用交叉熵损失函数对预测结果进行评估;步骤2.3最终的损失函数为KL散度损失函数和交叉熵损失函数的加权和;可根据实际情况,通过调整两个损失函数的权重,从而得到更好的模型性能;步骤3:将商品申报文本数据送入AT-ELECTRA模块步骤3.1将一条商品申报文本送入ELECTRA模型,模型先计算出其前向交叉熵损失函数,再根据反向传播计算梯度;步骤3.2在原样本的词嵌入矩阵上添加线性扰动进行数据增强,得到不同于原样本的对抗样本;步骤3.3AT-ELECTRA模型计算出对抗样本的前向交叉熵损失函数,再通过反向传播得到对抗样本的梯度;步骤3.4将对抗样本的梯度累加到原样本的梯度上,根据这个梯度来更新模型参数,得到更好的模型性能。

全文数据:

权利要求:

百度查询: 大连理工大学 基于对比学习和对抗训练的海关商品规范申报审核方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。