买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种海关报关商品HS编码分类方法及装置_南京大学_202110574885.6 

申请/专利权人:南京大学

申请日:2021-05-26

公开(公告)日:2024-02-20

公开(公告)号:CN113343640B

主分类号:G06F40/126

分类号:G06F40/126;G06F40/289;G06F18/2415;G06N3/047;G06N3/048;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.02.20#授权;2021.09.21#实质审查的生效;2021.09.03#公开

摘要:本发明公开了一种海关报关商品HS编码分类方法及装置,方法包括:对海关报关单数据进行重采样,生成用于实验的数据集;对于数据集的文字部分,使离散的词的文字表示转为词的向量表示;对于数据集的HS编码部分,使用分层编码方式生成分层词向量;设置多层编码器提取文字部分词向量的深层特征;设置多层解码器提取文字部分词向量和HS编码部分的分层节点的特征;将解码器最后一层输出的分层节点特征输入一个全连接的分类层得到HS编码前缀条件概率,计算全概率,取概率最大的作为分类结果。本发明有效解决了长尾分布下数据的分类问题,在长尾分布分类任务中能增强对尾部类的分类性能,且能够灵活地满足类别系统动态更新的需求。

主权项:1.一种海关报关商品HS编码分类方法,其特征在于,包括如下步骤:步骤1:对海关报关单数据进行重采样,生成用于实验的数据集,其中数据集包括文字部分和HS编码部分;把数据集分割成训练集和验证集;步骤2:对于文字部分,将输入文本分割成词序列,使离散的词的文字表示转为词的向量表示;对于HS编码部分,使用分层编码方式生成分层词向量;步骤3:设置多层编码器,提取步骤2生成的文字部分词向量的深层特征;步骤4:设置多层解码器,提取步骤2得到的文字部分词向量和HS编码部分的分层节点的特征;步骤5:经过步骤4的多层编码和多层解码,将解码器最后一层输出的分层节点特征输入一个全连接的softmax分类层得到HS编码前缀条件概率,计算全概率,取概率最大的作为分类结果;用交叉熵损失函数计算步骤5分层分类的损失,通过最小化分层分类损失的加权和来优化编码器和解码器的网络参数;步骤2中,将文字部分转成词的向量表示,包括:使用预训练的BERT-base网络的embeddings层作为语言表示层;使用BERT-base的分词工具将输入文本分割成词序列;将词序列转换为词典索引序列;将词典索引序列输入BERT-base的embeddings层,使离散的词的文字表示转为词的向量表示;步骤2中,将HS编码部分生成分层词向量,包括:对于HS编码部分,将HS编码分n2层编码,生成对应的n2个分层词向量,其中n为HS编码规定的位数;HS编码采用下面的方式进行分层:第零层是对空项编码,作为分层树的根节点;第一层是对HS编码的前2位进行编码,生成前2位对应的词向量,作为分层树根节点的子节点;第二层是对HS编码的前4位进行编码,生成前4位对应的词向量,作为第一层节点的子节点;第三层是对HS编码的前6位进行编码,生成前6位对应的词向量,作为第二层节点的子节点;第四层是对HS编码的前8位进行编码,生成前8位对应的词向量,作为第三层节点的子节点;第五层是对HS编码的前10位进行编码,生成前10位对应的词向量,作为第四层节点的子节点;经过分层编码,得到HS编码对应的各个层次的词向量;步骤3包括:所述多层编码器为基于BERT-base的12层结构,编码器部分使用Transformer网络实现,编码器内部以双向注意力连接方式连接;其中,对于编码器第1层,将步骤2生成的文字部分词向量作为输入,提取输入词向量的上下文特征;对于之后11层的每层,将上一层编码器输出的特征作为当前层编码器的输入,提取文字部分的深层特征;步骤4包括:所述多层解码器为基于BERT-base的12层结构,解码器部分使用Transformer网络实现,解码器内部以单向注意力连接方式连接,编码器与解码器之间单向连接;其中,对于解码器第1层,将步骤2得到的文字部分词向量和5个HS编码部分第零层到第四层的词向量一同作为输入,提取出5个分层节点的特征;对于之后11层的每层,将上一层编码器输出的特征和上层解码器输出的5个分层节点特征一同作为当前层解码器的输入,进一步提取分层节点特征;使用交叉熵损失函数计算损失,再将所有损失加权求和作为分层分类任务的联合损失;网络训练的目标表示为如下公式: 其中,Dtrain是训练集,xi是Dtrain中任一样本,从分类树根节点到它的标签类别的路径为Θ为网络参数,为在节点上分类器预测样本xi属于类的条件概率,ReΘ为正则化项。

全文数据:

权利要求:

百度查询: 南京大学 一种海关报关商品HS编码分类方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。