买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】互联网电商商品信息四品一械识别分类方法_北京万诚信用评价有限公司_201910056584.7 

申请/专利权人:北京万诚信用评价有限公司

申请日:2019-01-22

公开(公告)日:2019-06-07

公开(公告)号:CN109858027A

主分类号:G06F17/27(2006.01)I

分类号:G06F17/27(2006.01)I;G06F16/35(2019.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I;G06Q30/00(2012.01)I

优先权:

专利状态码:失效-发明专利申请公布后的视为撤回

法律状态:2023.10.20#发明专利申请公布后的视为撤回;2019.07.02#实质审查的生效;2019.06.07#公开

摘要:本发明为互联网电商商品信息四品一械识别分类方法。它提供了一种对互联网电子商务交易平台商品信息进行四品一械分类识别方法,及四品一械识别分类模型的系统构建。其中上述构建及处理过程包括:收集整理语料信息数据;将语料数据进行分词处理;对分词处理后的语料数据进行向量化建立词向量库、词性向量库等;构建分类识别模型的神经网络结构;训练设计好的分类识别网络;对训练好的识别模型进行迭代测试及相关数据分析;统计测试数据每一个分类的数据分布情况;根据目标函数值的值域与分类统计的测试数据进行比对,分析整理识别错误率高的目标函数值的范围,进行纠错处理。这样可以把错误率较高的分类数据处理为非四品一械的分类,从而提高模型分类识别的准确率。

主权项:1.一种互联网电商商品信息四品一械识别分类方法,其特征在于,所述方法包括:A1、收集整理商品信息及其它文本信息作为语料进行分词处理;A2、对分词处理后的语料进行词向量计算,并建立相应的词向量库和词性向量库;A3、构建四品一械识别分类模型的深度学习网络;A4、分类标注商品信息作为训练样本,及进行迭代训练网络直至完成识别分类模型训练;A5、测试分析完成训练的分类模型识别率情况;A6、统计模型分类错误的商品数据与分类模型目标函数值域范围的分布情况;A7、构建纠错层对分类模型识别商品信息分布的目标函数值进行过滤预处理;A8、分类处理后的输出层输出分类结果数据。

全文数据:互联网电商商品信息四品一械识别分类方法技术领域本发明涉及数据处理技术领域、自然语言处理NLP分类模型神经网络的设计与训练,及数据统计分析的计算方法。背景技术:随着互联网信息的快速发展和相关技术不断更新,网络应用及信息处理技术途径日益多样化、复杂化。特别是交易类电子商务平台发展更是日新月异,交易商品数量、种类快速增长。目前网络交易商品数量达到亿以上级别、网络交易商品信息种类达到10万以上级别。这就给商品信息的查询、监管提出新的、更高要求。所以能提供一种以网络交易商品描述的相关信息,通过人工智能的深度学习相关技术达到分类识别出交易商品信息的类别,这就可以给网络商品信息分类查询及监管提供便捷有效的处理手段。发明内容:本发明所提供的解决方案是针对互联网电商商品信息四品一械识别分类方法的构建。能够为互联网交易商品信息的分类查询、监管节约时间成本,提高监管效率。该分类模型针对互联网交易商品信息为食品、药品、化妆品、保健品、医疗器械称为“四品一械”的商品提供识别分类处理,并方便互联网商品信息进行分类查询及监管;为完成实现上述的分类识别模型构建及训练的方法,该发明进行如下开发流程方案:A1、收集整理商品信息及其它文本信息作为语料进行分词处理;A2、对分词处理后的语料进行词向量计算,并建立相应的词向量库和词性向量库;A3、构建四品一械识别分类模型的深度学习网络;A4、分类标注商品信息作为训练样本,及进行迭代训练网络直至完成识别分类模型训练;A5、测试分析完成训练的分类模型识别率情况;A6、统计模型分类错误的商品数据与分类模型目标函数值域范围的分布情况;A7、构建纠错层对分类模型识别商品信息分布的目标函数值进行过滤预处理;A8、分类处理后的输出层输出分类结果数据。优先地,A1所述收集整理商品信息及其它文本信息作为语料进行分词处理还包括:丰富语料收集来源多方面覆盖和将训练语料进行预处理语料库预处理:一行一个文档或句子,将文档或句子进行分词。优先地,A2所述的对分词处理后的语料进行词向量计算,并建立词向量和词性向量库的处理方法,其特征在于,还包括对需要将原始的训练语料转化成一个语料句子的迭代器,每一次迭代返回的语料句子是一个语料分词格式化的列表,并通过自然语句处理库的模型计算构建词向量库模型对象。优先地,A3所述的构建四品一械识别分类模型的深度学习网络,所述深度学习网络设计框架技术包括:torch、caffe;具体的构建四品一械分类模型的神经网络设计有,网络设计包包含6层的学习网络具体如下:H1:第一层卷积神经网络CNN,1000个卷积核,卷积核大小3*320;H2:第二、三层双向长短时记忆循环神经网络Bi-directionalLSTMRNN;H3:第四、五层全连接层神经网络FullyConnectedlayer简称FC;H4:最后由一个分类器作为输出层,输出分类结果目标函数值。优先地,A4所述的通过收集分类标注商品信息,及测试分析分类训练样本数量的比例分布,确定最适合商品信息文本分类模型训练样本的比例值范围。其处理训练样本数量比例具体步骤如下:I1:收集大量语料作为训练样本,进行人工四品一械分类样本挑选标注处理;I2:语料样本比例,四品一械与非四品一械样本比例值范围0.8至1.25区间,四品一械各个分类之间的样本数量比例值范围大于0.2至小于等于5;I3:在语料样本比例达不到上述I2的要求时,可以适当在原有的样本数量拷贝复制充实样本数量拷贝复制的样本数量为原来的1至3倍范围内,使其样本比例值符合I2的要求。优先地,A4所述的四品一械分类模型的验证样本包括训练集样本和测试集样本两部分,分类模型的迭代训练以训练集样本和测试集样本对应识别准确率、损失函数值达到较小相对稳定时的指标值为模型训练完成的参考标准。优先地,A5所述的测试分析完成训练的分类模型识别率情况,构建一个适用于展示分析商品信息错误分类情况的统计模型,根据统计分类模型识别处理后的错误分类商品信息的概率分布情况;“识别数量差”是真实样本数减去识别数量得到,其值为负值时反映该分类识别越容易受其它商品信息错误分类的影响,负值越小影响越大;为正值时反映该分类识别越不容易受其它商品信息错误分类的影响,数值越大影响越小;“错误识别数1”是真实样本数减去识别正确数量得到,其值越大反映分类模型对该分类的识别错误率越高,反之则越小;“错误识别数2”的数值为:“错误识别数1”的数值减去“识别数量差”数值,计算所得数值综合反映了分类模型对商品分类的影响。优先地,A6所述的分类模型对测试样本识别分类处理后的所有分类中的目标函数值,在A5步骤统计分析基础上,统计分析分类模型对商品信息错误分类识别后输出的所有目标函数值的分布关系,及根据商品信息错误分类的数据中“错误识别数1”和“错误识别数2”的测试样本目标函数值的分布统计情况,构建分类模型错误分类目标函数值与错误分类的关联关系。优先地,A7所述的构建纠错层对商品分类错误数据做过滤处理是通过A6步骤对错误分类测试样本目标函数值分布统计情况,构建分类模型错误分类目标函数值的纠错模型;纠错模型计算参数选取分类处理后的所有目标函数值中的最大两个数值进行相减计算和相除计算,定义模型函数fm0,m1,gm0,m1;0>m0>m1,且m0,m1分别表示目标函数值中的最大两个数值,则纠错模型的函数有,fm0,m1=m0-m1,gm0,m1=m0m1;通过纠错模型函数进行相关目标函数值的计算,并统计分析计算后的fm0,m1值和gm0,m1值与两种数值所在数值区间错误分类的分布情况,统计出测试样本分类错误分布高的对应数值作为纠错过滤阀值的选取指标;对每一个每类设置一个阀值进行判断过滤处理,每一种分类的目标函数值进行相应计算后,大于对应阀值1或小于对应阀值2的商品描述信息,被认为是识别错误率高的商品,纠错层会对其进行过滤处理,统一将此类目标函数值的商品归类为一般商品非四品一械商品。优先地,A8所述的分类处理后的输出层输出分类结果数据,根据纠错层识别处理结果将符合最优目标值且满足A7所述要求目标函数值的最大两个数值进行相减计算和相除计算后的结果,在阀值设定的范围内,将其映射为对应分类的编号给出结果。附图说明:图1是本发明针对互联网电商商品信息四品一械识别分类方法构建的总体流程图;图2是本发明构建四品一械分类模型的深度学习网络的网络设计流程;图3是本发明网络设计中卷积操作的处理模块说明图;图4是本发明网络设计中Bi-LSTM时序操作的处理模块说明图。具体实施方式为了更好地说明本发明的上述目的、特征和优点,能够更加简单易懂,下面结合附图和具体实施方式对本发明作进一步的说明。实施实例参照图1,是本发明针对互联网电商商品信息四品一械识别分类方法的构建,总体流程图可以包括以下步骤:步骤A1:收集整理商品信息及其它文本信息作为语料进行分词处理;该步骤A1中,通过互联网收集小说资料或网络爬虫的方式采集新闻、商品描述信息来丰富语料库的数据信息量。对收集完成的语料库进行预处理,一行一个文档或一个句子,将文档或句子进行分词。这里使用中科院NLPIR分词系统工具;分词处理结果如下:原文本信息:{国内专柜正品Lancome兰蔻菁纯臻颜滋润眼霜20ml金纯眼霜};分词处理后文本;{国内locative专柜noun正品nounLancomenoun兰noun蔻noun菁noun纯臻noun颜noun滋润verb眼classifier霜noun20mlnoun金纯noun眼noun霜noun}。步骤A2:对分词处理后的语料进行词向量计算,并建立相应的词向量库和词性向量库;该步骤是在步骤A1的语料分词基础上通过训练进行分词和词性的向量计算,并建立相应的词向量和词性向量库供分类模型使用。这里使用Gensim是一款开源的第三方Python工具包;在Gensim中的实现词向量建模的word2vec模型用于进行向量计算;word2vec模型超参数为:Word2Vecsg=1,sentences,size=256,window=5,min_count=3,workers=8,iter=40参数说明如下。表格1:例子如下:分词后如“国内”被转化为256维词向量和64维词性向量,具体格式以数组的方式省略展示说明如下:256维词向量:{0.24395664,0.16760093,0.02231296,……,这里省略250个向量0.45377976,0.19203474,-0.05504936}大小256个向量64维词性向量:{1.6208177,-1.5348666,-1.288407……,这里省略58个向量-1.0911843,0.95148927,-0.9333895}大小64个向量步骤A3:构建四品一械识别分类模型的深度学习网络;具体可以参见图2。具体神经网络可以表达为:INPUT->[CONV]*1->[Bi-LSTM]*2->[FC]*2在该步骤中包括商品识别处理的详细过程如下:F1、输入语料文本信息:{国内专柜正品Lancome兰蔻菁纯臻颜滋润眼霜20ml金纯眼霜};F2、F3对输入语料文本信息进行格式化处理和语料文本分词切割处理;F4、文本信息分词切割处理后通过分词和词性向量库进行特征向量赋值,将分词后的文本信息转化成特征词向量256维、词性向量64维的向量表示。每一个商品描述信息最多取60个词作为词向量计算表达。不足60个词的向量以补“0”,超过60个词的,超过部分舍弃,不予以计算处理。所以每个商品最终赋值的词向量的维度数为:60*256+64=60*320;F5、输入卷积神经网络CNN进行特征提取,取1000卷积核3*320维。将F4计算处理后赋值60*320维的向量输入到网络进行卷积操作处理。卷积神经网络CNN取1000大小3*320的卷积核进行特征提取,采用了relu激活函数,对卷积特征提取加入非线性因素的。处理流程参见图3;卷积操作特征提取后输出的特征维度为:60-3+1*320320*1000=58*1*1000;F6、2个双向长短时记忆神经网络Bi-directionalLSTM层进行信息提取。将F5卷积处理后的特征向量进行Dropout2d处理使用Dropout随机忽略一部分神经元,以避免模型过拟合,可以提高特征图之间的独立程度后。输入到两层的Bi-LSTM神经网络中进行特征运算处理。具体可以参见图4;经过两层双向长短记忆神经网络Bi-LSTM处理后,输出序列操作处理后的特征维度为:58*1*64维度的特征向量;F7、2个全连接层FullyConnectedlayer简写FC类别识别处理。将F6处理后的特征向量58*64=3712维,输入到2个全连接层中运算处理,全连接层连接所有的特征,将输出值送给分类器如log_softmax分类器进行降维运算处理全连接层会把输出的多维特征图featureMap转化成一个低维的向量,第一层FC运算处理后输出特征向量维度为800。再将维度为800特征向量输入到第二层FC运算处理后,就是分类所需的维度为6,输入log_softmax分类器进行目标函数函数值的输出处理;F8、通过分类器进行分类处理后输出分类结果数据。步骤A4:分类标注商品信息作为训练样本,及进行迭代训练网络直至完成识别分类模型训练;迭代训练分类模型网络,直到分类模型识别率稳定后,分类模型的迭代训练以达到或优于“表格2”指标值为模型训练完成参考标准。即完成训练任务。具体参见权利要求1的8点描述说明。表格2:数值类型训练集样本测试集样本识别准确率97%90%损失函数值0.250.20步骤A5:测试分析完成训练的分类模型识别率情况;具体参见权利要求1的9点描述说明,“识别数量差”是真实样本数减去识别数量得到,其值为负值时反映该分类识别越容易受其它商品信息错误分类的影响,负值越小影响越大;为正值时反映该分类识别越不容易受其它商品信息错误分类的影响,数值越大影响越小;“错误识别数1”是真实样本数减去识别正确数量得到,其值越大反映分类模型对该分类的识别错误率越高,反之则越小;“错误识别数2”的数值为:“错误识别数1”的数值减去“识别数量差”数值,计算所得数值综合反映了分类模型对商品分类的影响。具体统计的维度以测试集样本数据为例对应表格如下:表格3:其中相关维度统计的计算规则如下:识别数量差:真实样本数量-识别数量含错误=识别数量差错误识别数1:真实样本数量-识别正确数量=错误识别数1错误识别数2:错误识别数1-识别数量差=错误识别数2步骤A6:统计模型分类错误的商品数据与分类模型目标函数值域范围的分布情况;具体参见权利要求1的10点描述说明。步骤A7:构建纠错层对分类模型识别商品信息分布的目标函数值进行过滤预处理;具体参见权利要求1的11点描述说明,及“表格4”、“表格5”说明。通过测试统计计算后纠错层的各个分类阀值如“表格4”所示,其中表格属性“阀值1”为fm0,m1的值,“阀值2”为gm0,m1的值。具体商品分类识别目标函数值的结果如下:商品1:{″温碧泉WETHERM力透白雪肌霜50g原包装立透白雪肌霜50g,新老包装随机发保湿护肤″};商品1识别目标函数值具体参见“表格4”:“03化妆品”目标值:-6.5803527832e-05在所有分类函数目标数值中最大,所有识别结果为:编号03的化妆品;表格4:分类名称阀值1m0-m1阀值2m0m101食品>0.44<0.6602药品>0.44<0.6603化妆品>0.44<0.6604保健品>0.44<0.6605医疗器械>0.48<1.11m0:表示最大目标函数值;m1:表示排序第二目标函数值;表格5:分类名称目标函数值00非四品一械-12.0772857701食品-18.243692402药品-29.2488975503化妆品-6.67572021484e-0604保健品-13.9444284405医疗器械-16.42740822阀值1为:fm0,m1表示m0-m1的相减数值;阀值2为:gm0,m1表示m0m1的相除的数值;m0-m1=-6.67572021484e-06--12.0772857666>0.44m0m1=-6.67572021484e-06-12.0772857666<0.66所以上述计算中最大目标值-6.67572021484e-06满足纠错层计算后,分类被输入到A8分类输出结果。步骤A8:分类处理后的输出层输出分类结果数据;将A7处理后的结果数据映射为“03”编号的化妆品分类作为输出结果。以上所描述说明,仅为本发明所提供的针对互联网电子商务交易平台的商品信息进行分类识别模型构建及训练的方法进行了详细说明。本文中应用了具体个例来说明本发明的原理及实施方法进行相关的阐述,以上实施例子的说明只是帮助理解本发明的流程、方法和核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

权利要求:1.一种互联网电商商品信息四品一械识别分类方法,其特征在于,所述方法包括:A1、收集整理商品信息及其它文本信息作为语料进行分词处理;A2、对分词处理后的语料进行词向量计算,并建立相应的词向量库和词性向量库;A3、构建四品一械识别分类模型的深度学习网络;A4、分类标注商品信息作为训练样本,及进行迭代训练网络直至完成识别分类模型训练;A5、测试分析完成训练的分类模型识别率情况;A6、统计模型分类错误的商品数据与分类模型目标函数值域范围的分布情况;A7、构建纠错层对分类模型识别商品信息分布的目标函数值进行过滤预处理;A8、分类处理后的输出层输出分类结果数据。2.根据权利要求1所述的互联网电商商品信息四品一械识别分类方法,其特征在于:所述步骤A1中,收集正版发布过的文章、小说、新闻等,及采集反映大众熟悉网络商品交易平台中的商品信息描述,并将训练数据语料进行格式化预处理。3.根据权利要求1所述的互联网电商商品信息四品一械识别分类方法,其特征在于:所述步骤A2中,对需要将原始的训练语料转化成一个语料句子的迭代器,每一次迭代返回的语料句子是一个格式化的词语列表,并通过自然语句处理库的模型计算构建词向量库模型对象。4.根据权利要求1所述的互联网电商商品信息四品一械识别分类方法,其特征在于:所述步骤A2中,通过自然语言处理库的词向量计算模型处理,对商品信息文本语料进行词向量库和词性向量库的构建。5.根据权利要求1所述的互联网电商商品信息四品一械识别分类方法,其特征在于:所述步骤A3中,采用多框架结合设计的深度学习网络技术,使网络能更多的结合深度学习框架的优点。6.根据权利要求1所述的互联网电商商品信息四品一械识别分类方法,其特征在于:所述步骤A3中,设计的训练网络层次不会太深,无pooling层处理,设计的网络包含有6层,具体包括:H1:第一层卷积神经网络CNN;H2:第二、三层双向长短时记忆循环神经网络Bi-directionalLSTMRNN;H3:第四、五层全连接层神经网络FullyConnectedlayer简称FC;H4:最后由一个分类器作为输出层,输出分类结果目标函数值。7.根据权利要求1所述的互联网电商商品信息四品一械识别分类方法,其特征在于:所述步骤A4中,不是固定分类样本比例值,而是通过收集分类标注商品信息,及测试分析分类训练样本数量的比例分布,确定最适合商品信息文本分类模型训练样本的比例值范围。8.根据权利要求1所述的互联网电商商品信息四品一械识别分类方法,其特征在于:所述步骤A4中,四品一械分类模型的验证样本包含训练集样本和测试集样本两部分,确定模型训练完成的指标是通过模型的迭代训练以达到模型指标值的稳定,为模型训练完成的标准,其中指标值由训练集样本和测试集样本的识别准确率和损失函数值确定。9.根据权利要求1所述的互联网电商商品信息四品一械识别分类方法,其特征在于:所述步骤A5中,构建一个展示分析商品信息错误分类分布情况的统计模型,进行统计分类模型识别处理后的错误分类商品信息的概率分布情况。10.根据权利要求1所述的互联网电商商品信息四品一械识别分类方法,其特征在于:所述步骤A6中,不直接用分类模型对商品信息识别分类后的最大目标函数值为最终的分类结果,而是在分类模型识别处理后的错误分类商品信息的概率分布情况统计分析基础上,统计分析分类模型对商品信息错误分类识别后输出的所有目标函数值的分布关系,及根据商品信息错误分类的数据中“错误识别数1”和“错误识别数2”的测试样本目标函数值的分布统计情况,构建分类模型错误分类目标函数值与错误分类的关联关系。11.根据权利要求1所述的互联网电商商品信息四品一械识别分类方法,其特征在于:所述步骤A7中,在统计模型分类错误的商品数据与分类模型目标函数值域范围的分布情况处理完成基础上,构建纠错模型处理层对分类模型识别的错误分类数据做过滤纠正处理,达到提高商品信息分类的准确率。12.根据权利要求1所述的互联网电商商品信息四品一械识别分类方法,其特征在于:所述步骤A8中,根据纠错层对目标函数值进行过滤预处理后的识别结果,符合最大目标值且满足上述11点要求,在阀值设定的范围内,将其目标值映射为对应商品分类的编号并输出结果。

百度查询: 北京万诚信用评价有限公司 互联网电商商品信息四品一械识别分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。