买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】用于使用知识桥的学生-教师迁移学习网络的装置和方法_三星电子株式会社_201810360377.6 

申请/专利权人:三星电子株式会社

申请日:2018-04-20

公开(公告)日:2024-04-12

公开(公告)号:CN108960419B

主分类号:G06N3/067

分类号:G06N3/067;G06N3/0464;G06N3/096;G06N3/0442;G06N3/045;G06N3/042

优先权:["20170518 US 62/507,987","20180110 US 15/867,303"]

专利状态码:有效-授权

法律状态:2024.04.12#授权;2020.06.05#实质审查的生效;2018.12.07#公开

摘要:提供了一种装置、方法、制造装置的方法和构建集成电路的方法。所述装置包括:教师网络;学生网络;教师网络和学生网络之间的多个知识桥,其中,多个知识桥中的每一个提供关于正被学习的函数的提示,并且所述提示包括均方误差或概率;以及损失函数设备,连接到多个知识桥和学生网络。所述方法包括:训练教师网络;通过教师网络和学生网络之间的多个知识桥向学生网络提供提示;并根据多个知识桥和学生网络的输出,确定损失函数。

主权项:1.一种用于语音识别的利用学生-教师迁移学习网络的装置,包括:教师网络;学生网络;所述教师网络和所述学生网络之间的多个知识桥;以及连接到所述多个知识桥和所述学生网络的损失函数设备,其中,所述教师网络包括用于接收临近语音的输入和分别连接到所述多个知识桥的多个输出,所述教师网络的多个输出中包括用于最终输出的最终层的输出,所述学生网络包括用于接收远距离语音的输入和分别连接到所述多个知识桥的多个输出,所述学生网络的多个输出中包括用于最终输出的最终层的输出,所述多个知识桥中的每一个分别连接到所述教师网络和所述学生网络的相同级别的层,并且所述多个知识桥中的每一个根据所述教师网络的多个输出中的相应输出提供关于正被学习的函数的提示,以使所述学生网络根据所述提示被训练,所述提示包括均方误差或概率,其中,所述临近语音是无噪声的近距离干净语音,所述远距离语音是混合了噪声、回音和或其他干扰的远场语音,其中,所述教师网络和所述学生网络中的每一个包括9×9第一卷积层、最大池化层、3×1第二卷积层、降维层、至少一个长短期记忆LSTM层、和软最大层,并且其中,所述教师网络和所述学生网络分别是递归教师网络和递归学生网络。

全文数据:用于使用知识桥的学生-教师迁移学习网络的装置和方法[0001]相关申请的交叉引用[0002]本申请要求享有于2017年5月18日递交的美国临时申请No.62507,987和于2018年1月10日递交的美国非临时申请No.15867,303的优先权,其全部内容通过引用而在此并入。技术领域[0003]本公开总体涉及深度学习神经网络,更具体地,涉及用于使用知识桥的学生-教师迀移学习网络的装置和方法。背景技术[0004]尽管近来在自动语音识别ASR方面取得了显著进展,但识别与各种噪声源混合的远场语音例如,来源远离采集语音的麦克风的语音仍然是一项具有挑战性的任务。[0005]深度神经网络DNN的出现已经从根本上改变了ASR的设计。基于DNN的声学模型在对输入语音帧进行分类方面轻易地胜出现有技术中的高斯混合模型GMM。随着高级神经网络架构(如卷积神经网络CNN和递归神经网络RNN的发展,当前性能最佳的ASR的识别精度几乎接近人类听觉能力。然而,大多数ASR系统是基于例如,训练于近距离干净clean语音例如,来源靠近采集语音的麦克风的无任何噪声的语音)。识别混合了噪声、回音和干扰的远场语音会使ASR显著变差。[0006]为了改善远距离(例如,远场语音识别已付出了巨大的努力。多任务降噪联合地优化统一神经网络中的降噪块和识别块,以示出在根据增强多方交互AMI和多源环境中的计算听觉CHiME语料库识别噪声语音方面的一些改进。然而,其表现并不具有持续性,而是依赖于基础声学模型的架构。例如,不同于DNN模型,卷积长短期记忆LSTM不能在多任务降噪中取得任何改进。发明内容[0007]根据一个实施例,一种装置包括教师网络;学生网络;教师网络和学生网络之间的多个知识桥,其中多个知识桥中的每一个提供关于正被学习的函数的提示,并且提示包括均方误差或概率;以及损失函数设备,连接到多个知识桥和学生网络。[0008]根据一个实施例,一种方法包括训练教师网络;通过教师网络和学生网络之间的多个知识桥向学生网络提供提示;以及根据多个知识桥和学生网络的输出,确定损失函数。[0009]根据一个实施例,制造装置的方法包括:将所述装置与至少一个其他装置一起形成在晶片或封装上,其中该装置包括教师网络、学生网络、教师网络和学生网络之间的多个知识桥以及连接到多个知识桥和学生网络的损失函数设备;以及使用一个或多个电到光转换器、一个或多个将光信号分为两个或更多个光信号的分光器以及一个或多个光电转换器来测试所述装置。[0010]根据一个实施例,构建集成电路的方法包括:针对集成电路的层的一组特征生成掩膜布局,其中所述掩膜布局包括针对一个或多个电路特征的标准单元库宏,所述一个或多个电路特征包括一种装置,所述装置包括教师网络、学生网络、教师网络和学生网络之间的多个知识桥以及连接到多个知识桥和学生网络的损失函数设备;在生成掩膜布局期间不为了符合布局设计规则考虑宏的相对位置;在生成掩膜布局后为了符合布局设计规则检查宏的相对位置;当检测到所述宏中的任何一个不符合布局设计规则时,通过将每个不符合的宏修改为符合布局设计规则来修改掩膜布局;根据修改后的掩膜布局生成具有针对集成电路的层的一组特征的掩膜;根据所述掩膜制造集成电路层。附图说明[0011]根据以下结合附图的详细描述,本公开的某些实施例的以上和其他方面、特征和优点将变得更加明显,其中:[0012]图1示出具有零级递归的递归网络的示例性框图;[0013]图2示出具有一级递归的递归网络的示例性框图;[0014]图3示出具有两级递归的递归网络的示例性框图;[0015]图4示出根据一个实施例的本学生-教师网络的示例性框图;[0016]图5示出根据一个实施例的具有三个知识桥的学生和教师网络的示例性实施图;[0017]图6示出根据一个实施例的递归学生-教师网络的示例性框图;[0018]图7示出根据一个实施例的具有针对学生网络和教师网络的不同递归级的递归学生-教师网络的示例性框图;[0019]图8示出根据一个实施例的另一递归学生-教师网络的示例性框图;[0020]图9示出根据一个实施例的另一个学生网络的示例性框图;[0021]图10示出了学生-教师网络的方法的示例性流程图;[0022]图11示出根据一个实施例的制造学生-教师网络的方法的示例性流程图;以及[0023]图12示出根据一个实施例的构建集成电路的方法的示例性流程图。具体实施方式[0024]在下文中,参照附图详细描述本公开的实施例。应该注意的是,尽管相同的元件在不同的附图中示出,但相同的元件将由相同的附图标记表示。在以下描述中,仅提供诸如详细配置和组件的具体细节以帮助全面理解本公开的实施例。因此,对于本领域技术人员来说显而易见的是,可以在不脱离本公开的范围的情况下对这里描述的实施例进行各种改变和修改。另外,为了清楚和简明,省略了对公知功能和结构的描述。下面描述的术语是考虑到本公开中的功能而定义的术语,并且可以根据用户、用户的意图或习惯而不同。因此,术语的定义应基于整个说明书中的内容来确定。[0025]本公开可以具有各种修改和各种实施例,其中实施例在下面参照附图进行详细描述。然而,应该理解的是,本公开不限于这些实施例,而是包括在本公开的范围内的所有修改、等同物和备选方案。[0026]尽管可以使用包括诸如第一、第二等的序数的术语来描述各种元件,但是结构元件不受这些术语的限制。这些术语仅用于区分一个元素和另一个元素。例如,在不脱离本公开的范围的情况下,第一结构元件可以被称为第二结构元件。类似地,第二结构元件也可以被称为第一结构元件。如这里所使用的,术语“和或”包括一个或多个相关项目的任何和所有组合。[0027]这里使用的术语仅用于描述本公开的各种实施例,但不旨在限制本公开。除非上下文另有明确指示,单数形式旨在包括复数形式。在本公开中,应该理解,术语“包括”或“具有”表示特征、数字、步骤、操作、结构元件、部件或其组合的存在,并且不排除添加一个或多个其他特征、数字、步骤、操作、结构元素、部分或其组合的存在或概率。[0028]除非另有定义,否则本文使用的所有术语具有与本公开所属领域的技术人员所理解的相同的含义。诸如通用字典中定义的术语应被解释为与相关领域的上下文含义具有相同的含义,并且不应被解释为具有理想或过于正式的含义,除非在本公开中明确地定义。[0029]提出了多任务降噪,以联合地优化集成在统一神经网络中的降噪网络和识别网络。所述降噪网络在时间t接收噪声声学输入xt,并被训练为通过最小化如式(1的与干净声学输入的均方误差MSE来生成降噪输出:[0031]其中,T为最小批量batch尺寸,qde〇为降噪输出并且Φde为降噪网络中可学习参数集合。将增强特征qde提供到识别网络,以预测音素序列。由于降噪网络与识别网络级联,所以来自识别损失函数的梯度被反向传播到降噪网络中。多任务损失函数Lde如以下式2和⑶所描述:[0034]其中,Φη为识别网络中的可学习参数集合,CE,)为交叉熵,P为识别网络的softmax输出,ytlabel为t处的实测真实值groundtruth标签,α为用来平衡两个损失函数间的权重因子,D为输出标签的维度。[0035]有些方法使用学生-教师框架。知识提炼(KD将较大教师网络的泛化generalized能力迀移到通常小得多的学生网络。它提供由教师网络计算的软目标信息以及它的硬目标,使得学生网络能够学习进行类似地泛化。泛化提炼GD通过使用具有单独的干净数据训练教师网络来扩展提炼方法。学生网络基于噪声数据来训练,并且,与此同时,由来自能够访问同步干净语音的教师的软标签指导。虽然GD方法在各种语料库中有良好的表现,但它仅使用来自教师网络的软输出,这可能会错过语音增强的进一步可能性。[0036]KD允许将大教师网络的泛化能力迀移到较小的学生网络。也就是说,由教师网络计算的软目标和硬目标信息被提供到学生网络,使得学生网络可以学习与教师网络进行类似地泛化。[0037]如果Xt为教师网络和学生网络在时间t时的输入特征,则PtXt为教师网络的softmax输出,并且PsXt为学生网络的softmax输出。进而,学生网络被训练为最小化如式⑷所示的两个目标objective函数的加权平均:[0038][0039]其中,Φ为学生网络的参数集合,并且为KD的损失函数。扩展的知识提炼向教师网络提供单独的特权数据以获得更好的后验估计。在一些方法中,使用并行的干净数据·f是学生网络的特征网络的参数集合,是教师网络的特征网络的输出,是学生网络的特征网络的输出,Xt是噪声输入:是干净的输入,并且Tmb是最小批量帧的数量。教师网络的特征网络的输出被用作指导学生网络的相应特征网络的输出的提示。LdrΦf是在降维层处的第一知识桥的均方损失。[0067]针对图5中的学生网络和教师网络两者,识别网络包括三个LSTM层和softmax层。在图5的教师网络和学生网络的识别网络之间存在两个知识桥。第二知识桥535提供如式7的第三LSTM层513和529的输出之间的MSE回归:[0069]其中,Φί是学生网络的特征网络的参数集合,ir是学生网络的识别网络的可学习参数集合,分别是识别网络的第三LSTM层设备513和529的输出,Xt是噪声输入,是干净的或增强的输入,并且Tmb是最小批量帧的数量。第三知识桥537使用式8中的用于知识提炼的softmax输出:[0070][0071]其中,Pt和Ps分别是教师网络和学生网络的softmax输出概率。学生网络使用梯度的反向传播来优化,以使得式9中的混合损失函数最小化:[0072]LΦf,Φr=LkdΦf,Φr+PLdrΦf,Φr+yLlstm3Φf9[0073]其中,if是学生网络的特征网络的参数集合,Φτ是学生网络的识别网络的可学习参数集合,β和γ是第二和第三知识桥的缩放因子。[0074]教师网络在上预先训练,并且在训练学生网络期间,教师网络仅通过知识桥533、535和537向学生网络提供提示。也就是说,优化是仅使学生网络中的参数最小化。教师网络之前被预先训练过,并且仅向学生网络提供桥连接。[0075]图6示出根据一个实施例的递归学生-教师网络的示例性框图。[0076]在图6中,递归学生-教师网络600包括多个教师网络601、603和605、多个学生网络607、609和611、多个知识桥613、615和617和损失函数设备619。在教师网络601、603和605以及学生网络607、609和611中示出了三级递归。然而,本公开不限于三级递归,或者教师网络和学生网络的递归级是相同的。[0077]递归教师网络和递归学生网络可具有不同的递归级。每个网络的递归结构多次重复相同的函数例如,教师网络M次,学生网络N次)。因此,在每个递归级连接相同的知识桥是多余的。作为替代,在递归教师网络和递归学生网络的最后阶段连接知识桥。最后递归级提供最改进的特征表示,这将比先前递归级的任何知识桥更好地指导递归学生网络。损失函数619可如式(10所示:[0079]其中,φ8是学生网络的可学习参数集合,N是指示知识桥数量的整数,〇1是预定权重因子,并且ei是误差度量。关于学生网络的特征表示qjn何符合Iu的误差度量在知识桥处作为MSE损失如式(I1所示进行计算,[0081]其中,ΦS是学生网络的可学习参数。由于hN和qN是教师和学生网络的softmax概率,所以,作为替代,如式12对eN使用交叉熵损失。[0083]PsXt;iS⑴和分别是第i类的概率。D。是相应网络输出的维度并且Tmb是最小批量帧的数量。[0084]图7示出根据一个实施例的学生网络和教师网络具有不同递归级的递归学生-教师网络的示例性框图。[0085]在图7中,递归学生-教师网络700包括多个教师网络701、703和705、多个学生网络707和709、多个知识桥711、713和715和损失函数设备717。教师网络701、703和705具有三级递归并且学生网络707和709具有二级递归。在教师网络和学生网络之间可以使用任何递归级的组合。[0086]图8示出根据一个实施例的另一个递归学生-教师网络的示例性框图。[0087]在图8中,递归学生-教师网络800包括递归教师网络801、递归学生网络803、多个知识桥805、807和809和损失函数设备811。递归教师网络801通过反馈递归教师网络801的输出以由递归教师网络801进一步处理,来实现任何数量的递归级。递归学生网络803通过反馈递归学生网络803的输出以由递归学生网络803进一步处理,来实现任何数量的递归级。[0088]图9示出根据一个实施例的递归学生网络的示例性框图。[0089]在图9中,学生网络901包括乘法器903、合并设备905、第一LSTM907、第二LSTM909、9X9卷积层设备911、最大池化层设备913、3Xl卷积层设备915、降维层设备917、第三LSTM层设备919、第四LSTM层设备921、第五LSTM层设备923和softmax设备925。[0090]学生网络901包括用于远距离语音识别的递归架构。降维层设备917包括来自第一分支和第二分支的输入。第一分支是3Xl卷积层设备915的CNN输出,第二分支是第二LSTM层设备909的输出。第二分支从先前的递归级中接收输入st,P1。输入st,^与数据输入Xt合并,然后输出到第一LSTM层设备907。在合并前,输入st,^乘以反馈门。所述反馈门如下式13所示:[0092]其中,xt为输入声学特征,St^1为识别网络的第五LSTM层设备923在第n-1递归级的输出,ht-1n为特征网络的第二LSTM层设备909在第η次迭代的输出。[0093]图10示出学生-教师网络的方法的示例性流程图。在1001,本系统训练教师网络。在1003,本系统通过教师网络和学生网络之间的多个知识桥向学生网络提供提示。在1005,本系统通过来自多个知识桥和学生网络的输出确定损失函数。[0094]图11示出根据一个实施例的制造学生-教师网络的方法的示例性流程图。在1101,将装置与至少一个其他装置一起形成在晶片或封装上,所述装置包括教师网络、学生网络、教师网络和学生网络之间的多个知识桥以及连接到多个知识桥和学生网络的损失函数设备。[0095]在1103,测试所述装置。测试所述装置可包括使用一个或多个电到光转换器、一个或多个将光信号分为两个或更多个光信号的分光器和一个或多个光电转换器来测试所述装置。[0096]图12示出根据一个实施例的构建集成电路的方法的示例性流程图。在1201,构建初始布局数据。例如,针对集成电路的层的一组特征生成掩膜布局,其中所述掩膜布局包括针对一个或多个电路特征的标准单元库宏,所述一个或多个电路特征包括具有教师网络、学生网络、教师网络和学生网络之间的多个知识桥以及连接到多个知识桥和学生网络的损失函数设备的装置。[0097]在1203,执行设计规则检查。例如,所述方法可在生成掩膜布局后为了符合布局设计规则检查宏的相对位置。[0098]在1205,调整布局。例如,所述方法在检测到任何宏不符合布局设计规则时,可通过将每一个不符合的宏修改为符合布局设计规则来修改掩膜布局。[0099]在1207,生成新的布局数据。例如,所述方法可根据修改后的掩膜布局生成具有针对集成电路的层的一组特征的掩膜。然后,可以制造根据所述掩膜的集成电路层。[0100]虽然已经在本公开的详细描述中描述了本公开的某些实施例,但是本公开可以再不脱离本公开的范围的情况下以各种形式修改。因此,本公开的范围将不仅仅基于所描述的实施例来确定,而是基于所附权利要求及其等同物来确定。

权利要求:1.一种装置,包括:教师网络;学生网络;教师网络和学生网络之间的多个知识桥,其中,所述多个知识桥中的每一个提供关于正被学习的函数的提示,并且提示包括均方误差或概率;以及损失函数设备,连接到所述多个知识桥和所述学生网络。2.如权利要求1所述的装置,其中,所述教师网络和所述学生网络中的每一个包括:9X9卷积层设备;最大池化层设备;3X1卷积层设备;降维设备;至少一个长短期记忆LSTM层设备;以及软最大设备。3.如权利要求1所述的装置,其中,所述教师网络和学生网络中的每一个分别是递归教师网络和递归学生网络,其中,所述递归教师网络和所述递归学生网络中的每一个为:其中,m丨1足相应的递归教师网络或学生网络的子块M在递归级η的时间t处的输出,η是整数,g是非线性函数,W^WdPb是子块M的内部可学习参数,itn是相应的递归教师网络或学生网络的子块I在递归级η的时间t处的输出,Xt是时间t处的声学输入,p是相应的递归教师网络或学生网络的子块F在递归级η的时间t处的输出,并且Sf1是相应的递归教师网络或学生网络的子块L在递归级n-1的时间t处的输出,并且其中,损失函数是:其中,是可学习参数集合,N是指示知识桥的数量的整数,〇1是预定权重因子,并且ei是误差度量。4.如权利要求3所述的装置,其中,所述递归教师网络包括一个或多个教师网络,以及所述递归学生网络包括一个或多个学生网络。5.如权利要求4所述的装置,其中,所述递归教师网络和所述递归学生网络具有相同数量的递归级或不同数量的递归级。6.如权利要求1所述的装置,其中,所述多个知识桥中的第一个被配置为确定下式:其中,Φί是所述学生网络的特征网络的参数集合,是所述教师网络的特征网络的输出,q|是所述学生网络的特征网络的输出,Xt是噪声输入,χί是非噪声输入,并且Tmb是最小批量帧的数量。7.如权利要求6所述的装置,其中,所述多个知识桥中的第二个被配置为确定下式:其中,Φί是所述学生网络的特征网络的参数集合,Φτ是所述学生网络的识别网络的可学习参数集合,q|和qY分别是所述教师网络和所述学生网络的识别网络的第三长短期记忆LSTM层设备的输出,是噪声输入是非噪声输入,并且Tmb是最小批量帧的数量。8.如权利要求7所述的装置,其中,所述多个知识桥中的第三个被配置为确定下式:其中,Φί是所述学生网络的特征网络的参数集合,Φτ是所述学生网络的识别网络的可学习参数集合,α是权重因子,CE是交叉熵函数,P是所述学生网络的识别网络的softmax输出,y|abel是时间t处的标签,Pt和Ps分别是所述教师网络和所述学生网络的softmax输出概率,Xt是噪声输入,xf是非噪声输入,并且Tmb是最小批量帧的数量。9.如权利要求1所述的装置,其中,损失函数设备被配置为确定下式:其中,是所述学生网络的特征网络的参数集合,Φτ是所述学生网络的识别网络的可学习参数集合,β和γ是所述第二知识桥和所述第三知识桥的缩放因子,LkdΦf,ΦΓ是所述多个知识桥中的第一个的输出,LdrΦί,Φι·是所述多个知识桥中的第二个的输出,Ustm3Φf是所述多个知识桥中的第三个的输出。10.如权利要求9所述的装置,其中,if是通过所述学生网络的特征网络的麦克风接收的远距离语音的集合,并且所述教师网络接收由所述麦克风接收的临近语音。11.一种方法,包括:训练教师网络;通过所述教师网络和学生网络之间的多个知识桥向所述学生网络提供提示;以及根据所述多个知识桥和所述学生网络的输出,确定损失函数。12.如权利要求11所述的方法,其中,所述教师网络和所述学生网络中的每一个包括:9X9卷积层设备;最大池化层设备;3X1卷积层设备;降维设备;至少一个长短期记忆LSTM层设备;以及软最大设备。13.如权利要求11所述的方法,其中,所述教师网络和所述学生网络中的每一个分别是递归教师网络和递归学生网络,其中,所述递归教师网络和所述递归学生网络中的每一个是:其中,OllnV相应的递归教师网络或学生网络的子块M在递归级η的时间t处的输出,η是整数,g是非线性函数,W1JdPb是子块M的内部可学习参数,f是相应的递归教师网络或学生网络的子块I在递归级η的时间t处的输出,Xt是时间t处的声学输入,ftn是相应的递归教师网络或学生网络的子块F在递归级η的时间t处的输出,并且S^1是相应的递归教师网络或学生网络的子块L在递归级n-1的时间t处的输出,并且其中,损失函数是:其中,是可学习参数集合,N是指示知识桥的数量的整数,〇1是预定权重因子,并且ei是误差度量。14.如权利要求13所述的方法,其中,所述递归教师网络包括一个或多个教师网络,以及所述递归学生网络包括一个或多个学生网络。15.如权利要求14所述的方法,其中,所述递归教师网络和所述递归学生网络具有相同数量的递归级或不同数量的递归级。16.如权利要求11所述的方法,其中,所述多个知识桥中的第一个被配置为确定下式:其中,Φί是所述学生网络的特征网络的参数集合,是所述教师网络的特征网络的输出,是所述学生网络的特征网络的输出,xt是噪声输入,X=是非噪声输入,并且Tmb是最小批量帧的数量。17.如权利要求16所述的方法,其中,所述多个知识桥中的第二个被配置为确定下式:其中,Φί是所述学生网络的特征网络的参数集合,Φτ是所述学生网络的识别网络的可学习参数集合,和分别是所述教师网络和所述学生网络的识别网络的第三长短期记忆LSTM层设备的输出,f是通过所述学生网络的特征网络的麦克风接收的远距离语音的集合,并且所述教师网络接收由所述麦克风接收的临近语音。

百度查询: 三星电子株式会社 用于使用知识桥的学生-教师迁移学习网络的装置和方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

-相关技术