买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】用于改善非母语者语音的语音识别的方法_旺多姆咨询私人有限公司_201680062312.2 

申请/专利权人:旺多姆咨询私人有限公司

申请日:2016-09-22

公开(公告)日:2020-03-10

公开(公告)号:CN108352127B

主分类号:G09B19/06(20060101)

分类号:G09B19/06(20060101);G09B5/04(20060101);G06N20/00(20190101);G06F40/40(20200101)

优先权:["20150922 AU 2015903856"]

专利状态码:有效-授权

法律状态:2020.03.10#授权;2018.10.12#实质审查的生效;2018.07.31#公开

摘要:用于为分布式语言学习系统的用户自动生成语音样本资产生产得分的方法、自动口音识别和量化以及改进的语音识别。使用经训练的监督机器学习模块,该监督机器学习模块使用训练集被训练,该训练集包括多个生产语音样本资产记录、由执行感知练习的系统用户生成的相关联的生产得分、以及用户背景信息。经训练的监督机器学习模块可以被配置用于通过馈送候选生产语音样本资产以使语音样本资产生产得分和用户背景信息的生成自动化来实现自动口音识别。这样,用户背景信息可以被转换为口音类型类别,并且语音样本资产生产得分可以被转换为口音强度。在另外的实施例中,使用经训练的系统生成的口音类型类别可以用于改进的语音识别。

主权项:1.一种用于改善非母语者语音的语音识别的方法,所述方法包括:对于包括本地语音样本资产的多个语音样本资产:向多个非母语用户发送所述本地语音样本资产以执行生产练习;接收由所述生产练习生成的生产语音样本资产;向多个用户发送所述生产语音样本资产以执行感知练习;接收由所述感知练习生成的生产得分;训练监督机器学习模块,包括:生成训练集,包括:生产语音样本资产,相关联的生产得分;和多个非母语用户的相关联的用户背景信息;和使用所述训练集训练所述监督机器学习模块以生成经训练的监督机器学习模块;以及对于非母语用户的候选生产语音样本资产:将所述非母语用户的候选生产语音样本资产输入到所述经训练的监督机器学习模块中,以识别非母语用户的用户背景信息;将用户背景信息划分成口音类型类别;根据所述口音类型类别,选择语音识别模块的一种声学模型;利用语音识别模块识别候选生产语音样本资产的语音。

全文数据:用于为分布式语言学习系统的用户自动生成语音样本资产生产得分的方法、自动口音识别和量化以及改进的语音识别技术领域[0001]本发明涉及用于为分布式语言学习系统的用户自动生成语音样本资产生产得分的方法、自动口音识别和量化以及改进的语音识别。发明内容[0002]在本文中提供的实施例中,提供了一种用于为分布式语言学习系统的用户自动生成语音样本资产生产得分的方法。具体地,该方法可以使用经训练的监督机器学习模块,该监督机器学习模块使用训练集被训练,该训练集包括多个生产语音样本资产记录、由执行感知练习的系统用户生成的相关联的生产得分、以及用户背景信息。[0003]—旦被训练,经训练的监督机器学习模块就可以被配置为在被提供候选生产语音样本资产记录和用户背景信息时使语音样本资产生产得分的生成自动化。[0004]在另外的实施例中,经训练的监督机器学习模块可以被配置用于自动化口音识另IJ。具体地,经训练的监督机器学习模块可以被馈送候选生产语音样本资产以使语音样本资产生产得分和用户背景信息的生成自动化。[0005]这样,用户背景信息可以被转换为口音类型类别,并且语音样本资产生产得分可以被转换为口音强度。[0006]在另外的实施例中,使用经训练的系统生成的口音类型类别可以用于改进的语音识别,其中口音类型类别用于为语音识别模块选择适当的声学模型的目的。[0007]因此,考虑到前述内容,根据第一方面,提供了一种用于为分布式语言学习系统的用户自动生成语音样本资产生产得分的方法,该方法包括:对于包括本地语音样本资产的多个语音样本资产,向多个非母语用户发送本地语音样本资产以执行生产练习;接收由生产练习生成的生产语音样本资产;向多个用户发送生产语音样本资产以执行感知练习;接收由感知练习生成的生产得分;训练监督机器学习模块,包括:生成训练集,训练集包括第一多个非母语用户的生产语音样本资产以及相关联的生产得分和相关联的用户背景信息;使用所述训练集训练监督机器学习模块以生成经训练的监督机器学习模块;以及对于非母语用户的候选生产语音样本资产,将非母语用户的候选生产语音样本资产和用户背景信息输入到经训练的监督机器学习模块中,以使候选生产语音样本资产的语音样本资产生产得分的生成自动化。[0008]该方法还可以包括扩展生产得分以降低评级漂移。[0009]该方法还可以包括根据生产得分计算感知得分。[0010]感知得分表示准确性。[0011]感知得分表示一致性。[0012]生产练习可以包括模仿生产练习。[0013]模仿生产练习可以包括单词模仿生产练习。[0014]模仿生产练习可以包括句子模仿生产练习。[0015]生产练习可以包括理解练习。[0016]感知练习可以包括根据反馈标度对记录的语音样本进行评级。[0017]反馈标度可以是数字评级标度。[0018]反馈标度可以是分类评级标度。[0019]生产得分可以包括与多个度量相关的生产得分。[0020]感知练习可以包括将生产语音样本资产与其他语音样本资产相比较。[0021]计算感知得分可以包括将生产得分与用户的生产语音样本资产的至少一个其他生产得分相比较。[0022]计算感知得分可以包括使用统计技术。[0023]统计技术可以包括钟形曲线拟合。[0024]用户背景信息可以包括母语、原籍国和居住国中的至少一项。[0025]该方法还可以用于自动口音识别和量化,该方法包括:将候选生产语音样本资产输入到经训练的监督机器学习模块中以生成语音样本资产生产得分和非母语用户的用户背景信息;将用户背景信息转换为口音类型类别;以及将语音样本资产生产得分转换为口音强度。[0026]经训练的监督机器学习模块可以使用回归来生成语音样本资产生产得分。[0027]经训练的监督机器学习模块可以使用分类来生成用户背景信息。[0028]用户背景信息可以包括母语、原籍国和居住国中的至少一项。[0029]该方法还可以用于改进的语音识别,该方法包括:对于语音识别模块,根据口音类型类别来选择声学模型。[0030]该方法还可以包括:对于语音识别模块,根据口音类型和强度来选择和组合多个声学模型。[0031]语音识别模块可以是隐马尔可夫模型语音识别模块。[0032]该方法还可以用于改进的语音识别,该方法包括:对于语音识别模块,根据口音类型类别和候选生产语音样本资产来训练语音识别模块。[0033]语音识别模块可以是人工神经网络语音识别模块。[0034]该方法还可以用于改进的语音识别,该方法包括:根据相应的多个口音来训练多个语音识别模块,并且根据口音类型类别来选择所述多个语音识别模块中的一个。[0035]语音识别模块可以是人工神经网络语音识别模块。[0036]本发明的其他方面也被公开。附图说明[0037]尽管存在可以落入本发明的范围内的任何其他形式,但是现在将仅通过示例的方式参考附图来描述本公开的优选实施例,在附图中:[0038]图1示出了根据本公开的实施例的用于分布式语言学习系统的用户的语音样本资产生产得分的自动生成、自动口音识别和量化、以及改进的语音识别;[0039]图2示出了根据本公开的实施例的用于比较两个语音样本资产的示例性方法;[0040]图3示出了根据本公开的实施例的由语音样本资产排序模块实现的示例性用例场景;[0041]图4示出了根据本公开的实施例的作为资产A和B之间的评级得分差值的函数的期望值;[0042]图5示出了根据本公开的实施例的适合于被评估资产的使用具有5个分段的分段线性函数进行的评级拉伸;[0043]图6示出了根据本公开的实施例的监督机器学习模块的训练;[0044]图7示出了根据本公开的实施例的用于自动生成语音样本资产生产得分的经训练的监督机器学习模块;[0045]图8示出了根据本公开的实施例的用于自动标识口音类型类别和口音强度的经训练的监督机器学习模块;[0046]图9示出了根据本公开的实施例的用于改进语音识别系统的口音类型类别;[0047]图10示出了根据本公开的实施例的用于选择语音识别系统的声学模型的口音类型类别;以及[0048]图11示出了根据本公开的实施例的用于不同口音的语音识别的人工神经网络。具体实施方式[0049]为了促进对根据本公开的原理的理解,现在将参考在附图中示出的实施例,并且将使用特定的语言来描述这些实施例。然而应当理解,并非由此意在限制本公开的范围。本文所示的发明性特征的任何改变和另外的修改以及本文说明的本公开的原理的任何附加应用(其对相关领域的技术人员而言通常会发生并且涵盖本公开将被认为在本公开的范围内。[0050]在与用于为分布式语言学习系统的用户自动生成语音样本资产生产得分的方法相关的结构、系统和相关联的方法之前,公开和描述了自动口音识别和量化以及改进的语音识别,应当理解,本公开不限于本文中公开的特定的配置、处理步骤和材料,因为这些可以稍微变化。还应当理解,本文中使用的术语仅用于描述具体实施例的目的,并非意在限制,因为本公开的范围将仅由权利要求及其等同方案限制。[0051]在描述和要求保护本公开的主题时,将根据下面给出的定义来使用以下术语。[0052]必须注意,如本说明书和所附权利要求中使用的,除非上下文另外明确指出,否则单数形式“一个a”、“一个an”和“该the”包括复数指示物。[0053]如本文中使用的,术语“包括(comprising”、“包含(including”、“含有containing”、“特征在于”及其语法等同词汇是包括性的或开放式的术语,其不排除另外的未列举的要素或方法步骤。[0054]应当注意,在以下描述中,在不同实施例中的相似或相同的附图标记表示相同或相似的特征。概述[0055]在下面的实施例中,将描述用于改进非母语者的自动语音识别的系统1。[0056]具体地,转到图1,示出了系统1,其包括四个主要功能模块或其子集。[0057]具体地,并且如将在下面进一步详细描述的,系统1包括被配置用于对语音样本资产进行排序的语音样本资产排序模块2。模块2还可以被称为分布式语言学习系统2,因为用户15使用系统2执行生产和感知练习,使得系统2能够生成多个语音样本资产7的生产得分8和多个系统用户15的感知得分11。[0058]在实施例中,系统1还可以包括最优语音样本资产选择模块3,模块3被配置用于根据从语音样本资产排序模块2导出的排序来选择最优语音样本资产。[0059]此外,系统1包括监督机器学习模块4。在实施例中,监督机器学习模块4可以被配置为自动生成生产得分8。此外,在实施例中,监督机器学习模块4可以配置为自动生成口音类型类别和口音强度。在实施例中,监督机器学习模块4将使用语音样本资产7和由语音样本排序模块2生成的生产得分8来被训练。在这个实施例中,监督机器学习模块4还可以基于用户背景信息被训练。从图1中可以看出,在实施例中,监督机器学习模块4可以附加地或替代地使用所选择的最优语音样本资产来训练或由最优语音样本资产选择模块3来训练。[0060]此后,系统1包括被配置用于执行语音识别的语音识别模块5,其中通过考虑由监督机器学习模块4确定的不同口音分类,语音识别得到了改进,其中具体地,根据由监督机器学习模块4检测到的语音样本资产的口音和强度来使用不同的声学模型。[0061]应当注意,术语“模块”不应当被解释为限于特定的技术实现,并且可以涵盖在本文中描述的实施例的范围内的不同技术实现。例如,本文中描述的各种模块可以各自由包括由单个或分布式计算系统执行的相关软件模块的计算机程序代码来执行。[0062]此外,应当注意,图1的不同模块被单独表示,主要是为了说明便利以区分每个模块的功能。然而,在实施例中,这样的模块可以由相同或不同的计算机设备来实现,并且这些数据库可以是共享的或不同的。语音样本资产排序模块。[0063]如将在下面进一步详细描述的,语音样本资产排序模块2被配置用于语音样本资产的用户评估以及用于分配排序。[0064]在一个实施例中,语音样本资产排序模块2被配置用于根据包括本文中描述的那些事件的某些事件来对排序进行增量更新。[0065]现在,语音样本资产排序模块2可以包括被配置用于存储本文中描述的各种必要数据的数据库6。[0066]具体地,数据库6可以被配置用于存储表示从使用语音样本资产排序模块2的用户获取的各种语音样本资产的语音样本资产7。[0067]具体地,在实施例中,语音样本资产排序模块2可以实现被配置为在因特网上服务于HTTP请求的网络服务器12。[0068]以这种方式,用户15诸如包括非母语者17和母语者16使用客户终端13用于与网络服务器12交互以执行本文所述的各种功能的目的,包括参与其中生成语音样本资产的生产练习以及其中对语音样本资产7进行评级的感知练习。在实施例中,用户15可以包括教师或专家用户,通常是母语者和学生用户,其可以包括母语者和非母语者17的混合。[0069]现在参考数据库6,可以看到,语音样本资产7可以被分配各种评级。具体地,如图所示,每个语音样本资产7可以与生产得分8和评级确定性9相关联。[0070]一般而言,生产得分8指示用户15对语音样本资产7的发音能有多好。在实施例中,语音样本资产排序模块2可以经由客户终端13向相关联的用户15显示生产得分8。在本文中描述的实施例中,评级得分包括从〇到100的数字。[0071]此外,每个语音样本资产7具有相关联的评级确定性9。一般而言,评级确定性指示生产得分8的确定性,并且在所提供的实施例中,可以包括从O到IOO的数字。[0072]还可以看到,用户数据10也存储在数据库6内,其中用户数据10表示语音样本资产排序模块2的各种用户15。在实施例中,用户数据10可以另外包括用户背景信息,诸如原籍国和居住国、母语等。在实施例中,这可以用于训练监督机器学习模块4,如将在下面进一步详细描述的。[0073]如可以看到的,对于用户数据10的每个条目,还可以分配有感知得分11。一般而言,感知得分描述由用户15生成的排序的质量。同样,感知得分可以包括在0到100之间的数字。[0074]现在,在初始注册过程中,用户可以指示用户是语音样本资产排序模块2的特定语言的母语者16还是非母语者17。[0075]现在,对于由母语者16生成的语音样本资产7,语音样本资产排序模块2可以分配高的生产得分8和评级确定性9。此外,高的感知得分11可以初始被分配给母语者16。评级初始化[0076]对于非母语者17,生产得分8可以在涉及相关语音样本资产7的第一比较练习期间被初始设置。在实施例中,生产得分8可以通过下面进一步详述的监督机器学习模块4来初始化。[0077]具体地,如可以看到的,语音样本资产排序模块2可以包括被配置用于实现本文所述的各种功能的多个软件模块6。在这点上,软件模块19可以包括被配置用于实施各种比较练习以由用户15使用包括感知练习的客户终端13来完成的比较练习模块18,其中语音样本资产7经由客户终端13被播放用于用户15的感知练习。基于由感知练习模块18实现的感知练习的结果,可以设置初始生产得分8。[0078]此外,语音样本资产9的初始评级确定性9可以被设置为0。[0079]此外,在实施例中,用户15的初始感知得分11可以设置在中间位置处,诸如在50处。[0080]相反,对于包括母语者16的用户,初始化可以包括为相关语音样本资产7分配初始高生产得分8,例如在实施例中为95。此外,也可以分配高的评级确定性9,例如95。[0081]另外,可以分配初始高感知得分11,其中例如教师或专家用户15被分配非常高的感知得分11,例如90,而其他母语者16被分配较低的感知得分11,例如70。比较事件[0082]此时,评级8、9和感知得分11在某些事件中被更新。具体地,一个这样的事件包括由比较练习模块18实现的比较事件。[0083]具体地,由比较练习模块8实现的比较事件可以包括多个比较练习。[0084]根据一个实施例,比较练习模块18实现感知练习39,其中使用客户终端13的用户收听多个语音样本资产7并且根据感知的发音准确性来对语音样本资产进行排序。在优选实施例中,比较包括成对比较,其中一对语音样本资产7被呈现给用户并且其中用户选择由用户感知为最准确发音的语音样本资产7。[0085]在另外的实施例中,比较练习模块18可以实现分类练习40,其中客户终端13向用户15呈现多个语音样本资产7,其中用户15必须输入所呈现的语音样本资产7中的哪些已经由母语者产生以及哪些还没有产生。可替代地,在另一实施例中,用户15将被要求独立地对每个语音样本资产7进行排序。在实施例中,分类练习可以使用参考母语者,所述多个其他语音样本资产7与参考母语者进行比较。在这点上,参考母语者的评级不变。[0086]比较练习模块18还可以包括评估练习41,其中母语者17能够向语音样本资产7指派评级得分。如下面将进一步详细描述的,母语者16或专家用户15的指派被存储,并且可以在评级拉伸期间使用,如下面进一步详细描述的。注意,如下面进一步详细描述的,当解决特定问题包括用于感知练习的资产的最优选择时,优选地很少使用母语者16或专家用户15的这种评估。用于比较资产的方法[0087]现在转到图2,示出了用于比较在示例中作为资产A21和资产B22给出的两个语音样本资产7的示例性方法20。[0088]具体地,如从语音样本资产排序模块2的软件模块19中可以看出的,软件模块19可以包括被配置为根据由感知练习模块18实现的感知练习的结果来更新生产得分8、评级确定性9和感知得分10的得分更新模块36。[0089]具体地,感知练习模块18将经由客户终端13呈现资产A21和资产B22两者以供用户比较。这样的练习可以涉及两个语音样本资产7的用户感知以及由用户判断为最准确发音的语音样本资产7的选择。[0090]这样,示例性方法20包括在其中计算期望值第一步骤27。具体地,期望值是资产A21的排序高于资产B22的概率。例如,期望值可以是在0到1之间的数字,并且可以是资产A和B的评级得分之间的差值37的函数。差值越大,期望值越高。如果差值为0,则期望值为0.5。期望值进一步是资产A25的评级确定性和资产B26的确定性评级的函数。[0091]方法20包括在其中计算“惊奇”度量的另一个步骤2。在这种情况下,惊奇度等于结果减去在步骤27中计算的期望值。如果A的排序高于B,则结果为1,而如果A的排序低于B,则结果为0。在这点上,惊奇度可以是负值。[0092]然后,在步骤28,如果资产A21的排序高于资产B22,则资产A21的评级得分根据所计算的期望值38而升高,其中期望值38越低,则增加越高。资产A21的评级得分根据资产A25的评级确定性进一步提高,其中确定性越高,则增加越低。相反,资产A23的生产得分根据资广B26的评级确定性进一步提尚,其中确定性越尚,则增加越尚。此外,资广A23的生产得分根据用户30的感知得分进一步提高,其中感知得分30越高,则增加越高。[0093]在步骤29,同样,如果资产A21的排序高于资产B22,则资产B22的评级得分根据期望值38、资产A25的评级确定性、资产B26的评级确定性和感知得分30而相反地降低。应当注意,在降低资产B22的评级得分时,资产A25的评级确定性越高,则减少越多,并且资产B26的评级确定性越高,则减少越多。[0094]步骤31,对已更新的评级得分23、24进行边界检查。[0095]在步骤32中,更新资产A21和资产B22的评级确定性9。评级确定性9可以根据取决于当前确定性的年龄增益33来更新。[0096]具体地,当前确定性越大,则年龄增益33越低。此外,评级确定性9根据基于惊奇度的增益或损失来更新。在这点上,惊奇越大,则损失越大。此外,评级确定性9根据用户的感知得分来更新,其中得分越好,则改变越大。[0097]最后,在步骤35中,根据惊奇度来更新用户的感知得分11。评级拉伸[0098]在实施例中,语音样本资产排序模块2被配置用于评级拉伸。对于不同的语音样本资产7,评级拉伸对于积累由不同母语者16设置的不同评级得分而言很重要。[0099]此外,可以使用评级拉伸来使描述同一单词的不同语音样本资产7的生产得分8归一化,以限制可能的评级漂移。在这个实施例中,对于同一单词在整个一组语音样本资产7上执行评级拉伸。在这点上,评级拉伸算法是一种调节个人评级得分的函数。拉伸算法被设计为满足包括单调性的第一条件,其中如果资产A21在拉伸之前具有比资产B22更高的得分,则资产A23的评级得分在拉伸之后不得低于资产B24的评级得分。[0100]此外,拉伸算法还满足教师得分保真度的另外的条件,其中如果资产A21已经被母语者17分配了得分S,则资产A23在拉伸之后的评级得分减去分配的得分S被计算为局部误差。在这点上,全局误差被计算为局部误差的加权组合。在这点上,拉伸算法试图使全局误差最小化。[0101]此外,在实施例中,在实现评级拉伸之后,标识由母语者16评估的语音样本资产7,并且其中对于这些标识的语音样本资产7,在拉伸之后的新评级得分与由母语者17给出的得分之间的差值被计算为局部误差。因此,对于这些标识的语音样本资产,资产的评级确定性9增加,其中局部误差越小,则评级确定性9的增加越大。此外,母语者17的感知得分11根据计算出的局部误差被更新。示例性用例场景[0102]现在转到图3,示出了由语音样本资产排序模块2实现的示例性用例场景49。在示例性场景9中,示出了已经分别生成了相关联的资产A21和B22的用户15A43和用户15B44〇[0103]这样,在场景49中,感知练习39由感知练习模块39实现,其中用户45对46资产A21和资广B22进彳丁排序。[0104]在已经执行了感知练习39之后,生产得分更新模块36更新各种评级、确定性和得分。具体地,可以看到,评级得分更新模块36用资产A21和资产B22的已更新的生产得分46来更新评级得分8。[0105]此外,生产得分更新模块36用执行了感知练习的用户15、45的已更新的感知得分48来更新感知得分11。数学模型[0106]考虑具有评级得分Sa和评级确定性Ca的资产A。假定实际评级得分是一个随机变量,其概率分布PA取决于Sa和CA。然后假定分布的均值仅取决于Sa并且等于Sa,并且方差V仅取决于CaJ对Ca的依赖性是相反的:随着确定性的增加,方差(“不确定性”)降低。[0107]存在选择分布模型(家庭)的几种可能性。这里,只讨论正态分布钟形)。分布用NSA,VCa表示:正态分布的均值为SA,方差V仅)取决于CA。为了简单起见,可以假定V=IOO-Ca2数学模型一一比较:期望值和更新[0108]在比较两个资产A和B时,A的评级高于B的期望值是随机变量A大于随机变量B的概率。对于正态分布变量,显式表达式因此是:ϋI[0109]这个公式的主要特性是:a.如果A的评级得分大于B的评级得分,则期望值大于0.5;否则小于0.5;b.期望值是“对称的”:PBA=I-PA,B;c.期望值的范围为[0,1];d.期望值随着评级得分之间的差值而增加;e.随着任何评级的不确定性的增加,期望值接近0.5。[0110]实际上,基于逻辑斯谏函数,使用另一公式代替0.1:0'·2[0111]该公式有一个附加的正参数K,它是一个常数,或者是评级不确定性的函数。公式0.2自动享有公式0.1的前4个属性;并且如果K被适当地选择,则享有第五个属性。[0112]图4示出了作为资产A和B之间的评级得分差值的函数的期望值。[0113]评级更新如下进行。考虑其中资产A与资产B^B1.....Bn相比较的事件。例如,在感知练习中。然后根据以下通用公式来更新评级得分:0.3[0114]这里,变量是:a.^比较结果:如果A的排序低于B1,则为0,否则为1;b.U1更新权重因子,取决于资产B1;c.Ma更新权重因子,取决于资产A;d.L更新权重因子,取决于执行感知练习的用户15的感知得分。[0115]如果假定评级确定性是100减去评级标准偏差,则可以使用已更新的公式,其中标准偏差id被称为评级偏差RD。[0116]为了更新收听者得分,可以再次使用公式0.3。不是总结一个资产的所有比较,而是总结用户15完成的所有比较,并且更新不取决于资产:[0117]〇·4[0118]参数W可以使用适当的启发式来选择,例如类似于ELO系统[1]。数学模型评级拉伸[0119]评级拉伸可以使用分段线性函数PLF来实现。PLF由一组支持点{X1,yi,(X2,y2,...,(XN,yN}定义,其中N是支持点的数目,并且X1〈X2〈...〈XN。于是,函数的值是[0120]〇.5[0121]在这种情况下,X是拉伸之前的评级得分;y是拉伸之后的评级得分。显然,Xi=yi=0;XN=yN=100』的方便选择将是类别的数目;则对于0〈i〈r^]Xl将是类别边界。其余的自由度是yi。由于单调性条件,存在yi〈y2〈...〈yN。可以选择y来最小化全局误差[0122]ί0·6[0123]其中Wi是与评估者的感知得分成比例的权重;Si是当前得分,并且是评估的得分。加上单调性条件,误差的最小化是一个二次规划问题,对于这种问题,存在现成的方法。[0124]图5示出了适合于被评估的资产的使用具有5个分段的分段线性函数进行的评级拉伸,。语音样本资产的最优选择[0125]再次转到图1,可以看到,系统1在实施例中还包括被配置用于语音样本资产7的最优选择的最优语音样本资产选择模块3。[0126]—般而言,选择模块3将根据相关联的相关生产得分8来将语音样本资产7分成M个类别。这些类别表示用户15的不同熟练程度,诸如“初学者”、“高级”、“专家”、“母语者”等。可以使用其他类别,其中其最优细分在下面进一步详细描述。[0127]此时,一般而言,在39中的感知练习期间,用户15对N个语音样本资产7进行比较和排序。这样,最优语音样本资产选择模块3被配置为选择N个语音样本资产7,从这N个语音样本资产7中通过比较可以收集大量信息用于分类的细分的目的。[0128]在这点上,所使用的语音样本资产7可以包括资产7的混合,包括高评级确定性得分8和低评级确定性得分8。这样,每个类别被指派生产得分8基准,作为每个类别的平均生产得分8或评级得分范围。而且,每个类别的基准是不同的。此外,不应当将语音样本资产7进行多于一次的比较。[0129]这样,当执行分类时,最优语音样本资产选择模块3可以实现分类算法,其中对于被选择用于使用的感知练习39,存在至少一个低确定性资产7。此外,对于每个低确定性资产7,至少存在较低或较高的基准。因此,如果低确定性资产7属于最低或最高类别,则采用来自同一类别的基准。[0130]此时,在特定实施例中,选择模块3被配置用于基本上自主地最优地选择语音样本资产7。然而,在某些特殊情况下,可能需要由母语者进行的附加感知练习来解决特定问题或为选择13创建特定参考点。[0131]可能需要两个潜在场景,其中在语音样本资产7上要求母语者17经由客户终端13进行分配,其中上述评级拉伸需要母语专家评估,或者其中用户15不能同意生产得分8。[0132]如果1在类别中没有标记的用户15,2类别中的所有专家评估用户15离第一类别中心太远,或者3靠近类别中心的专家评估用户15的评级得分离实际评级得分太远,则在第一场景中可能需要由母语者16或专家用户15执行的这样的另外的感知练习。此外,对于其中用户15对比较事件的数目的评级确定性过低的第二场景,可能需要这样的手动干预。[0133]现在,更详细地说,选择模块3使用多个软件模块19来进行最优语音样本资产7的选择。[0134]可以看到,选择模块3的软件模块19可以包括聚类模块50,其中与同一单词相关的语音样本资产7被分成预定数目的类别。[0135]具体地,可以看到,选择模块3还可以包括数据库6,数据库6包括已经被指派给各个语音样本资产7的类别53。这样,聚类模块50被配置用于向数据库内的相关联的类别53分配语音样本资产7。在实施例中,聚类模块15实现可以涉及最小化总的聚类内方差的一维聚类。[0136]—旦执行了聚类,则可以使用归一化模块51,其中类别中心被定义为类别53内的相关联的资产的均值,使得归一化模块51被配置用于使用标准偏差来归一化语音样本资产7距分类中心的距离。距类别中心的距离可以称为Z得分。[0137]此外,选择模块3的软件模块19还包括用于评估模块52的选择,其中评估模块52被配置用于在特殊情况下为母语者评估选择那些语音样本资产7。[0138]在选择用于专家评估的语音样本资产7时,评估模块52可以实现包括第一优先级的优先级,其中如果在特定类别中不存在评估用户15,则选择来自类别的资产。在上述评级拉伸期间,这样的选择将间接地影响所有其他资产7。[0139]此外,评估模块52可以选择具有阈值最小比较数目并且具有低评级确定性9的那些资产7。用于低评级确定性的阈值可以根据所使用的模块进行调节。例如,一旦初始化,则可以使用统计模块,其中模块预测到在N个比较之后,资产7应当具有确定性C,其误差裕度为M。这样,资产的“坏度”被测量为预期的确定性减去资产确定性后与期望值的误差裕度的比率。[0140]然后,评估模块52可以进一步选择那些没有靠近类别中心的语音样本资产7的类另IJ,如Z得分所测量的那样。[0141]最后,评估模块52可以选择用于评估的随机样本。监督机器学习以进行资产评估[0142]再次转到图1,如可以进一步看到的,系统1可以包括用于资产评估的监督机器学习模块4。[0143]现在,监督机器学习是一个框架,其中计算机程序关于某个任务的性能随着具有提供给程序的解决方案的任务的实例的数目而提高。提供的具有解决方案的实例的集合被称为训练集。[0144]有两种用于“学习”如何解决问题的基本机制,包括1类比,其中在训练集中标识类似的问题并且适配相关联的解决方案;以及2抽象,其中使用训练数据,得出一组规则,其产生相关联的解决方案。抽象的质量通过程序解决新任务的能力来衡量。[0145]在处理机器学习任务时,必须解决问题的划分。在这种情况下,两种常见的划分是相关的:a.分类:给定输入数据和一组离散类别,确定资产属于哪个类别。b.回归:给定输入数据,确定数目或一组数。[0146]考虑例如天气预测。预测天气类型(晴天、多云、雨、雪、雾等是一种分类任务。预测温度、空气湿度、降水量是一种回归任务。[0147]机器学习中的一个主要问题是问题的表示:如何表示输入数据。原始输入数据通常不适用:与相关信息量相比,信息量非常大。因此,原始数据被处理成一组特征。这个特征向量然后作为框架的输入。但是,标识相关特征的问题依然存在。[0148]手动特征定义的替代方案是新兴的表示学习领域。系统提供有原始数据,并且其目标不仅是学习如何解决问题,而且还学习如何以面向解决方案的方式来表示输入数据。最常见和日益流行的被称为深度学习的方法基于人工神经网络ANN。监督机器学习模块4用于语音样本资产评级的应用[0149]现在将具体描述监督机器学习模块4用于资产评估的用途。在这个实施例中,原始输入数据是语音样本资产7,并且输出是生产得分8和或类别。训练集是具有已知评级8的资产7的数据库。理想地,只有具有高确定性的资产应当被纳入训练集。[0150]具体地,可以看到,机器学习模块4可以类似地包括多个软件模块6和数据库9。可以看到,软件模块6可以包括被配置为确定资产类别53推断口音类型类别,如将在下面进一步详细描述的)以存储在数据库19中的分类模块54。[0151]此外,机器学习模块4可以包括被配置为确定生产得分8以存储在数据库19中(推断口音强度,如将在下面进一步详细描述的)的回归模块55。[0152]此外,模块6可以包括用于优化分类模块54和回归模块55的训练模块56。训练模块54的输入可以仅仅是那些具有已知生产得分8的语音样本资产7。此外,理想地,只使用那些评级确定性9超过阈值的语音样本资产7。[0153]此时,输入数据的表示可以使用自动口音识别。例如,在一个实施例中,可以将美尔频率倒谱系数MFCC表示应用于输入语音样本资产7。可替代地,可以使用深度学习方法来表示输入数据。MFCC特征很可能会在学习到的表示中出现;因此,认为两种方法相互竞争或相互排斥是不正确的。用例场景:用于使用用户评级进行自动口音识别和量化的监督机器学习[0154]现在转到图6,示出了使用监督机器学习模块4用于使用评级得分8进行自动口音识别和量化的示例性用例场景。[0155]最初,使用训练模块56训练监督机器学习模块4。具体地,使用可以包括语音样本资产7和语音样本资产7的得分8的完整数据单元58来训练模块4。理想地,只有那些评级确定性9较高的语音样本资产7才被用于训练目的。[0156]此外,可以使用用户背景信息80。可以使用各种用户背景信息80,包括用户15的第一语言、原籍国(如果提供了的话)、居住国(如果提供了的话等。[0157]可以看到,多个完整数据单元58构成训练集57,训练集57然后被馈送到训练模块56中以训练监督机器学习模块4的分类模块54和回归模块55。用例:应用经训练的系统4用于自动生成语音样本资产生产得分[0158]现在转到图7,在以上述方式训练了监督机器学习模块4之后,示出了示例性用例场景63,其中经训练的监督机器学习模块4被用来预测语音样本资产7的评级8。[0159]具体地,如图所示,对于特定用户15,用户背景80和语音样本资产7被馈送到经训练的监督机器学习模块4中,使得生产得分8从经训练的系统4被输出,其可以用作对用户15的反馈。监督机器学习模块4的用于第二语言内的本地口音的口音识别和量化的应用[0160]现在转到图8,在示例性场景65中示出了经训练的监督机器学习模块4的用于第二语言内的本地口音的口音识别和量化的应用。[0161]具体地,首先应用经训练的系统4来测量评级8和用户背景80。然后可以将生产得分8直接转换为口音强度,其中得分越好,则口音越弱。用户背景80用于确定口音类型。[0162]换言之,经训练的系统4可以用于测量语音样本资产记录7的口音类型和强度,其中生产得分8可以被转换为口音强度,其中得分8越好,则口音越弱。用于改进的语音识别的自动口音识别[0163]现在,从图1中可以看出,系统1还可以包括语音识别模块5。如下面将进一步详细描述的,由经训练的监督机器学习模块4确定的口音类型67和口音强度68可以用于增强语音识别模块5的准确性。[0164]具体地,如图9的示例性场景69所示,由监督机器学习模块4确定的口音信息可以在应用于非母语者记录时对语音识别系统提供改进。[0165]从场景中可以看出,对于被馈送到经训练的系统4中的语音样本资产记录7,可以导出生产得分8和用户背景信息80,从中可以确定口音类型67和口音强度68,口音类型67和口音强度68然后被馈送到语音识别系统5中以提高所生成的文本70的准确性。[0166]可以在“经典”和“现代”语音识别系统之间进行区分。经典系统基于所谓的隐马尔可夫模型HMM,而现代系统则基于人工神经网络和深度学习。用于经典语音识别系统的应用[0167]转到图10,示出了在经典语音识别系统中使用检测到的口音类型67和口音强度68的示例性用例场景71。[0168]在经典系统中,记录的语音被分解成“单词”,其可以是多个单词或短语。这些单词然后被转换为倒频谱73,倒频谱73是一系列信号。[0169]使用声学模型,HMM74然后提出音素声音序列。这些序列然后与字典78中的单词(或短语75相匹配。然后选择最可能的建议。在高级系统中,应用上下文校正77,其中可以校正所识别的单词以适应当前上下文。[0170]口音识别可以帮助选择适当的声学模型72。具体地,口音类型67可以用来选择适当的声学模型。此外,检测到的口音强度68可以用来混合各种声学模型。[0171]考虑下面的示例:在很多语言中,包括斯拉夫语言组,在短元音和长元音之间没有区别。因此,“lid”和“lead”这两个单词的发音几乎与俄语母语者一样,而德语母语者对这两个单词的发音则不痛。如果语音识别系统得到说话者具有强烈的俄罗斯口音的信息,则语音识别系统可以选择这样声学模型:其中与’lead’中的’ea’和’lid’中的’i’相对应的音素是相似或相同的,所以建议’lead’和建议’lid’的可能性是相同的。它们之间的区别可以在基于上下文的修正期间进行。另一方面,如果语音识别系统被告知说话者具有强烈的德语口音,则建议’lead’和建议’lid’应当具有不同的可能性。用于现代语音识别系统的应用[0172]现有技术的语音识别系统基于人工神经网络和深度学习。这些系统通常使用大量母语记录被训练。因此,当他们应用于第二语言说话者的记录时,他们经常表现出平庸的表现,这并不奇怪。[0173]在训练阶段添加非母语者的记录而没有另外的信息可能会对这样的系统的性能产生负面影响。针对母语者所学习的特征会因各种非本地发音而变得模糊,并且母语者的准确性会变差。如果非母语者记录的数目较低,那么这些记录将被人工神经网络边缘化和忽略,因为它们的总体贡献较低。[0174]在这种情况下,口音识别可以以两种方式应用:a.1.在人工神经网络训练阶段,将口音识别系统的输出与原始记录一起用作输入。当应用人工神经网络进行语音识别时,将口音识别系统的输出与记录一起用作输入。b.2.对于不同的口音来训练不同的人工神经网络。对于语音识别,基于口音识别系统的输出来选择适当的人工神经网络。[0175]注意,方法1理想地应当通过向不同口音指派网络中的不同部分(路径)来并入方法2。[0176]例如,现在参照图11,在人工神经网络中,存在多个层。每个层具有多个节点。层中的每个节点连接到相邻层中的每个节点。在训练过程中学习每个连接的强度权重)。在训练网络时,可以研究具有大权重的连接。这些连接构成了网络的相关部分。有时候,这个相关部分具有一些子结构。可以从网络中取出这样的子结构,保持权重,并且它可以作为自主的人工神经网络。[0177]在图11中,示出了用于具有不同口音的语音识别的人工神经网络。输入是记录信息作为语音样本资产实际上是很多节点)以及三种口音作为示出的第二、第三和第四输入的强度。通常,一个口音很强作为第二输入节点),而另外两个口音较弱作为第三和第四输入)。输出是字典中的三个单词之一。[0178]从节点加权连接(以粗体示出)可以看出,可以从网络中标识子结构。当删除所有其他连接时,这个子结构将作为针对相关口音作为第二输入口音而被训练的语音识别系统。因此,这个子结构隐含地嵌入在更大的框架中。用于为分布式语言学习系统的用户生成语音样本资产生产得分和感知得分的示例性方法[0179]现在,已经总体上描述上述技术架构和相关联的方法,将描述用于为用户自动生成语音样本资产生产得分的示例性方法。[0180]在优选实施例中,生产练习包括模仿练习,其中用户15被指示尝试尽可能接近地模仿本地语音样本资产。[0181]例如,用户15可能需要使用客户终端13来收听本地语音样本资产,并且然后使用客户终端13的麦克风来记录本地语音样本资产的模仿。[0182]在实施例中,生产练习可以指示用户15尝试尽可能接近地模仿各个单词或整个句子。[0183]应当注意,尽管在优选实施例中,本地语音样本资产7被发送到客户终端13,但是在其他实施例中,并不一定要使用本地语音样本资产7来代替例如在客户终端13的屏幕上显示文本并且指示用户15从文本中读取。[0184]应当注意,虽然本文中参考优选实施例描述了模仿练习,但是应当注意,在其他实施例中可以执行其他生产练习。例如,生产练习可以包括理解练习。[0185]现在,对于用户15被指示模仿语音样本资产的实施例,用户15将例如通过使用客户终端13的麦克风来记录所记录的生产语音样本资产7。如将在下面进一步详细描述的,所记录的语音样本资产用于生成生产得分,其中所记录的语音样本资产被其他用户评级。[0186]应当注意,虽然在优选实施例中用户15记录语音样本资产,但是在其他实施例中,可以以其他方式完成生产练习,例如通过允许用户15输入文本,从多选项问题中进行选择等。[0187]然而,在用户15被指示记录模仿本地语音样本资产的所记录的语音样本资产的优选实施例中,一旦完成,则用户15的客户终端13适于将所记录的生产语音样本资产7发送到排序模块2其可以采取服务器的形式),所记录的生产语音样本资产7可以被存储在数据库19内。[0188]此时,在接收到所记录的生产语音样本资产之后,语音样本排序模块2适于将所记录的生产语音样本资产发送到另一用户15以用于反馈。[0189]此时,其他用户15被指示执行感知练习以生成所记录的生产语音样本资产的生产得分。[0190]此时,如可以理解的,生产得分可以由用户15以各种方式生成。[0191]在一个实施例中,用户15单独接收所记录的语音样本资产以单独提供反馈。例如,对于每个单独接收的语音样本资产,用户15可以被指示根据诸如1至5的生产得分标度来为所记录的语音样本资产提供生产得分。在实施例中,用户15可以被要求根据诸如发音、理解、语调、口音和其他定性度量等多个度量来对所记录的语音样本资产进行评级。[0192]在另一实施例中,用户15适于比较至少两个记录的生产语音样本资产。[0193]这样,在这个实施例中,用户15可以被指示选择哪个语音样本资产听起来更好。例如,用户15可以决定由用户15记录的生产语音样本资产7具有比由另一用户15记录的语音样本资产听起来更好的法语。这样,正在执行感知练习的用户15将做出适当的选择。[0194]在实施例中,所使用的语音样本资产也可以包括本地说话语音样本资产,使得用户15可以被指示来猜测哪个是本地语音样本资产。[0195]在执行了感知练习后,在数据库6中针对生产语音样本资产7记录生产得分11。[0196]生产得分可以被提供给产生相关生产语音样本资产7的用户15。[0197]例如,在语音样本排序模块2被配置用于所记录的生产语音样本资产的单独反馈评分的情况下,可以向用户15提供这样的单独的生产得分。例如,用户15可以接收由用户15记录的语音样本资产接收到35的生产得分的指示,并且另一用户15可以接收由用户15记录的语音样本资产接收到45的生产得分的指示。[0198]在实施例中,模块2可以适于向用户15发送生产得分的统计导数。[0199]在另外的实施例中,如果语音样本排序模块2被配置用于允许所记录的生产语音样本资产的比较,则模块2可以适于向用户15发送比较度量。例如,用户15可以接收由用户15记录的语音样本资产被认为是“平均”或“良好”的分类反馈。[0200]此时,除了向用户提供反馈之外,语音样本排序模块2还被配置用于为执行感知练习的用户15生成感知得分11的目的。如上所述,语音样本排序模块2适于标识善于提供反馈的那些用户,以便例如能够有利于从这些用户接收的反馈。[0201]这样,一旦从用户15接收到生产得分8,则评级更新模块36可以适于根据由用户15生成的反馈来计算或生成用户15的感知得分11。[0202]在实施例中,评级更新模块36可以适于根据诸如一致性、准确性等多个因素来生成感知得分。[0203]为了一致性,评级更新模块36可以对于用户15单独计算一致性度量,或者通过比较用户15提供的生产得分和其他用户15提供的生产得分来计算一致性度量。[0204]例如,模块2可以适于回收所记录的生产语音样本资产以供用户15反馈用,以确定用户15是否一致地为所记录的相同生产语音样本资产提供相同或相似的反馈。例如,如果用户15在两个连续的场合为记录的语音样本资产7提供相同的生产得分,则评级更新模块36可以分配较高的一致性度量,而不是不同地反馈。[0205]在这点上,语音样本排序模块2可以实现“校准练习”,校准练习将包括由专家用户15或母语者16评估的并且将用于评估用户15的练习。重要的是,例如,如果用户15善于对西班牙语的卷舌音“R”进行评级,则语音样本排序模块2仍然需要单独记录用户15如何评级西班牙语的声音“j”。因此,用户15将在由西班牙语呈现的整个困难框架上被评估。因此,语音样本排序模块2可以聚合该数据,从而也提供更高级别的反馈,使得例如用户15善于元音,而不善于辅音,或者用户15善于孤立的单词,而不善于连贯的语音等。[0206]在其他实施例中,语音样本排序模块2可以将用户15与其他用户相比较。例如,如果用户15为记录的语音样本资产提供低生产得分,而大多数其他用户15提供高生产得分,则评级更新模块36可以为用户15分配低准确性度量。[0207]在实施例中,评级更新模块36可以为了确定一致性、准确性等而采用统计建模。例如,评分模块可以使用钟形曲线拟合来计算用户15的准确性和一致性。用于为分布式语言学习系统的用户自动生成语音样本资产生产得分的示例性方法[0208]现在,在产生了上述生产得分8和感知得分11之后,将在用于自动生成语音样本资产生产得分8的示例性方法中进行描述。[0209]在这些实施例中,系统1可以在第一实例中或者通过更新来使语音样本生产得分8的生成自动化。具体地,在这些实施例中,系统1使用监督机器学习模块4来自动生成语音样本资产生产得分。[0210]具体地,如上面参照图6所提及的,在这个实施例中,该方法包括训练监督机器学习模块4。这样的训练可以包括生成包括多个数据单元的训练集。从图6中可以看出,数据单元可以包括语音样本资产7、语音样本资产生产得分8和用户背景信息80。[0211]这些多个数据单元形成训练集59,训练集59被训练模块56用来训练监督机器学习模块4以生成经训练的监督机器学习模块4。[0212]这样,参照图7,对于用户15的候选语音样本资产7和相关联的用户背景80,可以将语音样本资产和用户背景80馈送到经训练的系统4中,使得语音样本资产生产得分8可以从训练系统生成。[0213]具体地,该方法可以需要对于包括本地语音样本资产在内的多个语音样本资产7,向多个非母语用户17发送本地语音样本资产以执行生产练习,以及接收由生产练习生成的生产语音样本资产7。[0214]该方法然后可以需要向多个用户发送生产语音样本资产以执行感知练习并且接收由感知练习生成的生产得分8。[0215]然后,该方法需要训练监督机器学习模块4,包括生成训练集59—一训练集59包括第一多个非母语的用户的生产语音样本资产7以及相关联的生产得分8和相关联的用户背景信息80,以及使用训练集59训练监督机器学习模块以生成经训练的监督机器学习模块4。[0216]这样,对于非母语用户15的候选生产语音样本资产7,向经训练的监督机器学习模块中输入非母语用户的候选生产语音样本资产7和用户背景信息可以以自动方式为候选生产语音样本资产生成语音样本资产生产得分8。用于自动口音识别和量化的示例性方法[0217]现在,在如上所述以自动方式生成语音样本资产生产得分8之后,自动生成的语音样本资产生产得分可以用于自动口音识别和量化。[0218]具体地,转到图8,示出了被馈送到经训练的系统4中的语音样本资产记录7,并且其中经训练的系统4用于自动生成语音样本资产生产得分8和用户背景信息80。[0219]以这种方式,用户背景信息储如原籍国)可以被转换为口音类型类别,诸如印度语、法语或西班牙语口音分类。[0220]此外,语音样本资产生产得分可以直接转换为口音强度68。用于改进语音识别的示例性方法[0221]现在,在另一实施例中,在使用经训练的监督机器学习模块4自动生成口音类型67和口音强度68之后,口音类型67和口音强度68可以用于改进的语音识别。[0222]具体地,转到图10,所生成的口音类型67可以用于为语音识别选择适当的声学模型72。[0223]在实施例中,口音强度68可以用于混合多个声学模型72。释义生产练习:[0224]本文中提到的术语“生产练习”应当总体上解释为产生记录的样本、特别是音频样本但是也包括视频样本)的任何活动。在特定实施例中,生产练习包括通常由用户15根据语音练习的指令使用诸如麦克风等记录装置来生成语音样本资产。感知练习[0225]本文中所提到的术语“感知练习”应当总体上解释为人感知记录的样本、特别是音频样本但是也包括视频样本的任何活动。在特定实施例中,感知练习包括用户诸如用户15对所记录的语音样本资产的感知。感知练习还可以包括用户输入表示用户感知的数据。[0226]在一个实施例中,感知练习可以包括用户比较两个语音样本资产并且提供关于哪个语音样本资产被用户感知为最正确准确的反馈。无线:[0227]本发明可以使用符合其他网络标准以及用于其他应用包括例如其他WLAN标准和其他无线标准)的设备来实现。可以适应的应用包括IEEE802.11无线LAN和链路以及无线以太网。[0228]在本文的上下文中,术语“无线”及其派生词可以用于描述可以通过非固体介质通过使用调制的电磁辐射来传送数据的电路、设备、系统、方法、技术、通信信道等。该术语并不表示相关联的设备不包含任何线一一尽管在一些实施例中它们可能不包含。在本文的上下文中,术语“有线”及其派生词可以用于描述可以通过固体介质通过使用调制的电磁辐射来传送数据的电路、设备、系统、方法、技术、通信信道等。该术语并不表示相关联的设备通过导电线耦合。过程:[0229]除非特别指出,否则从以下讨论中很清楚,应当理解,在整个说明书中,使用诸如“处理”、“计算(computing”、“计算calculating”、“确定”、“分析”等术语进行的讨论指的是将表示为物理量诸如电子量的数据操纵和或变换成类似地表示为物理量的其他数据的计算机或计算系统或类似的电子计算设备的动作和或过程。处理器:[0230]以类似的方式,术语“处理器”可以是指处理电子数据(例如,来自寄存器和或存储器)以将该电子数据转换为其他电子数据例如,可以存储在寄存器和或存储器中)的任何设备或设备的一部分。“计算机”或“计算设备”或“计算机器”或“计算平台”可以包括一个或多个处理器。[0231]在一个实施例中,本文中描述的方法体系可以由一个或多个处理器执行,所述一个或多个处理器接受包含一组指令的计算机可读也称为机器可读代码,这些指令在由一个或多个处理器执行时执行在本文中描述的至少一种方法。包括能够执行指定要采取的动作的一组指令顺序指令或其他指令)的任何处理器。因此,一个示例是包括一个或多个处理器的典型处理系统。处理系统还可以包括含有主RAM和或静态RAM和或ROM的存储器子系统,。计算机可读介质:[0232]此外,计算机可读载体介质可以形成或被包括在计算机程序产品中。计算机程序产品可以存储在计算机可用载体介质上,计算机程序产品包括用于使处理器执行如本文所述的方法的计算机可读程序装置。联网处理器或多处理器:[0233]在替代实施例中,一个或多个处理器作为独立设备来操作,或者可以在联网部署中连接,例如联网到一个或多个其他处理器,所述一个或多个处理器可以在服务器客户端网络环境中以服务器或客户端机器的容量来操作,或者在对等或分布式网络环境中作为对等机器来操作。所述一个或多个处理器可以形成网络设备、网络路由器、交换机或桥接器、或者能够执行指定机器要采取的动作的一组指令顺序指令或其他指令的任何机器。[0234]注意,尽管一些图只示出了单个处理器和携载计算机可读代码的单个存储器,但是本领域技术人员将会理解,上述很多部件都包括在内,但是为了不使本发明的方面模糊不清而并没有明确示出或描述。例如,尽管仅示出了单个机器,但是术语“机器”也应当被理解为包括单独或联合执行一组或多组指令以执行本文中讨论的任何一种或多种方法的机器的任何集合。附加实施例:[0235]因此,本文中描述的每个方法的一个实施例采用携载一组指令例如,用于在一个或多个处理器上执行的计算机程序的计算机可读载体介质的形式。因此,本领域技术人员可以理解,本发明的实施例可以实施为方法、诸如专用装置的装置、诸如数据处理系统的装置、或者计算机可读载体介质。计算机可读载体介质携载包括一组指令的计算机可读代码,这些指令当在一个或多个处理器上执行时使一个或多个处理器执行一种方法。因此,本发明的各方面可以采取方法、完全硬件的实施例、完全软件的实施例或组合软件和硬件方面的实施例的形式。此外,本发明可以采用携载体现在介质中的计算机可读程序代码的载体介质例如,计算机可读存储介质上的计算机程序产品)的形式。载体介质:[0236]软件可以进一步经由网络接口设备通过网络来发射或接收。尽管载体介质在示例性实施例中被示出为单个介质,但是术语“载体介质”应当被认为包括存储一组或多组指令的单个介质或多个介质例如,集中式或分布式数据库和或相关联的高速缓存和服务器)。术语“载体介质”还应当被理解为包括能够存储、编码或携载用于由一个或多个处理器执行的一组指令并且使一个或多个处理器执行本发明的任何一种或多种方法的任何介质。载体介质可以采取很多形式,包括但不限于到非易失性介质、易失性介质和传输介质。实现:[0237]应当理解,所讨论的方法的步骤在一个实施例中由执行存储在存储器中的指令计算机可读代码)的处理(即,计算机系统的适当处理器来执行。还应当理解,本发明不限于任何特定的实现或编程技术,并且本发明可以使用用于实现本文中描述的功能的任何适当的技术来实现。本发明不限于任何特定的编程语言或操作系统。用于执行方法或功能的装置[0238]此外,本文中将一些实施例描述为可以由处理器设备的处理器、计算机系统或通过执行该功能的其他装置来实现的方法或方法要素的组合。因此,具有用于执行这样的方法或方法要素的必要指令的处理器形成用于执行方法或方法要素的装置。此外,本文中描述的装置实施例的元素是用于为了执行本发明的目的而执行由该元素实行的功能的装置的示例。连接[0239]类似地,应当注意,当在权利要求中使用术语“连接”时,不应将其解释为仅限于直接连接。因此,设备A连接到设备B这一表述的范围不应当限于其中设备A的输出直接连接到设备B的输入的设备或系统。这表示,在A的输出A与B的输入之间存在路径,该路径可以是包括其他设备或装置的路径。“连接”可以表示两个或更多个元件直接物理接触或电接触,或者两个或更多个元件彼此不直接接触但是仍然彼此合作或交互。实施例:[0240]在整个说明书中对“一个实施例”或“实施例”的表述表示结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。因此,短语“在一个实施例中”或“在实施例中”在本说明书各处的出现并不一定都指代相同的实施例,而是可能指代相同的实施例。此外,在一个或多个实施例中,特定的特征、结构或特性可以以任何合适的方式组合,这对于本领域普通技术人员而言从本公开中显而易见。[0241]类似地,应当认识到,在本发明的示例性实施例的以上描述中,为了简化本公开的内容和帮助理解各种本发明方面中的一个或多个,在单个实施例、附图或其描述中,有时将本发明的各种特征组合在一起。然而,这种公开方法不应当被解释为反映所要求保护的发明需要比每个权利要求中明确记载的更多特征的意图,而是如所附权利要求所反映的,本发明的方面在于少于单个前述公开实施例的所有特征。因此,“具体实施方式”的权利要求明确地并入该“具体实施方式”中,每个权利要求本身作为本发明的单独的实施例而存在。[0242]此外,尽管本文中描述的一些实施例包括其他实施例中包括的一些特征但不包括其他特征,但是不同实施例的特征的组合意在处于本发明的范围内,并且形成不同的实施例,如本领域技术人员将理解的。例如,在所附权利要求中,任何要求保护的实施例可以以任何组合来使用。对象的不同实例[0243]如本文中使用的,除非另外指明,否则使用序数形容词“第一”、“第二”、“第三”等来描述共同对象仅指示正在引用相同对象的不同实例,并不表示如此描述的对象必须在时间上、在空间上、在排序上或以任何其他方式符合给定的顺序。具体细节[0244]在本文提供的描述中,阐述了很多具体细节。然而,应当理解,可以在没有这些具体细节的情况下实践本发明的实施例。在其他情况下,公知的方法、结构和技术未详细示出,以免使对本说明的理解模糊不清。术语[0245]在描述附图中示出的本发明的优选实施例时,为了清楚起见将采取特定的术语。然而,本发明并不意图限于如此选择的特定术语,并且应当理解,每个特定术语包括以类似方式操作以实现类似技术目的的所有技术等同形式。例如“向前”、“向后”、“径向”、“外围”、“向上”、“向下”等术语用作方便的词语来提供参考点,并且不被解释为限制性术语。包括(comprising和包含(including[0246]在所附权利要求和本发明的前述描述中,除了由于明确的语言或必要的暗示而在上下文中需要的情况之外,词语“包括”或诸如“包含”或“含有”等变型以包含性的意义使用,即,指定所述特征的存在,但是不排除本发明的各种实施例中存在或添加另外的特征。[0247]本文中使用的任何一个术语:“包括”或“其包括”或“其包含”也是开放式术语,其也表示至少包括术语后面的要素特征,但是不排除其他要素特征。因此,“包含”与“包括”同义并且意指“包括”。发明的范围[0248]因此,虽然已经描述了被认为是本发明的优选实施例的内容,但是本领域技术人员将认识到,在不脱离本发明的精神的情况下可以对其做出其他和另外的修改,并且旨在要求保护落入本发明范围内的所有这些改变和修改。例如,上面给出的任何公式仅仅是可以使用的过程的表示。功能可以从框图中添加或删除,并且操作可以在功能块之间互换。可以在本发明范围内对所描述的方法添加或删除步骤。[0249]尽管已经参考具体示例描述了本发明,但是本领域技术人员将会理解,本发明可以以很多其他形式来实施。

权利要求:1.一种用于为分布式语言学习系统的用户自动生成语音样本资产生产得分的方法,所述方法包括:对于包括本地语音样本资产的多个语音样本资产:向多个非母语用户发送所述本地语音样本资产以执行生产练习;接收由所述生产练习生成的生产语音样本资产;向多个用户发送所述生产语音样本资产以执行感知练习;接收由所述感知练习生成的生产得分;训练监督机器学习模块,包括:生成训练集,所述训练集包括第一多个非母语用户的所述生产语音样本资产以及相关联的生产得分和相关联的用户背景信息;使用所述训练集训练所述监督机器学习模块以生成经训练的监督机器学习模块;以及对于非母语用户的候选生产语音样本资产,将所述非母语用户的候选生产语音样本资产和用户背景信息输入到所述经训练的监督机器学习模块中,以使所述候选生产语音样本资产的语音样本资产生产得分的生成自动化。2.根据权利要求1所述的方法,还包括扩展所述生产得分以降低评级漂移。3.根据权利要求1所述的方法,还包括根据所述生产得分计算感知得分。4.根据权利要求3所述的方法,其中,所述感知得分表示准确性。5.根据权利要求3所述的方法,其中,所述感知得分表示一致性。6.根据权利要求1所述的方法,其中,所述生产练习包括模仿生产练习。7.根据权利要求6所述的方法,其中,模仿生产练习包括单词模仿生产练习。8.根据权利要求6所述的方法,其中,所述模仿生产练习包括句子模仿生产练习。9.根据权利要求1所述的方法,其中,所述生产练习包括理解练习。10.根据权利要求1所述的方法,其中,所述感知练习包括根据反馈标度对记录的语音样本进行评级。11.根据权利要求10所述的方法,其中,所述反馈标度是数字评级标度。12.根据权利要求11所述的方法,其中,所述反馈标度是分类评级标度。13.根据权利要求1所述的方法,其中,所述生产得分包括与多个度量相关的生产得分。14.根据权利要求1所述的方法,其中,所述感知练习包括将所述生产语音样本资产与其他语音样本资产相比较。15.根据权利要求5所述的方法,其中,计算所述感知得分包括将所述生产得分与用户的生产语音样本资产的至少一个其他生产得分相比较。16.根据权利要求2所述的方法,其中,计算所述感知得分包括使用统计技术。17.根据权利要求16所述的方法,其中,所述统计技术包括钟形曲线拟合。18.根据权利要求1所述的方法,其中,所述用户背景信息包括母语、原籍国和居住国中的至少一项。19.根据权利要求1所述的方法,还用于自动口音识别和量化,所述方法包括:将所述候选生产语音样本资产输入到所述经训练的监督机器学习模块中以生成:所述语音样本资产生产得分;以及所述非母语用户的用户背景信息;将所述用户背景信息转换为口音类型类别;以及将所述语音样本资产生产得分转换为口音强度。20.根据权利要求19所述的方法,其中,所述经训练的监督机器学习模块使用回归来生成所述语音样本资产生产得分。21.根据权利要求19所述的方法,其中,所述经训练的监督机器学习模块使用分类来生成所述用户背景信息。22.根据权利要求19所述的方法,其中,用户背景信息包括母语、原籍国和居住国中的至少一项。23.根据权利要求19所述的方法,还用于改进的语音识别,所述方法包括:对于语音识别模块,根据所述口音类型类别来选择声学模型。24.根据权利要求23所述的方法,还包括:对于所述语音识别模块,根据所述口音类型强度来选择多个声学模型。25.根据权利要求23所述的方法,其中,所述语音识别模块是隐马尔可夫模型语音识别丰旲块。26.根据权利要求19所述的方法,还用于改进的语音识别,所述方法包括:对于语音识别模块,根据所述口音类型类别和所述候选生产语音样本资产来训练所述语首识别t旲块。27.根据权利要求26所述的方法,其中,所述语音识别模块是人工神经网络语音识别模块。28.根据权利要求19所述的方法,还用于改进的语音识别,所述方法包括:根据相应的多个口音来训练多个语音识别模块,以及根据所述口音类型类别来选择所述多个语音识别模块中的一个多个语音识别模块。29.根据权利要求28所述的方法,其中,所述语音识别模块是人工神经网络语音识别模块。

百度查询: 旺多姆咨询私人有限公司 用于改善非母语者语音的语音识别的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。