买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】语音端点确定_谷歌有限责任公司_201610825803.X 

申请/专利权人:谷歌有限责任公司

申请日:2016-09-14

公开(公告)日:2020-10-20

公开(公告)号:CN107068147B

主分类号:G10L15/04(20130101)

分类号:G10L15/04(20130101);G10L15/05(20130101);G06F40/20(20200101);G06F40/279(20200101)

优先权:["20151019 US 62/243,463","20151027 US 14/923,637","20160629 US 15/196,663"]

专利状态码:有效-授权

法律状态:2020.10.20#授权;2018.01.19#著录事项变更;2017.09.12#实质审查的生效;2017.08.18#公开

摘要:描述了用于确定语音的端点的方法、系统和设备,包括被编码在在计算机存储介质上的计算机程序。一方面,一种方法包括访问包括特定用户说出的语音查询的语音查询日志数据的动作。所述动作还包括基于包括特定用户说出的该语音查询的语音查询日志数据,从包括所述特定用户说出的语音查询的所述语音查询日志数据确定停顿阈值。所述动作还包括从所述特定用户接收话语。所述动作还包括确定所述特定用户已经在至少等于停顿阈值的时间段内停止说话。所述动作还包括基于确定所述特定用户已经在至少等于所述停顿阈值的时间段内停止说话,将所述话语处理为语音查询。

主权项:1.一种计算机实施的方法,包括:由自动化语音识别系统的语音查询处理器访问包括由特定用户说出的多个不同的语音查询的语音查询日志数据,所述自动化语音识别系统包括:i所述语音查询处理器,ii用户简档器,iii音频子系统,iv端点确定处理器,以及v自动化语音识别器,所述语音查询处理器包括停顿间隔处理器;由所述自动化语音识别系统的所述停顿间隔处理器针对由所述特定用户说出的所述多个不同的语音查询确定所述多个不同的语音查询的词之间的平均停顿间隔;由所述自动化语音识别系统的所述用户简档器至少基于语音查询经验分值将所述特定用户分类为所述自动化语音识别系统的专家用户或者分类为所述自动化语音识别系统的新手用户,所述语音查询经验分值基于由所述特定用户说出的所述多个不同的语音查询的词之间的所述平均停顿间隔;由所述自动化语音识别系统的所述用户简档器至少基于将所述特定用户分类为所述自动化语音识别系统的专家用户或者分类为所述自动化语音识别系统的新手用户,确定针对所述特定用户的停顿阈值;由所述自动化语音识别系统的所述音频子系统接收与由所述特定用户说出的话语相对应的音频数据;由所述自动化语音识别系统的所述端点确定处理器确定所述特定用户已经在至少等于或大于针对所述特定用户的所述停顿阈值的时间段内停止说话,针对所述特定用户的所述停顿阈值是至少基于将所述特定用户分类为所述自动化语音识别系统的专家用户或者分类为所述自动化语音识别系统的新手用户来确定的;基于确定所述特定用户已经在至少等于或大于针对所述特定用户的所述停顿阈值的时间段内停止说话,由所述自动化语音识别系统的所述端点确定处理器生成指示所述特定用户很可能已经停止说话的端点确定信号,针对所述特定用户的所述停顿阈值是至少基于将所述特定用户分类为所述自动化语音识别系统的专家用户或者分类为所述自动化语音识别系统的新手用户来确定的;以及响应于生成指示所述特定用户很可能已经停止说话的所述端点确定信号,由所述自动化语音识别系统的所述自动化语音识别器对与所述特定用户所说出的所述话语相对应的所述音频数据执行自动化语音识别。

全文数据:语音端点确定[0001]相关申请的交叉引用[0002]本申请要求于2015年10月19日提交的美国临时申请号62243,463的权益,其内容通过引用并入本文。技术领域[0003]本公开大体上涉及语音识别,并且一个特定实施方式涉及对话音进行端点确定。背景技术[0004]自然语言处理系统通常使用端点器来确定用户何时已经开始和结束说话。在确定何时话语开始或者结束时,一些传统的端点器评价词之间的停顿的持续时间。例如,如果用户说“whatisfordinner晚餐〈长停顿〉吃什么”,则传统的端点器可以在长停顿处对语音输入分段,并且可以指令自然语言处理系统尝试处理不完整的短语“whatis吃什么”而非完整短语“whatisfordinner晚餐吃什么”。如果端点器指定语音输入的不正确的起始点或者结束点,则使用自然语言处理系统处理语音输入的结果可能不精确或者不尽人意。发明内容[0005]不同用户对于在他们的移动设备上使用语音输入可能具有不同的舒适水平。一些用户可能频繁地使用语音输入特征并且能够在说话期间不犹豫地形成语音查询。其它用户可能不那么经常地使用语音输入特征,或者可能无法在不犹豫的情况下快速地构思出查询。较有经验的用户可能受益于在测量出用户语音中的短停顿之后就开始处理用户的语音查询的系统。经验较少的用户可能受益于在测量出用户语音中的较长停顿之后开始处理用户的语音查询来确保经验较少的用户已经完成说话的系统。[0006]为了确定应用于特定用户的语音查询的停顿长度,系统分析该特定用户的先前的语音查询。对于特定用户,系统考虑语音查询频率、先前的语音查询的词之间的停顿长度、先前的语音查询的完整性、以及先前的语音查询的长度。与不那么频繁说出语音查询的用户相比,更频繁说出语音查询的用户可能受益于对用户的语音查询应用的较短停顿长度。与词之间具有较长平均停顿长度的用户相比,先前的语音查询的词之间具有短平均停顿长度的用户可能受益于较短的停顿长度。与较不频繁说出完整查询的用户相比,更经常说出完整语音查询的用户可能受益于较短的停顿长度。与说出较短语音查询的用户相比,说出较长语音查询的用户可能受益于较短的停顿长度。一旦系统计算出应用于特定用户的语音查询的适当停顿长度,则系统可以使用该特定用户的停顿长度来在该特定用户的将来话语期间生成端点。[0007]大体上,本说明书中所述的主题的另一新颖方面可以被实现在方法中,所述方法包括:访问包括特定用户说出的语音查询的语音查询日志数据;基于包括特定用户说出的该语音查询的语音查询日志数据,从包括特定用户说出的语音查询的语音查询日志数据确定停顿阈值;从该特定用户接收话语;确定该特定用户已经在至少等于停顿阈值的时间段内停止说话;以及基于确定该特定用户已经在至少等于停顿阈值的时间段内停止说话,将该话语处理为语音查询。[0008]这些和其它实施例均能够可选地包括一个或多个下列特征。从包括特定用户说出的语音查询的语音查询日志数据确定停顿阈值的动作包括将该特定用户分类为语音识别系统的专家用户或者语音识别系统的新手用户;以及基于将该特定用户分类为语音识别系统的专家用户或者语音识别系统的新手用户,确定停顿阚值。语音查询日志数据包括与每个语音查询相关联的时间戳、指示每个语音查询是否完整的数据、以及与每个语音查询相关联的语音停顿间隔。从包括特定用户说出的语音查询的语音查询日志数据确定停顿阈值的动作包括基于与每个语音查询相关联的该时间戳、指示每个语音查询是否完整的该数据、以及与每个语音查询相关联的该语音停顿间隔来确定停顿阈值。[0009]所述动作进一步包括基于语音查询日志数据,确定特定用户每天说出的语音查询的平均数目。确定停顿阈值的动作进一步基于特定用户每天说出的语音查询的该平均数目。所述动作还包括基于该语音查询日志数据,确定特定用户说出的语音查询的该平均长度。确定该停顿阈值的动作进一步基于特定用户说出的语音查询的平均长度。所述动作进一步包括基于语音查询日志数据,确定特定用户说出的语音查询的平均停顿间隔。确定停顿阈值的动作进一步基于特定用户说出的语音查询的该平均停顿间隔。[0010]本方面的其它实施例包括相对应的系统、装置、以及记录在计算机存储设备上的计算机程序,其每个都被配置来执行所述方法的操作。[0011]本说明书中所述的主题的特定实施例能够被实现为实现一个或多个下列优点。用户可以使用计算设备的语音输入能力,并且以对于该用户舒适的语速说话。可以在话语的所意图的端处对该话语确定端点,导致更为精确或期望的自然语言处理输出,并且导致自然语言处理系统更快速地处理。[0012]在附图和以下描述中阐述了本说明书中所述的主题的一个或多个实施例的细节。本主题的其它特征、方面、和优点从说明书、附图、和权利要求书将显而易见。附图说明[0013]图1是对于特定用户来确定用户是否已经完成说出语音查询所使用的示例话语和信号的视图。[0014]图2是基于特定用户对语音输入的经验而对特定用户进行分类的示例系统的视图。[0015]图3是基于特定用户对语音输入的经验来对特定用户进行分类并且确定该特定用户是否己经完成说出语音查询的示例过程的视图。[0016]图4是可以在其上实现本文所述的过程或者其部分的计算设备的框图。[0017]各附图中,相似参考数字和名称指示相似的元件。具体实施方式[0018]图1是对于特定用户来确定用户是否已经完成说出语音查询所使用的示例话语和信号的视图100。大体上,视图100图示了当计算设备121正在处理传入的音频输入时由计算设备121生成或者检测出的信号103-118。计算设备121通过计算设备121的麦克风或者其它音频输入设备来接收与话语124相对应的音频数据,并且依赖于被指派给用户127的用户简档来生成话语124的转录。[0019]话语定时130表示用户127说出话语124在图1中为“TextMomloveyou发短信给妈妈说爱你”)的各个词语的定时。用户127以每个词之间的渐增的停顿长度来说出每个词。每个词之间的点的数目与每个词之间的停顿长度成正比。每个点可以表示特定时间段,诸如100毫秒。第一词l33“Text”之后是可以与300毫秒相对应的三个点的停顿136。第二个词l39“Mom”之后是可以与800毫秒相对应的八个点的停顿142。第三个词145“l〇ve”之后是可以与1.2秒相对应的12个点的停顿128。第四个词151“you”之后是停顿154。在图1中,停顿154为可以与2秒相对应的20个停顿。由于词151位于话语124的终点,所以词语151之后的停顿可以比停顿154长很多,因为用户127已经停止说话。这些停顿和下文所述的其它停顿表示两个词之间的自然沉默时段,并且不是用户主动停止说话。[0020]在一些实施方式中,计算设备121可以在不将用户127的任何特性作为因素的情况下生成普通端点信号103和完整查询信号106。完整查询信号106表示由计算设备121执行的对所生成的话语130的转录表示完整话语的估计。计算设备121将所生成的转录与用户127和其它用户先前已经说出的一个或更多完整话语进行比较。计算设备121可以在计算设备1W的语音识别器已经识别出新词后将所生成的转录与该完整话语进行比较。例如,在用户127说出词133后,计算设备121的语音识别器生成转录“text”。计算设备121将“text”与其它完整话语进行比较,并且确定“text”不是完整话语。在用户127说出词139后,语音识别器生成转录“textmom”,计算设备121将其识别为完整的。在词语151之后做出类似的确定。在用户127说出词145之后,语首识别器生成转录“textmomlove”,计算设备121将其识别为不完整的。[0021]普通端点信号103表示由计算设备121执行的对用户127已经结束说话的估计。计算设备121可以基于语音音频之间的停顿长度来生成普通端点信号103。计算设备121可以在不生成话语U4的转录的情况下生成普通端点信号103。例如,计算设备121可以接收与词133相对应的音频数据。在停顿136期间,计算设备121随着停顿136期间的时间的流逝来测量时间。停顿1:36可能仅持续300毫秒。如果普通端点阈值比300毫秒长,诸如600毫秒,则计算设备m将不触发普通端点器。在计算设备121接收到与词139相对应的音频数据之后,计算设备U1测量停顿142的时间。在停顿142已经流逝了600毫秒之后,计算设备121触发普通端点器,并且普通端点信号1〇3指示已经达到端点。利用指示话语124的端点的普通端点信号103以及指示话语124完整的完整查询信号106,计算设备生成话语124的转录157“textmom”。[0022]在一些实施方式中,计算设备121可以在识别话语124的端点时将用户127的特性作为因素。一方面,有可能由于新手用户可能不熟悉向计算设备121说出什么词项最好,因此新手用户可能以在词语之间更长的停顿来说话。另一方面,由于专家用户可能对计算设备121的语音输入技术更舒适和熟悉,因此专家用户可以以词语之间较短的停顿来说话。因而,计算设备121可以依赖于计算设备121如何对用户分类来在其识别出停顿之前延长或者缩短时间量。[0023]新手停顿检测器信号109图示了计算设备121对与话语124相对应的音频数据中的停顿进行检测,其中所检测的停顿长度比与普通端点器相对应的停顿长度更长。例如,计算设备121可以在用户I27被分类为新手用户时检测出具有一秒长度的停顿。通过将这种停顿阈值应用于话语124,计算设备121在停顿136和124期间不会检测到新手长度停顿,因为那些停顿分别具有3〇0毫秒和8〇0毫秒的长度。计算设备121在停顿148和154期间确实检测出新手长度停顿。如新手停顿检测器信号109中所示,计算设备121在用户127说出词145之后的停顿148期间检测出一秒的停顿。计算设备121在用户说出词151之后的停顿154期间也检测出一秒的停顿。[0024]当计算设备将用户分类为新手时,计算设备121基于新手停顿检测器信号109和完整查询信号106来确定话语124的语音端点。当计算设备121在停顿148期间检测出诸如新手停顿检测器信号109的停顿时,计算设备121确定话语124是否完整。在停顿148期间,完整查询信号106指示话语1M不完整。即使计算设备121检测出新手长度的停顿,话语124也不完整,所以计算设备121继续处理话语124的音频数据。在停顿154期间,计算设备121检测新手长度停顿并且完整查询信号106指示话语完整,并且因此生成由新手端点信号H2指示的话语124的端点。当用户127被分类为新手时,话语124的端点在词151之后,并且话语124的转录160为“TextMomloveyou,,。[0025]专家停顿检测器信号115图示了计算设备121对与话语124相对应的音频数据中的停顿进行检测,其中所检测的停顿长度比与普通端点器相对应的停顿长度更短。例如,计算设备121可以在用户127被分类为专家用户时检测具有300毫秒长度的停顿。通过将这种停顿阈值应用于话语1M,计算设备121在停顿136、142、148、和154期间检测到专家长度停顿。由于没有停顿小于300毫秒,所以话语124中的停顿的全部都包括专家长度停顿检测。[0026]当计算设备将用户分类为专家时,计算设备121组合专家停顿检测器信号115和完整查询信号1〇6来确定话语1M的语音端点。当计算设备121在停顿136期间检测出诸如专家停顿检测器信号115的停顿时,计算设备121确定话语124是否完整。在停顿136期间,完整查询信号1〇6指示话语124不完整。即使计算设备121检测出专家长度的停顿,话语124也不完整,所以计算设备121继续处理话语124的音频数据。在停顿142期间,计算设备121检测专家长度停顿并且完整查询信号106指示话语完整,并且因此生成由专家端点信号118指示的话语1M的端点。当用户127被分类为专家时,话语124的端点在词语139之后,并且话语124的转录163为“TextMom”。[0027]图2是基于特定用户对语音输入的经验而对特定用户进行分类的示例系统2〇〇的视图。在一些实施方式中,系统200被包括在特定用户用来进行语音输入的计算设备中,诸如计算设备121中。在一些实施方式中,系统可以被包括在处理语音输入的转录的服务器中。[0028]系统200包括语音查询205。语音查询日志205存储用户向系统200提供的先前的语音查询。语音查询日志205可以包括搜索查询,例如“catvideos猫视频”,以及命令查询,例如“callmom打电话给妈妈”。语音查询日志205可以对于每个所存储的语音查询包括时间戳、指示词之间的每个停顿的持续时间的数据、以及基于与其它语音查询的比较来指示语音查询完整或者不完整的数据。[0029]查询日志210图示了用户Bob所提供的语音查询。查询日志210中的语音查询包括三个语音查询,并且每个都包括完整指示符“[C]”或者不完整指示符“[I]”。每个语音查询都包括记录Bob说出语音查询的日期和时间的时间戳。每个语音查询都包括指示所说的词之间的停顿间隔的数据。例如,“catvideos”可以包括指示Bob在“cat”和“videos”之间停顿200毫秒的数据。“Call••.mom”可以包括指示Bob在“call”和“mom”之间停顿一秒的数据。[0030]查询日志215图示了用户Alice所提供的语音查询。查询日志215中的语音查询包括五个语音查询,并且每个都包括完整指示符“[C]”或者不完整指示符“[I]”。每个语音查询都包括记录数据以及Alice说出语音查询的日期和时间的时间戳。每个语音查询都包括指示所说的词之间的停顿间隔的数据。例如,“TextSallythatI’llbetenminuteslate发短信给Sally说我会晚十分钟”可以包括指示Alice在“text”和“Sally”之间停顿了1毫秒,在“Sally”和“that”之间停顿了300毫秒,并且在“that”和“I’11”之间停顿了1•5秒,以及其它词之间的停顿间隔的数据。“Cal1mom”可以包括指示A1ice在“cal1”和“mom”之间停顿了3毫秒的数据。[0031]语音查询处理器220处理从语音查询日志205接收的语音查询。语音查询处理器220为每个用户生成语音查询经验分值。语音查询经验分值指示特定用户对语音查询所具有的经验水平。语音查询经验分值越高指示特定用户可能对说出语音查询具有越多的经验。例如,为了生成Bob的语音查询经验分值,语音查询处理器220处理查询日志210。[0032]语音查询处理器220包括查询完整性处理器225。查询完整性处理器225访问每个用户的每个语音查询的完整性数据,并且调整用户的语音查询经验分值。如果特定用户具有较多的完整语音查询和较少的不完整语音查询,则查询完整性处理器225提高语音查询经验分值。如果特殊用户具有较多的不完整语音查询和较少的完整语音查询,则查询完整性处理器225降低语音查询经验分值。查询完整性处理器225可以将完整查询和不完整查询的比例与完整性比例阈值进行比较来确定是否提高或者降低语音查询经验分值。例如,Bob具有一个不完整语音查询和两个完整查询。基于该信息,查询完整性处理器225可以降低Bob的语音查询经验分值。Alice不具有不完整语音查询和五个完整查询。基于该信息,查询完整性处理器225可以提高Alice的语音查询经验分值。[0033]语音查询处理器220包括查询长度处理器230。查询长度处理器230计算每个用户的每个语音查询的长度,并且调整用户的语音查询经验分值。如果特定用户具有较多的长语音查询和较少的短语音查询,则语音查询处理器220提高语音查询经验分值。如果特定用户具有较多的短语音查询和较少的长语音查询,则语音查询处理器220降低语音查询经验分值。查询长度处理器230可以使用阈值来确定语音查询是长还是短。查询长度处理器230可以将长查询和短查询的比例与长度比例阈值进行比较,来确定是否提高或降低语音查询经验分值。例如,Bob具有一个不完整语音查询和两个完整查询。基于该信息,查询完整性处理器225可以降低Bob的语音查询经验分值。Alice不具有不完整语音查询和五个完整查询。基于该信息,查询完整性处理器225可以增大Alice的语音查询经验分值。[0034]语音查询处理器220包括停顿间隔处理器235。停顿间隔处理器225计算每个用户的用户语音查询的词语之间平均停顿长度。停顿间隔处理器235可以将每个用户的平均停顿长度与停顿阈值进行比较,来确定提高还是降低该用户的语音查询经验分值。平均停顿长度高于停顿阈值则降低语音查询经验分值。平均停顿长度低于停顿阈值则提高语音查询经验分值。例如,Bob可能具有1.2秒的平均停顿长度。Alice可能具有200毫秒的平均停顿长度。如果停顿阈值为1秒,则停顿间隔处理器235提高Alice的语音查询经验分值,并且降低Bob的语音查询经验分值。[0035]语音查询处理器220包括查询计数器240。查询计数器240计算每个用户的所提交的语音查询的数目,并且调整语音查询经验分值。如果特定用户提供了许多语音查询,则语音查询处理器220提高语音查询经验分值。如果特定用户提供了较少语音查询,则语音查询处理器220降低语音查询经验分值。查询长度处理器23〇可以使用每日语音查询阈值,并且将该阈值与语音查询的平均每日数目进行比较,来确定用户提交了许多的语音查询还是很少的语音查询。例如,每日语音查询阈值为每天一个查询。基于查询日志210,Bob每天提交了少于一个查询。因此,查询计数器24〇降低Bob的语音查询经验分值。基于查询日志215,Alice具有多于每天一个的查询。因此,查询计数器240提高Alice的语音查询经验分值。[0036]语音查询处理器220中所包括的处理器中的每个一个都可以将用户的语音查询经验分值提高或者降低与阈值和相对应的用户的值之间的差成比例的量。例如,Alice平均有每天2.5个语音查询,并且Bob平均有每天0_125个语音查询。利用每天一个查询的每日语音查询阈值,A1ice比阈值高1•5,并且Bob比阈值低0•875。查询计数器240用某个系数乘1.5来提高Alice的语音查询经验分值,并且用某个系数乘0.875来降低Bob的语音查询经验分值。[0037]语音查询处理器220向用户简档器245提供每个用户的语音查询经验分值。用户简档器245基于用户的语音查询经验分值来将语音查询经验简档指派给每个用户。语音简档器245访问简档阈值250来将每个用户的语音查询经验分值与语音查询经验简档匹配。每个语音查询经验简档都可以相应于语音查询经验分值的范围。例如,专家简档可以相应于80至100的范围。新手简档可以相应于〇至20的范围。其它简档可以存在于20至80的语音查询经验分值之间。在图2中的示例中,Bob可以具有语音查询经验分值18并且Alice可以具有语音查询经验分值88。因此,Bob被分类为新手,并且Alice被分类为专家。然后,用户简档器245在简档存储255中存储每个用户的语音查询经验简档。简档260图示了存储在简档存储255内的Alice和Bob的简档。[0038]当生成将来话语的端点时,每个语音查询经验简档都相应于系统200随后使用的不同停顿长度阈值。如图1中所示和上文所描述的,专家简档相应于被用于对话语确定端点的300毫秒停顿长度阈值。新手简档相应于1秒的停顿长度阈值。系统200可以利用600毫秒的停顿长度阈值来限定其它简档,诸如中间简档。在一些实施方式中,系统200可以将停顿长度阈值指派给用户,而无需将简档指派给用户。系统可以生成语音查询经验分值,并且计算与语音查询经验分值成反比的停顿长度阈值。[0039]图3是基于特定用户对语音输入的经验来对特定用户进行分类并且确定该特定用户是否已经完成说出语音查询的示例过程300的视图。过程300可以由计算设备来执行,诸如图1的计算设备121或者图2的计算设备200。过程300分析用户的先前的语音查询来确定停顿阈值以用于确定用户何时已经完成说出将来的查询。[0040]计算设备访问语音查询日志数据(310。计算设备确定特定用户的停顿阈值320。计算设备从特定用户接收话语330。计算设备确定特定用户已经在停顿阈值内停止说话340。计算设备将话语处理为语音查询350。[0041]图4是可以被用于作为客户端或者作为服务器或多个服务器来实现本文档所描述的系统和方法的计算设备400的框图。计算设备400意图表示各种形式的数字计算机,诸如笔记本电脑、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机、和其它适当的计昇机。[0042]计算设备400包括处理器402、存储器404、存储设备406、连接至存储器404和高速扩展端口410的高速接口408,以及连接至低速总线414和存储设备406的低速接口412。组件402、404、406、408、410和412中的每一个都使用各种总线被互连,并且可以被安装在公共主板上,或者视需要来以其它方式安装。处理器4〇2能够处理用于在计算设备400内执行的指令包括被存储在存储器404中或者存储设备4〇6上的指令--以在诸如親合至高速接口408的显示器416的外部输入输出设备上显示GUI的图形信息。在其它实施方式中,可以视需要来使用多个处理器和或多个总线,连同多个存储器和多种类型的存储器。此外,多个计算设备400可以与提供多个必要操作的部分的每个设备连接,例如作为服务器库、刀片服务器群组、或者多处理器系统。[0043]计算设备400可以以如图所示的多个不同形式来被实现。例如,计算设备400可以被实现为标准服务器420,或者在这样的服务器的群组中多次实现。计算设备4〇〇也可以被实现为机架服务器系统424的一部分。此外,计算设备400可以在个人计算机--诸如膝上型计算机422中实现。替选地,来自计算设备400的组件可以与移动设备未示出)中的其它组件组合。这些设备中的每个设备都可以包含一个或多个计算设备400,并且整个系统可以由彼此通信的多个计算设备400组成。[0044]此处所描述的系统和方法的各个实施方式能够以数字电子电路、集成电路、专用ASIC应用程序专用集成电路)、计算机硬件、固件、软件、和或这样的实现的组合来实现。各种这些实施方式能够包括一个或多个计算机程序中的实施方式,这些计算机程序可在可编程系统上执行和或解释,所述可编程系统包括:至少一个专用或者通用的可编程处理器,其被耦合以从存储系统接收数据和指令以及向其传送数据和指令;至少一个输入设备;以及至少一个输出设备。[0045]此处所述的系统和技术能够在计算系统中实现,该计算系统包括后端组件一一例如数据服务器,或者包括中间件组件一一例如应用服务器,或者包括前端组件一一例如具有用户能够通过其能够与此处所述的系统和技术的实现交互的图形用户界面或者web浏览器的客户端计算机,或者这样的后端、中间件、或者前端组件的任何组合。系统的组件能够通过例如通信网络的任何形式或者介质的数字数据通信互连。通信网络的示例包括局域网“LAN”)、广域网(“WAN”)、和互联网。[0046]已经描述了多个实施例。然而,应理解,在不偏离本发明的精神和范围的情况下,可以做出各种修改。此外,图中所描绘的逻辑流程不需要按照所示的特殊顺序或者连续顺序来实现期望的结果。此外,可以提供其它步骤,或者可以从所述流程删去一些步骤,并且可以将其它组件添加至所述系统,或者从其中去除其它组件。因而,其它实施例在下面的权利要求书的范围内。

权利要求:1.一种计算机实施的方法,包括:访问包括由特定用户说出的语音查询的语音查询日志数据;基于包括由特定用户说出的语音查询的所述语音查询日志数据,从包括由所述特定用户说出的语音查询的所述语音查询日志数据确定停顿阈值;从所述特定用户接收话语;确定所述特定用户已经在至少等于所述停顿阈值的时间段内停止说话;以及基于确定所述特定用户已经在至少等于所述停顿阈值的时间段内停止说话,将所述话语处理为语音查询。2.根据权利要求1所述的方法,其中,从包括由所述特定用户说出的语音查询的所述语音查询日志数据确定所述停顿阈值包括:将所述特定用户分类为语音识别系统的专家用户或者所述语音识别系统的新手用户;以及基于将所述特定用户分类为所述语音识别系统的专家用户或者所述语音识别系统的新手用户,确定所述停顿阈值。3.根据权利要求1所述的方法,其中:所述语音查询日志数据包括与每个语音查询相关联的时间戳、指示每个语音查询是否完整的数据、以及与每个语音查询相关联的语音停顿间隔,以及从包括由所述特定用户说出的语音查询的所述语音查询日志数据确定停顿阈值包括基于与每个语音查询相关联的所述时间戳、指示每个语音查询是否完整的所述数据、以及与每个语音查询相关联的所述语音停顿间隔来确定所述停顿阈值。4.根据权利要求1所述的方法,包括:基于所述语音查询日志数据,确定由所述特定用户每天说出的语音查询的平均数目,其中,确定所述停顿阈值进一步基于由所述特定用户每天说出的语音查询的所述平均数目。5.根据权利要求1所述的方法,包括:基于所述语音查询日志数据,确定由所述特定用户说出的语音查询的平均长度,其中,确定所述停顿阈值进一步基于由所述特定用户说出的语音查询的所述平均长度。6.根据权利要求1所述的方法,包括:基于所述语音查询日志数据,确定由所述特定用户说出的语音查询的平均停顿间隔,其中,确定所述停顿阈值进一步基于由所述特定用户说出的语音查询的所述平均停顿间隔。7.—种系统,包括:一个或多个计算机以及存储指令的一个或多个存储设备,所述指令能操作为在被所述一个或多个计算机执行时使得所述一个或多个计算机执行操作,所述操作包括:访问包括由特定用户说出的语首查询的语音查询日志数据;、基于包括由特定用户说出的语音查询的所述语音查询日志数据,从包括由所述特定用户说出的语音查询的所述语音查询日志数据确定停顿阈值;从所述特定用户接收话语;''确定所述特定用户已经在至少等于所述停顿阈值的时间段内停止说话•,以及基于确定所述特定用户已经在至少等于所述停顿阈值的时间段内停止说话,将所述话语处理为语音查询。8.根据权利要求7所述的系统,其中,从包括由所述特定用户说出的语音查询的所述语音查询日志数据确定所述停顿阈值包括:将所述特定用户分类为语音识别系统的专家用户或者所述语音识别系统的新手用户;以及基于将所述特定用户分类为所述语音识别系统的专家用户或者所述语音识别系统的新手用户,确定所述停顿阈值。9.根据权利要求7所述的系统,其中:_所述语音查询日志数据包括与每个语音查询相关联的时间戳、指示每个语音查询是否完整的数据、以及与每个语音查询相关联的语音停顿间隔,以及从包括由所述特定用户说出的语音查询的所述语音查询日志数据确定停顿阈值包括基于与每个语音查询相关联的所述时间戳、指示每个语音查询是否完整的所述数据、以及与每个语音查询相关联的所述语音停顿间隔来确定所述停顿阈值。10.根据权利要求7所述的系统,其中,所述操作进一步包括:基于所述语音查询日志数据,确定由所述特定用户每天说出的语音查询的平均数目,其中,确定所述停顿阈值进一步基于由所述特定用户每天说出的语音查询的所述平均数目。11.根据权利要求7所述的系统,其中,所述操作进一步包括:基于所述语音查询日志数据,确定由所述特定用户说出的语音查询的平均长度,其中,确定所述停顿阈值进一步基于由所述特定用户说出的语音查询的所述平均长度。12.根据权利要求7所述的系统,其中,所述操作进一步包括:基于所述语音查询日志数据,确定由所述特定用户说出的语音查询的平均停顿间隔,其中,确定所述停顿阈值进一步基于由所述特定用户说出的语音查询的所述平均停顿间隔。

百度查询: 谷歌有限责任公司 语音端点确定

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。