买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】语音指令的过滤方法和装置_百度在线网络技术(北京)有限公司_201910004960.8 

申请/专利权人:百度在线网络技术(北京)有限公司

申请日:2019-01-03

公开(公告)日:2021-04-13

公开(公告)号:CN109688269B

主分类号:G10L15/22(20060101)

分类号:G10L15/22(20060101)

优先权:

专利状态码:有效-授权

法律状态:2021.04.13#授权;2019.05.21#实质审查的生效;2019.04.26#公开

摘要:本发明实施例提出一种语音指令的过滤方法和装置,方法包括在通话状态下,接收通话语音;识别通话语音中是否包含控制指令信息;如果通话语音中包含控制指令信息,则过滤掉该通话语音,禁止向当前通话的对端发送通话语音。装置包括接收模块,用于在通话状态下,接收通话语音;识别模块,用于识别通话语音中是否包含控制指令信息;通话模块,用于如果通话语音中包含控制指令信息,则过滤掉该通话语音,禁止向当前通话的对端发送通话语音。本发明实施例通过对通话语音中的控制指令信息进行识别和过滤,能够将通话过程中不属于双方通话内容的语音指令屏蔽,不发送给对端用户,因此避免了语音指令对通话的影响,提高了通话质量。

主权项:1.一种语音指令的过滤方法,其特征在于,包括:在通话状态下,接收通话语音;识别所述通话语音中是否包含控制指令信息;以及如果所述通话语音中包含所述控制指令信息,则过滤掉该所述通话语音,禁止向当前通话的对端发送所述通话语音,其中,识别所述通话语音中是否包含所述控制指令信息包括:识别所述通话语音中是否包含有预设的唤醒词;如果包含有所述预设的唤醒词,则对所述通话语音进行语义理解,判断所述通话语音中是否包含有携带操作意图的控制指令信息。

全文数据:语音指令的过滤方法和装置技术领域本发明涉及语音交互技术领域,尤其涉及一种语音指令的过滤方法和装置。背景技术随着智能有屏设备的迅速发展,音视频通话过程开始支持语音唤醒识别操作功能,即通过语音查询控制指令来替代传统的手动触屏进行相应操作,从而使得音视频通话更加智能。但是双方用户在语音通话过程中,如果一方使用语音查询控制指令进行操作时,这部分语音也会被另一方用户听到。但是这部分语音并不属于双方通话的内容,因此被对方听到会影响通话质量以及降低用户体验。在背景技术中公开的上述信息仅用于加强对本发明的背景的理解,因此其可能包含没有形成为本领域普通技术人员所知晓的现有技术的信息。发明内容本发明实施例提供一种语音指令的过滤方法和装置,以解决现有技术中的一个或多个技术问题。第一方面,本发明实施例提供了一种语音指令的过滤方法,包括:在通话状态下,接收通话语音;识别所述通话语音中是否包含控制指令信息;如果所述通话语音中包含所述控制指令信息,则过滤掉该所述通话语音,禁止向当前通话的对端发送所述通话语音。在一个实施方式中,还包括:如果所述通话语音中不包含所述控制指令信息,则向所述当前通话的对端发送所述通话语音。在一个实施方式中,识别所述通话语音中是否包含控制指令信息,包括:识别所述通话语音中是否包含有预设的唤醒词;如果包含有所述预设的唤醒词,则对所述通话语音进行语义理解,判断所述通话语音中是否包含有携带操作意图的控制指令信息。在一个实施方式中,识别所述通话语音中是否包含控制指令信息,包括:对所述通话语音进行语义理解;筛选出所述通话语音中的目标意图;将所述目标意图与预设操作意图进行匹配;根据匹配结果判断所述通话语音中是否包含有控制指令信息。在一个实施方式中,如果所述通话语音中包含所述控制指令信息,则过滤掉该所述通话语音,禁止向当前通话的对端发送所述通话语音,还包括:根据所述控制指令信息,执行与所述控制指令信息对应的操作。第二方面,本发明实施例提供了一种语音指令的过滤装置,包括:接收模块,用于在通话状态下,接收通话语音;识别模块,用于识别所述通话语音中是否包含控制指令信息;通话模块,用于如果所述通话语音中包含所述控制指令信息,则过滤掉该所述通话语音,禁止向当前通话的对端发送所述通话语音。在一个实施方式中,所述通话模块还用于如果所述通话语音中不包含所述控制指令信息,则向当前通话的对端发送所述通话语音。在一个实施方式中,所述通话模块还用于从所述识别模块接收所述通话语音,并向所述当前通话的对端发送该所述通话语音;或通话模块还用于从所述接收模块接收所述通话语音,并向所述当前通话的对端发送该所述通话语音。在一个实施方式中,所述识别模块还用于将所述通话语音过滤掉;或所述识别模块还用于告知所述通话模块将从所述接收模块接收的所述通话语音过滤掉。第三方面,本发明实施例提供了一种语音指令的过滤的终端,包括:所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,语音指令的过滤的终端的结构中包括处理器和存储器,所述存储器用于存储支持语音指令的过滤的终端执行上述第一方面中语音指令的过滤方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。语音指令的过滤的终端还可以包括通信接口,用于语音指令的过滤的终端与其他设备或通信网络通信。第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储语音指令的过滤的终端所用的计算机软件指令,其包括用于执行上述第一方面中语音指令的过滤方法为语音指令的过滤的终端所涉及的程序。上述技术方案中的一个技术方案具有如下优点或有益效果:本发明实施例通过对通话语音中的控制指令信息进行识别和过滤,能够将通话过程中不属于双方通话内容的语音指令屏蔽,不发送给对端用户,因此避免了语音指令对通话的影响,提高了通话质量。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。图1为本发明实施方式提供的语音指令的过滤方法的流程图。图2为本发明另一实施方式提供的语音指令的过滤方法的流程图。图3为本发明实施方式提供的语音指令的过滤方法的步骤S200的流程图。图4为本发明另一实施方式提供的语音指令的过滤方法的步骤S200的流程图。图5为本发明又一实施方式提供的语音指令的过滤方法的流程图。图6为本发明实施方式提供的语音指令的过滤装置结构示意图。图7为本发明实施方式提供的第一应用示例的流程框图。图8为本发明实施方式提供的第二应用示例的流程框图。图9为本发明实施方式提供的语音指令的过滤终端结构示意图。具体实施方式在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。本发明实施例提供了一种语音指令的过滤方法,如图1所示,包括以下步骤:S100:在通话状态下,接收通话语音。举例而言,通话状态可以包括至少两个用户之间在进行电话通信、视频通话或语音通话。通话语音可以包括在通话状态下终端设备例如手机的麦克风接收到的用户所说出的话语。S200:识别通话语音中是否包含控制指令信息。控制指令信息可以理解为是用户需要通话设备执行的某种操作信息,且不需要使对端用户听到。在一种示例中,可以从通话语音中识别是否包含有与控制指令信息对应的语音。在另一种示例中,也可以将通话语音转换为通话数据,并从通话数据中识别是否包含有与控制指令信息对应的数据。具体的识别控制指令信息的方式可根据通话设备的功能或工作需求进行选择。例如,为了避免通话被监听,需要对当该段对话进行加密处理时,则可以选择从通话语音的通话数据中识别是否包含控制指令信息的方式,从而提高用户间对话的安全性。S300:如果通话语音中包含控制指令信息,则过滤掉该通话语音,禁止向当前通话的对端发送通话语音。即使得与用户通话中的对端通话设备不会接收到包含有控制指令信息的该段通话语音,从而避免该段通话语音被与用户通话的其他用户听到。在一个实施方式中,识别通话语音中是否包含控制指令信息,包括步骤:通过预设识别算法识别通话语音中是否包含与预设控制指令语音相匹配的语音信息。若包含,则认为该语音信息为控制指令信息。在另一个实施方式中,识别通话语音中是否包含控制指令信息,包括步骤:对通话语音进行语音处理,得到通话数据。通过预设识别算法识别通话数据中是否包含与预设控制指令信息相匹配的数据。若包含,则认为该数据为控制指令信息。例如,通过语音识别技术将通话语音转为文本格式的通话数据,然后查找文本格式的通话数据中是否包括预设控制指令信息。预设控制指令信息可以包括多种,例如:将“降低音量”、“调高音量”、“关闭应用程序”等作为预设控制指令信息。判断文本格式的通话数据中是否包括这些信息。在一个实施方式中,如图2所示,还包括步骤:S400:如果通话语音中不包含控制指令信息,则向当前通话的对端发送通话语音。即使得与用户通话中的对端通话设备能够接收到该段通话语音,进而使该段通话语音被与用户通话的其他用户听到。在一个实施方式中,如图3所示,识别通话语音中是否包含控制指令信息,包括步骤:S210:识别通话语音中是否包含有预设的唤醒词。唤醒词可以理解为是能够调用当前用户的通话设备执行用户的控制指令信息的词语。S220:如果包含有预设的唤醒词,则对通话语音进行语义理解,判断通话语音中是否包含有携带操作意图的控制指令信息。为了避免将用户通话过程中说出的与唤醒词一致的词汇当做唤醒词进行理解,可以在识别到唤醒词后继续识别包含有唤醒词的通话语音以及至少后一句的通话语音。通过对包含有唤醒词的通话语音以及至少后一句的通话语音进行语义理解,能够准确的得知用户是否真的对通话设备有操作意图。从而防止将用户说出的含有唤醒词但不含有控制指令信息的通话语音过滤掉,导致对端用户漏听了本端用户的通话内容。例如,当前用户的通话设备设置的唤醒词为“小度”,用户的通话内容为“你知道咱们的高中同学小度现在去哪上班了么?”,这句用户间的通话内容中虽然包含有唤醒词“小度”,但并非是用户在通过唤醒词调用通话设备执行某一操作指令。在一个实施方式中,如图4所示,识别通话语音中是否包含控制指令信息,包括步骤:S230:对通话语音进行语义理解。S240:筛选出通话语音中的目标意图。目标意图即用户说出的每句通话语音中包含的意图。例如,当用户的通话语音为“你明天下午去哪”,则识别出的目标意图为询问对方明天的行程。又如,当用的通话语音为“帮我把通话音量调小”,则识别出的目标意图为调节通话设备的音量。S250:将目标意图与预设操作意图进行匹配。预设操作意图可以理解为是能够调用当前用户的通话设备执行用户的控制指令信息的意图。例如,预设操作意图可以为:挂断电话、调节音量、通话模式静音、免提或听筒等可对通话设备进行操作的任何意图。S260:根据匹配结果判断通话语音中是否包含有控制指令信息。在一个实施方式中,如图5所示,如果通话语音中包含控制指令信息,则过滤掉该通话语音,禁止向当前通话的对端发送通话语音,还包括步骤:S500:根据控制指令信息,执行与控制指令信息对应的操作。在一个实施方式中,可以根据用户的话语停顿时长接收通话语音。从而实现将用户的话语进行准确的拆分,并且拆分后的短句也更容易进行识别,提高了识别通话语音中是否包含控制指令信息的准确性。需要说明的是,上述各实施例的方法可应用于任意智能设备中,只要能够进行语音通话的设备均可。本发明实施例提供了一种语音指令的过滤装置,如图6所示,包括以下:接收模块10,用于在通话状态下,接收通话语音。识别模块20,用于识别通话语音中是否包含控制指令信息。通话模块30,用于如果通话语音中包含控制指令信息,则禁止向当前通话的对端发送通话语音。在一个实施方式中,通话模块30还用于如果通话语音中不包含控制指令信息,则向当前通话的对端发送通话语音。在一个实施方式中,通话模块30还用于从识别模块接收通话语音,并向当前通话的对端发送该通话语音。或通话模块30还用于从接收模块接收通话语音,并向当前通话的对端发送该通话语音。在一个实施方式中,识别模块20还用于将通话语音过滤掉;或识别模块20还用于告知通话模块30将从接收模块10处接收的通话语音过滤掉。第一应用示例中,如图7所示,为搭载有DuerOS对话式人工智能系统的过滤装置设置两个互不影响的AudioRecord音频记录模块。识别AudioRecord即识别模块20用于进行通话语音的控制指令信息识别。通话AudioRecord即通话模块30用于进行用户间的通话使用。通话AudioRecord从接收模块10处接收用户语音Query通话语音,并对通话语音进行常规语音处理。例如,对通话语音的音质进行调节,对通话语音进行降噪处理等使得通话语音质量得到保证的处理。并将常规语音处理后的通话语音进行保留,不向对端用户发送。识别AudioRecord模块从接收模块10处接收用户语音Query通话语音并采用识别算法对通话语音进行识别,若识别通话语音中包含控制指令信息,则向通话AudioRecord发送过滤指令。并将该控制指令信息发送给对应的执行模块进行处理。通话AudioRecord在接收到过滤指令后将常规语音处理后的通话语音过滤掉清除并取消传输通话语音数据,从而避免向当前通话的对端用户发送包含有控制指令信息的通话语音。识别AudioRecord模块若识别通话语音中不包含控制指令信息,则向通话AudioRecord发送传输指令。通话AudioRecord在接收到传输指令后将常规语音处理后的通话语音数据发送给当前通话的对端用户,进而保证用户间的通话完整性。第二应用示例中,如图8所示,为搭载有DuerOS对话式人工智能系统的过滤装置设置两个相互关联的AudioRecord音频记录模块。识别AudioRecord模块即识别模块20用于进行通话语音的控制指令信息识别。通话AudioRecord即通话模块30用于进行用户间的通话使用。识别AudioRecord模块从接收模块10处接收用户语音Query通话语音,并使用识别算法对通话语音进行识别,若识别通话语音中包含控制指令信息,则将该通话语音数据过滤掉并取消向通话AudioRecord发送。并且将控制指令信息发送给对应的执行模块进行处理。若识别通话语音中不包含控制指令信息,则将该通话语音裸数据发送给通话AudioRecord,通话AudioRecord将常规语音处理后的通话语音发送给当前通话的对端用户。本发明实施例提供了一种语音指令的过滤的终端,如图9所示,包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行计算机程序时实现上述实施例中的语音指令的过滤方法。存储器910和处理器920的数量可以为一个或多个。通信接口930,用于存储器910和处理器920与外部进行通信。存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器non-volatilememory,例如至少一个磁盘存储器。如果存储器910、处理器920、以及通信接口930独立实现,则存储器910、处理器920以及通信接口930可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构ISA,IndustryStandardArchitecture总线、外部设备互连PCI,PeripheralComponentInterconnect总线或扩展工业标准体系结构EISA,ExtendedIndustryStandardComponent总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。可选的,在具体实现上,如果存储器910、处理器920以及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现如实施例一包括的任一所述的语音指令的过滤方法。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。在流程图中表示或在此以其他方式描述的逻辑和或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例非穷尽性列表包括以下:具有一个或多个布线的电连接部电子装置,便携式计算机盘盒磁装置,随机存取存储器RAM,只读存储器ROM,可擦除可编辑只读存储器EPROM或闪速存储器,光纤装置,以及便携式只读存储器CDROM。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列PGA,现场可编程门阵列FPGA等。本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

权利要求:1.一种语音指令的过滤方法,其特征在于,包括:在通话状态下,接收通话语音;识别所述通话语音中是否包含控制指令信息;如果所述通话语音中包含所述控制指令信息,则过滤掉该所述通话语音,禁止向当前通话的对端发送所述通话语音。2.如权利要求1所述的方法,其特征在于,还包括:如果所述通话语音中不包含所述控制指令信息,则向所述当前通话的对端发送所述通话语音。3.如权利要求1所述的方法,其特征在于,识别所述通话语音中是否包含控制指令信息,包括:识别所述通话语音中是否包含有预设的唤醒词;如果包含有所述预设的唤醒词,则对所述通话语音进行语义理解,判断所述通话语音中是否包含有携带操作意图的控制指令信息。4.如权利要求1所述的方法,其特征在于,识别所述通话语音中是否包含控制指令信息,包括:对所述通话语音进行语义理解;筛选出所述通话语音中的目标意图;将所述目标意图与预设操作意图进行匹配;根据匹配结果判断所述通话语音中是否包含有控制指令信息。5.如权利要求1所述的方法,其特征在于,如果所述通话语音中包含所述控制指令信息,则过滤掉该所述通话语音,禁止向当前通话的对端发送所述通话语音,还包括:根据所述控制指令信息,执行与所述控制指令信息对应的操作。6.一种语音指令的过滤装置,其特征在于,包括:接收模块,用于在通话状态下,接收通话语音;识别模块,用于识别所述通话语音中是否包含控制指令信息;通话模块,用于如果所述通话语音中包含所述控制指令信息,则禁止向当前通话的对端发送所述通话语音。7.如权利要求6所述的装置,其特征在于,所述通话模块还用于如果所述通话语音中不包含所述控制指令信息,则向当前通话的对端发送所述通话语音。8.如权利要求7所述的装置,其特征在于,所述通话模块还用于从所述识别模块接收所述通话语音,并向所述当前通话的对端发送该所述通话语音;或通话模块还用于从所述接收模块接收所述通话语音,并向所述当前通话的对端发送该所述通话语音。9.如权利要求6所述的装置,其特征在于,所述识别模块还用于将所述通话语音过滤掉;或所述识别模块还用于告知所述通话模块将从所述接收模块接收的所述通话语音过滤掉。10.一种语音指令的过滤终端,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至5中任一项所述的方法。11.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一项所述的方法。

百度查询: 百度在线网络技术(北京)有限公司 语音指令的过滤方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。