【发明授权】音频处理_诺基亚技术有限公司_201780056011.3 

申请/专利权人:诺基亚技术有限公司

申请日:2017-09-07

发明/设计人:A·莱蒂尼米;A·埃罗宁;J·利柏伦;J·阿拉斯沃里

公开(公告)日:2021-04-13

代理机构:北京市中咨律师事务所

公开(公告)号:CN109691140B

代理人:杨晓光

主分类号:H04S7/00(20060101)

地址:芬兰埃斯波

分类号:H04S7/00(20060101)

优先权:["20160913 EP 16188437.4"]

专利状态码:有效-授权

法律状态:2021.04.13#授权;2019.05.21#实质审查的生效;2019.04.26#公开

摘要:一种方法,包括:使得在三维虚拟视觉空间中显示声源虚拟视觉对象;使得在三维虚拟视觉空间中显示多个互连的虚拟视觉对象,其中,多个互连虚拟视觉对象中的至少一些在视觉上互连声源虚拟视觉对象和用户控制的虚拟视觉对象,其中,每个互连的虚拟视觉对象的视觉外观取决于与互连虚拟视觉对象互连的声源虚拟视觉对象相关联的声音对象的一个或多个特性,并且其中,声音对象的音频处理以产生渲染的声音对象取决于与用户控制的虚拟视觉对象的用户交互以及在声源虚拟视觉对象与用户控制的虚拟视觉之间的互连虚拟视觉对象的用户控制互连。

主权项:1.一种用于音频处理的方法,包括:使得渲染包括在相应位置处的声音对象的声音场景;通过以下操作来自动控制第一声音场景到第二声音场景的转换,其中,所述第一声音场景包括在第一组相应位置处的第一组声音对象,所述第二声音场景与所述第一声音场景不同并包括在第二组相应位置处的第二组声音对象:使得渲染包括在所述第一组相应位置处的所述第一组声音对象的所述第一声音场景;在所述第一组声音对象中选择至少一个第一声音对象;使得改变所述第一组声音对象中的至少一些声音对象相对于第一声音对象的相应位置,以在转换前阶段中将所述第一声音场景渲染为适配的第一声音场景,其中,所述适配的第一声音场景包括在与所述第一组相应位置不同的第一适配组相应位置处的所述第一组声音对象;在所述第二组声音对象中选择至少一个第二声音对象;使得在转换后阶段中将所述第二声音场景渲染为适配的第二声音场景,其中,所述适配的第二声音场景包括在与所述第二组相应位置不同的第二适配组相应位置处的所述第二组声音对象;使得改变所述第二组声音对象中的至少一些声音对象相对于第二声音对象的相应位置,以将所述第二声音场景渲染为在所述第二组相应位置处的所述第二组声音对象。

全文数据:音频处理技术领域本发明的实施例涉及音频处理。一些但并非全部的示例涉及音频处理的自动控制。背景技术空间音频渲染rendering包括渲染声音场景,其中声音场景包括在相应位置处的声音对象。因此,每个声音场景包括由收听者听觉处理的大量信息。用户将不仅了解声音对象的存在,还将了解其在声音场景中以及相对于其它声音对象的位置。发明内容根据本发明的各种但并非全部的实施例,提供一种方法,该方法包括:使得渲染包括在相应位置处的声音对象的声音场景;通过以下操作来自动控制第一声音场景到第二声音场景的转换,其中,第一声音场景包括在第一组相应位置处的第一组声音对象,第二声音场景与第一声音场景不同并包括在第二组相应位置处的第二组声音对象:使得渲染包括在第一组相应位置处的第一组声音对象的第一声音场景;然后使得改变第一组声音对象中的至少一些声音对象的相应位置,以在转换前阶段中将第一声音场景渲染为适配的第一声音场景,其中,适配的第一声音场景包括在与第一组相应位置不同的第一适配组相应位置处的第一组声音对象;然后使得在转换后阶段中将第二声音场景渲染为适配的第二声音场景,其中,适配的第二声音场景包括在与第二组相应位置不同的第二适配组相应位置处的第二组声音对象;然后使得改变第二组声音对象中的至少一些声音对象的相应位置,以将第二声音场景渲染为在第二组相应位置处的第二组声音对象。根据本发明的各种但并非全部的实施例,提供一种方法,该方法包括:使得渲染包括在相应位置处的声音对象的声音场景;通过以下操作来自动控制第一声音场景到第二声音场景的转换,其中,第一声音场景包括在第一组相应位置处的第一组声音对象,第二声音场景与第一声音场景不同并包括在第二组相应位置处的第二组声音对象:创建至少一个中间声音场景,其包括在与第一组相应位置不同的第一适配组相应位置处的第一组声音对象中的至少一些声音对象,或者包括在与第二组相应位置不同的第二适配组相应位置处的第二组声音对象中的至少一些声音对象。根据本发明的各种但并非全部的实施例,提供一种方法,该方法包括:使得渲染包括在相应位置处的声音对象的声音场景;通过以下操作来自动控制第一声音场景到第二声音场景的转换,其中,第一声音场景包括在第一组相应位置处的第一组声音对象,第二声音场景与第一声音场景不同并包括在第二组相应位置处的第二组声音对象:创建至少一个中间声音场景,其包括在与第一组相应位置不同的第一适配组相应位置处的第一组声音对象中的至少一些声音对象并且不包括第二组声音对象中的任何一个。根据本发明的各种但并非全部的实施例,提供一种方法,该方法包括:使得渲染包括在相应位置处的声音对象的声音场景;通过以下操作来自动控制第一声音场景到第二声音场景的转换,其中,第一声音场景包括在第一组相应位置处的第一组声音对象,第二声音场景与第一声音场景不同并包括在第二组相应位置处的第二组声音对象:创建至少一个中间声音场景,其包括在与第二组相应位置不同的第二适配组相应位置处的第二组声音对象中的至少一些声音对象并且不包括第一组声音对象中的任何一个。根据本发明的各种但并非全部的实施例,提供了根据所附权利要求中要求保护的示例。因此,减少了当一个声音场景转换到另一个声音场景发生时对用户的影响。附图说明为了更好地理解对理解发明内容有用的各种示例,现在将仅通过示例的方式参考附图,其中:图1A-1C和2A-2C示出介导现实的示例,其中,图1A、1B、1C示出相同的虚拟视觉空间和不同的视点,图2A、2B、2C示出从相应视点的角度观看的虚拟视觉场景;图3A示出真实空间的示例,图3B示出与图1B的虚拟视觉场景部分对应的真实视觉场景的示例;图4示出可操作以实现介导现实和或增强现实和或虚拟现实的设备的示例;图5A示出用于实现介导现实和或增强现实和或虚拟现实的方法的示例;图5B示出用于更新增强现实的虚拟视觉空间的模型的方法的示例;图6A和6B示出使能向用户显示至少部分虚拟视觉场景的装置的示例;图7A示出真实空间中的姿势的示例,图7B示出真实空间中的姿势在虚拟视觉场景中渲染的对应表示;图8示出用于修改渲染的声音场景的系统的示例;图9示出例如可用于执行系统的定位块、定向块和距离块的功能的模块的示例;图10示出使用装置实现的系统模块的示例;图11A示出使能自动控制声音场景之间的转换的方法的示例;图11B示出通过使用其中声音对象处于适配的位置的转换前阶段和转换后阶段来自动控制声音场景之间的转换的方法的示例;图12A示出包括声音对象的声音空间的示例;图12B示出包括多个渲染的声音对象的渲染的声音场景的示例;图13A-13D示出经由至少一个中间声音场景例如,第一声音场景的转换前阶段图13B和或第二声音场景的转换后阶段图13C从第一声音场景图13A到第二声音场景图13D的间接转换的示例;图14A-14D示出经由至少一个中间声音场景例如,第一声音场景的转换前阶段图14B和或第二声音场景的转换后阶段图14C从第一声音场景图14A到第二声音场景图14D的间接转换的另一示例;图15A-15C示出第二声音场景的两级转换后阶段的示例;图16A-16C示出第一声音场景的两级转换前阶段的示例;图17A和17B示出转换之前图17A和转换之后图17B的视觉场景的示例。定义“人工环境”是已经被记录或生成之物。“虚拟视觉空间”是指可以被观看的完全或部分人工环境,其可以是三维的。“虚拟视觉场景”是指从虚拟视觉空间内的特定视点观看的虚拟视觉空间的表示。“虚拟视觉对象”是虚拟视觉场景内的可视虚拟对象。“真实空间”是指真实环境,其可以是三维的。“真实视觉场景”是指从真实空间内的特定视点观看的真实空间的表示。本文中的“介导现实”是指当装置至少部分地向用户显示虚拟视觉场景时,用户在视觉上体验完全或部分人工环境虚拟视觉空间。虚拟视觉场景由虚拟视觉空间内的视点和视场确定。显示虚拟视觉场景意思是以用户可以看到的形式提供虚拟视觉场景。本文中的“增强现实”是指当虚拟视觉场景包括由装置向用户显示的一个或多个视觉元素补充的物理真实世界环境真实空间的真实视觉场景时,其中用户在视觉上体验部分人工环境虚拟视觉空间的一种介导现实形式。本文中的“虚拟现实”是指当装置向用户显示虚拟视觉场景时,其中用户在视觉上体验完全人工环境虚拟视觉空间的一种介导现实形式。应用于介导现实、增强现实或虚拟现实的“视角介导perspective-mediated”意思是用户动作确定虚拟视觉空间内的视点,从而改变虚拟视觉场景。应用于介导现实、增强现实或虚拟现实的“第一人视角介导”意思是具有附加约束的视角介导,其中用户的真实视点确定虚拟视觉空间内的视点。应用于介导现实、增强现实或虚拟现实的“第三人视角介导”意思是具有附加约束的视角介导,其中用户的真实视点不确定虚拟视觉空间内的视点。应用于介导现实、增强现实或虚拟现实的“用户交互”意思是用户动作至少部分地确定虚拟视觉空间内发生的情况。“显示”意思是以用户在视觉上感知观看的形式提供。“渲染”意思是以用户感知的形式提供。“声音空间”是指三维空间中的声源的布置。可以关于记录声音定义声音空间记录的声音空间以及关于渲染声音定义声音空间渲染的声音空间。“声音场景”是指从声音空间内的特定视点收听的声音空间的表示。“声音对象”是指可能位于声音空间内的声音。源声音对象表示声音空间内的声源。记录的声音对象表示在特定麦克风或位置处记录的声音。渲染的声音对象表示从特定位置渲染的声音。当声音空间和虚拟视觉空间相关地使用时,“对应”或“对应的”意思是声音空间和虚拟视觉空间是时间和空间对齐的,即它们在相同的时间是相同的空间。当声音场景和虚拟视觉场景或视觉场景相关地使用时,“对应”或“对应的”意思是声音空间和虚拟视觉空间或视觉场景是对应的,并且其视点定义声音场景的名义收听者和其视点定义虚拟视觉场景或视觉场景的名义观看者处于相同的位置和定向,即它们具有相同的视点。“虚拟空间”可以意味着虚拟视觉空间,意味着声音空间或者意味着虚拟视觉空间和对应声音空间的组合“虚拟空间”可以表示虚拟视觉空间,表示声音空间或者表示虚拟视觉空间和对应的声音空间的组合。“虚拟场景”可以表示虚拟视觉场景,表示声音场景或者表示虚拟视觉场景和对应的声音场景的组合。“虚拟对象”是虚拟场景内的对象,它可以是人工虚拟对象例如,计算机生成的虚拟对象,或者它可以是现场或记录的真实空间中的真实对象的图像。它可以是声音对象和或虚拟视觉对象。具体实施方式图1A-1C和2A-2C示出了介导现实的示例。介导现实可以是增强现实或虚拟现实。图1A、1B、1C示出了包括相同的虚拟对象21的相同的虚拟视觉空间20,然而,每个附图示出了不同的视点24。视点24的位置和方向可以独立地改变。视点24的方向而非位置从图1A到图1B发生了改变。视点24的方向和位置从图1B到图1C发生了改变。图2A、2B、2C从相应的图1A、1B、1C的不同视点24的角度示出了虚拟视觉场景22。虚拟视觉场景22由虚拟视觉空间20内的视点24和视场26确定。虚拟视觉场景22至少部分地显示给用户。所示的虚拟视觉场景22可以是介导现实场景、虚拟现实场景或增强现实场景。虚拟现实场景显示完全人工的虚拟视觉空间20。增强现实场景显示部分人工、部分真实的虚拟视觉空间20。介导现实、增强现实或虚拟现实可以是用户交互介导的。在这种情况下,用户动作至少部分地确定虚拟视觉空间20内发生的情况。这可以允许与虚拟对象21例如,虚拟视觉空间20内的视觉元素28的交互。介导现实、增强现实或虚拟现实可以是视角介导的。在这种情况下,用户动作确定虚拟视觉空间20内的视点24,改变虚拟视觉场景22。例如,如图1A、1B、1C所示,虚拟视觉空间20内的视点24的位置23可以改变和或虚拟视觉空间20内的视点24的方向或定向25可以改变。如果虚拟视觉空间20是三维的,则虚拟视觉空间20内的视点24的位置23具有三个自由度,例如,上下、前后、左右,并且视点24的方向25具有三个自由度,例如,滚转、俯仰、偏航。视点24的位置23和或方向25可以连续地变化,因此用户动作连续地改变视点24的位置和或方向。可替代地,视点24可具有离散量化位置23和或离散量化方向25,并且用户动作通过在视点24的允许位置23和或方向25之间不连续地跳跃而进行切换。图3A示出了包括真实对象11的真实空间10,真实空间10部分地对应于图1A的虚拟视觉空间20。在该示例中,真实空间10中的每个真实对象11在虚拟视觉空间20中具有对应的虚拟对象21,然而,虚拟视觉空间20中的每个虚拟对象21在真实空间中不具有对应的真实对象11。在该示例中,虚拟对象21之一即计算机生成的可视元素28是在真实空间10中不具有对应的真实对象11的人工虚拟对象21。真实空间10和虚拟视觉空间20之间可以存在线性映射,并且真实空间10中的每个真实对象11与其对应的虚拟对象21之间存在相同的映射。因此,真实空间10中的对象11的相对关系与虚拟视觉空间20中的对应虚拟对象21之间的相对关系相同。图3B示出了与图1B的虚拟视觉场景22部分对应的真实视觉场景12,其包括真实对象11但不包括人工虚拟对象。真实视觉场景来自对应于图1A的虚拟视觉空间20中的视点24的视角。真实视觉场景12内容由虚拟空间20中的对应视点24和视场26真实空间10中的视点14确定。图2A可以是图3B中所示的真实视觉场景12的增强现实版本的图示。虚拟视觉场景22包括由装置向用户显示的一个或多个视觉元素28补充的真实空间10的真实视觉场景12。视觉元素28可以是计算机生成的视觉元素。在穿透式see-through布置中,虚拟视觉场景22包括透过补充视觉元素28的显示而看到的实际真实视觉场景12。在视播see-video布置中,虚拟视觉场景22包括显示的真实视觉场景12和显示的补充视觉元素28。显示的真实视觉场景12可以基于来自单个视点24的图像或者同时基于来自不同视点24的多个图像,这些图像经过处理产生来自单个视点24的图像。图4示出了可操作以实现介导现实和或增强现实和或虚拟现实的装置30的示例。装置30包括显示器32,其用于以用户视觉感知的形式向用户提供至少部分虚拟视觉场景22。显示器32可以是视觉显示器,其提供向用户显示至少部分虚拟视觉场景22的光。视觉显示器的示例包括液晶显示器;有机发光显示器;发射、反射、透射和透反射显示器;直接视网膜投影显示器;近眼显示器等。在该示例但并非全部示例中,显示器32由控制器42控制。控制器42的实现可以是控制器电路。控制器42可以仅通过硬件实现,仅具有软件包括固件的特定方面,或者可以是硬件和软件包括固件的组合。如图4所示,控制器42可以使用实现硬件功能的指令来实现,例如,通过在通用或专用处理器40中使用可执行计算机程序指令48来实现,可执行计算机程序指令48可以存储在计算机可读存储介质磁盘、存储器等上以由此类处理器40执行。处理器40被配置为对存储器46执行读写操作。处理器40还可以包括处理器40经由其输出数据和或命令的输出接口以及经由其将数据和或命令输入处理器40的输入接口。存储器46存储计算机程序48,计算机程序48包括计算机程序指令计算机程序代码,当加载到处理器40中时,计算机程序指令计算机程序代码控制装置30的操作。计算机程序48的计算机程序指令提供使得装置能够执行图5A和5B所示方法的逻辑和例程。通过读取存储器46,处理器40能够加载并执行计算机程序48。图5A和5B中示出的方框可以表示方法的步骤和或计算机程序48中的代码段。方框的特定顺序的图示并非意味着存在必要或优选的方框顺序,方框的顺序和排列可以是变化的。此外,可以省略一些方框。装置30例如可以使用图5A所示的方法60或类似的方法实现介导现实和或增强现实和或虚拟现实。控制器42存储并维护虚拟视觉空间20的模型50。该模型可以被提供给控制器42或由控制器42确定。例如,输入电路44中的传感器可用于从不同的视点创建虚拟视觉空间的重叠深度图,然后可以生成三维模型。存在多种用于创建深度图的技术。在KinectTM设备中使用的无源系统的一个示例是当使用红外光将对象绘制上非均匀的符号图案时,使用多个相机测量反射光,然后使用视差效应处理反射光以确定对象的位置。在框62处,确定虚拟视觉空间20的模型是否已经改变。如果虚拟视觉空间20的模型已经改变,则该方法移到框66。如果虚拟视觉空间20的模型没有改变,则该方法移到框64。在框64处,确定虚拟视觉空间20中的视点24是否已经改变。如果视点24已经改变,则该方法移到框66。如果视点24没有改变,则该方法返回到框62。在框66处,从由当前视点24限定的位置23和方向25获取三维虚拟视觉空间20的二维投影。然后,该投影被视场26限制以产生虚拟视觉场景22。然后该方法返回到框62。在装置30实现增强现实的情况下,虚拟视觉空间20包括来自真实空间10的对象11以及不存在于真实空间10中的视觉元素28。这些视觉元素28的组合可以被称为人工虚拟视觉空间。图5B示出了用于更新增强现实的虚拟视觉空间20的模型的方法70。在框72处,确定真实空间10是否已经改变。如果真实空间10已经改变,则该方法移到框76。如果真实空间10没有改变,则该方法移到框74。检测真实空间10的变化可以使用差分在像素级实现,并且可以使用计算机视觉跟踪正在移动的对象以在对象级实现。在框74处,确定人工虚拟视觉空间是否已经改变。如果人工虚拟视觉空间已经改变,则该方法移到框76。如果人工虚拟视觉空间没有改变,则该方法返回到框72。当人工虚拟视觉空间由控制器42生成时,容易检测到视觉元素28的改变。在框76处,更新虚拟视觉空间20的模型。装置30可以实现用于介导现实和或增强现实和或虚拟现实的用户交互介导。用户输入电路44使用用户输入43检测用户动作。控制器42使用这些用户动作来确定虚拟视觉空间20内发生的情况。这样允许与虚拟视觉空间20内的视觉元素28进行交互。装置30可以实现介导现实和或增强现实和或虚拟现实的视角介导。用户输入电路44检测用户动作。控制器42使用这些用户动作来确定虚拟视觉空间20内的视点24,从而改变虚拟视觉场景22。视点24可以在位置和或方向上连续变化,并且用户动作改变视点24的位置和或方向。可替代地,视点可以具有离散量化位置和或离散量化方向,并且用户动作通过跳到视点24的下一位置和或方向来进行切换。装置30可以实现用于介导现实、增强现实或虚拟现实的第一人视角。用户输入电路44使用用户视点传感器45检测用户的真实视点14。控制器42使用用户的真实视点来确定虚拟视觉空间20内的视点24,从而改变虚拟视觉场景22。返回参考图3A,用户18具有真实视点14。用户18可以改变真实视点。例如,真实视点14的真实位置13是用户18的位置,并且可以通过改变用户18的物理位置13来进行改变。例如,真实视点14的真实方向15是用户18正在看的方向并且可以通过改变用户18的真实方向来进行改变。真实方向15例如可以通过用户18改变其头部或视点的定向和或用户改变其注视方向来进行改变。头戴式装置30可用于通过测量用户头部的定向的变化和或用户注视方向的变化来实现第一人视角介导。在一些但并非全部示例中,装置30包括作为输入电路44的一部分的视点传感器45,以用于确定真实视点的变化。例如,诸如GPS、通过发送到多个接收机和或从多个发射机接收执行的三角测量三边测量、加速度检测和集成的定位技术可用于确定用户18和真实视点14的新物理位置13。例如,加速度计、电子陀螺仪或电子罗盘可用于确定用户头部或视点的定向的变化以及真实视点14的真实方向15的相应变化。例如,基于例如计算机视觉的瞳孔跟踪技术可用于跟踪用户的一只或两只眼睛的运动,并因此确定用户的注视方向以及真实视点14的真实方向15的相应变化。装置30可以包括作为输入电路44的一部分的图像传感器47,以用于对真实空间10进行成像。图像传感器47的示例是被配置为用作相机的数字图像传感器。此类相机可操作以记录静态图像和或视频图像。在一些但并非全部实施例中,相机可以以立体或其它空间分布的布置配置,以使得能够从不同的视角观看真实空间10。这样可以使得能够创建三维图像和或处理以例如通过视差效应建立深度。在一些但并非全部实施例中,输入电路44包括深度传感器49。深度传感器49可包括发射机和接收机。发射机发射信号例如,人类无法感知的信号,例如超声波或红外光,接收机接收反射信号。通过使用单个发射机和单个接收机,可以经由测量从发射到接收的飞行时间来实现一些深度信息。通过使用多个发射机和或多个接收机空间分集可以实现更好的分辨率。在一个示例中,发射机被配置为利用空间相关图案,用光优选地为不可见光诸如红外光“绘制”真实空间10。接收机对特定图案的检测使得能够对真实空间10进行空间解析。到真实空间10的空间解析部分的距离可以通过飞行时间和或立体视觉如果接收机相对于发射机处于立体位置来确定。在一些但并非全部实施例中,输入电路44可以包括通信电路41,作为图像传感器47和深度传感器49中的一个或多个的补充或替代。这样的通信电路41可以与真实空间10中的一个或多个远程图像传感器47和或真实空间10中的远程深度传感器49通信。图6A和6B示出了使能向用户显示至少部分虚拟视觉场景22的装置30的示例。图6A示出了手持装置31,其包括作为显示器32的显示屏,该显示屏向用户显示图像并用于向用户显示虚拟视觉场景22。用户可以将装置30握在手中,并根据前面提到的六个自由度中的一个或多个有意地移动该设备。手持装置31可以包括传感器45,用于根据装置30的定向变化确定真实视点的变化。手持装置31可以是或可以作为用于增强现实的视播布置来操作,该布置允许在显示器32上显示真实视觉场景12的实况或记录视频以供用户观看,同时,在显示器32显示一个或多个视觉元素28以供用户观看。显示的真实视觉场景12和显示的一个或多个视觉元素28的组合向用户提供虚拟视觉场景22。如果手持装置31具有安装在与显示器32相对的面上的相机,则其可以作为视播布置来操作,该布置允许在向用户显示一个或多个视觉元素28时观看实时真实视觉场景12,从而组合地提供虚拟视觉场景22。图6B示出了头戴式装置33,其包括向用户显示图像的显示器32。当用户的头部移动时,头戴式装置33可以自动移动。头戴式装置33可以包括用于注视方向检测和或选择姿势检测的传感器45。头戴式装置33可以是用于增强现实的穿透式布置,该布置允许在显示器32向用户显示一个或多个视觉元素28时观看现场真实视觉场景12以组合地提供虚拟视觉。在这种情况下,面罩34如果存在是透明或半透明的,从而可以通过面罩34观察现场真实视觉场景12。头戴式装置33可以作为用于增强现实的视播布置来操作,该布置允许在显示器32上显示真实视觉场景12的实况或记录视频以供用户观看,同时,在显示器32显示一个或多个视觉元素28以供用户观看。显示的真实视觉场景12和显示的一个或多个视觉元素28的组合向用户提供虚拟视觉场景22。在这种情况下,面罩34是不透明的并且可用作显示器32。可以使用能够向用户显示至少部分虚拟视觉场景22的装置30的其它示例。例如,可以使用一个或多个投影仪,其投影一个或多个视觉元素以通过补充物理真实世界环境真实空间的真实视觉场景来提供增强现实。例如,多个投影仪或显示器可以围绕用户以通过向用户渲染完全人工环境虚拟视觉空间作为虚拟视觉场景来提供虚拟现实。返回参考图4,装置30可以实现用于介导现实和或增强现实和或虚拟现实的用户交互介导。用户输入电路44检测使用用户输入43的用户动作。控制器42使用这些用户动作来确定虚拟视觉空间20内发生的情况。这允许与虚拟视觉空间20内的视觉元素28进行交互。检测到的用户动作例如可以是在真实空间10中执行的姿势。可以以多种方式检测姿势。例如,深度传感器49可用于检测用户18的身体部位的动作和或图像传感器47可用于检测用户18的身体部位的动作和或附着到用户18的肢体的位置运动传感器可用于检测肢体的运动。对象跟踪可用于确定对象或用户何时改变。例如,在大的宏观尺度上跟踪对象允许创建随对象移动的参考系。然后,该参照系可用于通过使用关于对象的时间差分来跟踪随时间演变的对象形状变化。这可用于检测小幅度人体运动,例如,姿势、手部运动、手指运动和或面部运动。这些是与用户相关的场景独立用户仅移动。装置30可以跟踪与用户身体例如,用户身体的一个或多个关节相关的多个对象和或点。在一些示例中,装置30可以执行用户身体的全身骨骼跟踪。在一些示例中,装置30可以执行对用户手部的数字跟踪。在姿势识别中,装置30可以使用与用户身体相关的一个或多个对象和或点的跟踪。参考图7A,真实空间10中的特定姿势80是由控制器42用作“用户控制”事件的姿势用户输入,用于确定虚拟视觉空间20内发生的情况。姿势用户输入是对装置30具有意义的作为用户输入的姿势80。参考图7B,该附图示出了在一些但并非全部示例中,由装置30在虚拟视觉场景22中渲染真实空间中的姿势80的对应表示。该表示涉及通过移动82以复制或指示虚拟视觉场景22中的姿势80的一个或多个视觉元素28。姿势80可以是静态的或移动的。移动姿势可以包括动作或包含一系列动作的动作模式。例如,可以在空间中做出画圈动作或左右或上下滑动动作或姿势跟踪。移动姿势例如可以是装置无关姿势或装置相关姿势。移动姿势可以涉及用户输入对象的移动,例如用户一个或多个身体部分或其它装置相对于传感器的动作。身体部位可以包括用户的手或用户的手的一部分,例如,一个或多个手指和拇指。在其它示例中,用户输入对象可以包括用户身体的其它部位,例如他们的头部或手臂。三维移动可以包括用户输入对象在六个自由度中的任一个中的动作。该动作可以包括用户输入对象朝向或远离传感器移动以及在平行于传感器的平面中移动或者这些动作的任何组合。姿势80可以是非接触姿势。在姿势期间的任何时间,非接触姿势都不会接触传感器。姿势80可以是根据相对于传感器的绝对位移定义的绝对姿势。这样的姿势可以是束缚的,因为它在真实空间10中的精确位置处执行。可替代地,姿势80可以是根据姿势期间的相对移位定义的相对姿势。这样的姿势可以是非束缚的,因为它不需要在真实空间10中的精确位置处执行,并且可以在大量任意位置处执行。姿势80可以被定义为跟踪点相对于原点随时间的位移演变。例如,它可以使用时间变量参数例如,位移、速度或使用其它运动学参数来根据运动定义。非束缚的姿势可以被定义为相对移位Δd随相对时间Δt的演变。姿势80可以在一个空间维度1D姿势、两个空间维度2D姿势或三个空间维度3D姿势中执行。图8示出了系统100的示例以及方法200的示例。系统100和方法200记录声音空间并处理记录的声音空间以针对位于声音空间内的特定位置原点的定向的收听者将记录的声音空间渲染为渲染的声音场景。声音空间是三维空间中声源的布置。可以关于记录声音记录的声音空间和关于渲染声音渲染的声音空间定义声音空间。系统100包括一个或多个便携式麦克风110,并且可以包括一个或多个静态麦克风120。在该示例但并非全部示例中,声音空间的原点在麦克风处。在该示例中,原点处的麦克风是静态麦克风120。它可以记录一个或多个声道,例如它可以是麦克风阵列。但是,原点可处于任意位置。在该示例中,仅示出了单个静态麦克风120。然而,在其它示例中,可以独立地使用多个静态麦克风120。系统100包括一个或多个便携式麦克风110。便携式麦克风110例如可以在记录的声音空间内与声源一起移动。例如,便携式麦克风可以是保持靠近声源的“近距离”麦克风。例如这可以通过使用悬臂式麦克风来实现,或者例如通过将麦克风连接到声源例如,通过使用Lavalier麦克风来实现。便携式麦克风110可以记录一个或多个记录声道。便携式麦克风PM110与原点的相对位置可以由矢量z表示。因此,矢量z相对于记录的声音空间的名义收听者定位便携式麦克风110。名义收听者在原点处的相对定向可以由值Δ表示。定向值Δ定义了名义收听者的“视点”,该视点定义了声音场景。声音场景是从声音空间内的特定视点收听的声音空间的表示。当记录的声音空间经由图1中的系统100渲染给用户收听者时,就像收听者位于具有特定定向的记录的声音空间的原点处那样渲染给收听者。因此,重要的是,当便携式麦克风110在记录的声音空间中移动时,其相对于记录的声音空间的原点的位置z被跟踪并且在渲染的声音空间中正确地表示。系统100被配置为实现此目的。从静态麦克风120输出的音频信号122由音频编码器130编码成多声道音频信号132。如果存在多个静态麦克风,则每个静态麦克风的输出将由音频编码器单独编码成多声道音频信号。音频编码器130可以是空间音频编码器,以使得多声道音频信号132表示由静态麦克风120记录的声音空间,并且可以被渲染以给出空间音频效果。例如,音频编码器130可以被配置为根据所定义的标准产生多声道音频信号132,这些标准例如包括双耳编码、5.1环绕声编码、7.1环绕声编码等。如果存在多个静态麦克风,则每个静态麦克风的多声道信号将根据相同的定义标准产生,例如双耳编码、5.1环绕声编码和7.1环绕声编码,并且与相同的共同渲染的声音空间有关。来自一个或多个静态麦克风120的多声道音频信号132由混合器102与来自一个或多个便携式麦克风110的多声道音频信号142混合,以产生多麦克风多声道音频信号103,其表示相对于原点的记录的声音场景,并且可以由对应于音频编码器130的音频解码器渲染,以便当收听者处于原点时,将渲染的声音场景再现给与记录的声音场景对应的收听者。来自便携式麦克风110或每个便携式麦克风110的多声道音频信号142在混合之前被处理,以考虑便携式麦克风110相对于静态麦克风120处的原点的任何移动。从便携式麦克风110输出的音频信号112由定位块140处理,以调节便携式麦克风110相对于原点的移动。定位块140将矢量z或依赖于矢量z的某个或某些参数作为输入。矢量z表示便携式麦克风110相对于原点的相对位置。定位块140可以被配置为调整由便携式麦克风110记录的音频信号112和由静态麦克风120记录的音频信号122之间的任何时刻的未对准,以使得它们共享公共时间参考帧。例如,可以通过将来自便携式麦克风110的音频信号112内存在的自然发生或人为引入的不可听音频信号与来自静态麦克风120的音频信号122内的音频信号进行关联来实现此目的。在定位块140执行处理之前,可以使用通过关联而识别的任何定时偏移来延迟推进来自便携式麦克风110的音频信号112。考虑到便携式麦克风110相对于静态麦克风120处的原点的相对定向Argz,定位块140处理来自便携式麦克风110的音频信号112。用于产生多声道音频信号132的静态麦克风音频信号122的音频编码假定渲染的声音空间相对于记录的声音空间的定向的特定定向,并且相应地将音频信号122编码成多声道音频信号132。确定便携式麦克风110在记录的声音空间中的相对定向Argz,并且将表示声音对象的音频信号112编码成由音频编码130定义的多声道,以使得声音对象在渲染的声音空间内被正确地定向在相对于收听者的相对定向Argz。例如,可以首先将音频信号112混合或编码成多声道信号142,然后可以使用变换T在由这些多声道定义的空间内将表示移动声音对象的多声道信号142旋转Argz。如果需要,可以使用定向块150将多声道音频信号142旋转Δ。类似地,如果需要,可以使用定向块150将多声道音频信号132旋转Δ。定向块150的功能非常类似于定位块140的定向功能的功能,只是它旋转Δ而不是Argz。在一些情况下,例如当通过头戴式音频输出设备300例如使用双耳音频编码的耳机将声音场景渲染给收听者时,可能希望在收听者在空间中转动其头部330时使渲染的声音空间310在空间320中保持固定。这意味着渲染的声音空间310需要相对于音频输出设备300与头部旋转相反地旋转相同的量。渲染的声音空间310的定向跟随收听者的头部旋转,以使得渲染的声音空间310的定向在空间320中保持固定并且不随着收听者的头部330移动。另外处理便携式麦克风信号112以控制声音对象与渲染的声音场景中的收听者的距离D的感知,例如以匹配声音对象与记录的声音空间中的原点的距离|z|。这在使用双耳编码以使得声音对象例如从用户外部化并似乎在用户的耳朵之间的距离处而不是在用户的头部内时是有用的。距离块160处理多声道音频信号142以修改距离感知。图9示出了模块170,其例如可用于执行图8中的方法200和或定位块140、定向块150和距离块160的功能。模块170可以使用电路和或编程的处理器来实现。该附图示出了在多声道音频信号142与多声道音频信号132混合以形成多麦克风多声道音频信号103之前对多声道音频信号142的单个声道的处理。多声道信号142的单个输入声道是作为信号187的输入。输入信号187并行通过“直接”路径和一个或多个“间接”路径,然后来自这些路径的输出被混合器196混合在一起作为多声道信号,以产生输出多声道信号197。对于每个输入声道,输出多声道信号197被混合以形成与多声道音频信号132混合的多声道音频信号142。直接路径表示在收听者看来已经直接从音频源接收的音频信号,而间接路径表示在收听者看来已经经由诸如多路径或反射路径或折射路径的间接路径接收的音频信号。通过修改直接路径和间接路径之间的相对增益,距离块160改变声音对象与渲染的声音空间310中的收听者的距离D的感知。每个并行路径包括可变增益设备181、191,其由距离块160控制。可以通过控制直接路径和间接去相关路径之间的相对增益来控制距离感知。相对于直接路径增益增加间接路径增益会增加距离感知。在直接路径中,输入信号187在距离块160的控制下由可变增益设备181放大,以产生增益调整信号183。增益调整信号183由直接处理模块182处理以产生直接多声道音频信号185。在间接路径中,输入信号187在距离块160的控制下由可变增益设备191放大,以产生增益调整信号193。增益调整信号193由间接处理模块192处理以产生间接多声道音频信号195。直接多声道音频信号185和一个或多个间接多声道音频信号195在混合器196中混合以产生输出多声道音频信号197。直接处理块182和间接处理块192都接收到达方向信号188。到达方向信号188给出便携式麦克风110移动声音对象在记录的声音空间中的定向Argz以及渲染的声音空间310相对于名义收听者音频输出设备300的定向Δ。当便携式麦克风110在记录的声音空间中移动时,移动声音对象的位置发生改变,并且当渲染声音空间的头戴式音频输出设备旋转时,渲染的声音空间的定向发生改变。直接处理块182例如可以包括系统184,其在适当的多声道空间中旋转单声道音频信号、增益调整输入信号183,从而产生直接多声道音频信号185。系统使用传递函数来执行变换T,该变换在针对这些多个声道定义的空间内将多声道信号旋转Argz和由到达方向信号188定义的Δ。例如,头部相关传递函数HRTF内插器可用于双耳音频。作为另一个示例,矢量基础幅度平移VBAP可用于扬声器格式例如,5.1音频。间接处理块192例如可以利用到达方向信号188,使用可变增益设备194来控制单声道音频信号的增益、增益调整输入信号193。然后使用静态去相关器196和静态变换T来处理放大的信号以产生间接多声道音频信号195。该示例中的静态去相关器使用至少2ms的预延迟。变换T以类似于直接系统但采取固定量的方式在针对这些多个声道定义的空间内旋转多声道信号。例如,静态头部相关传递函数HRTF内插器可用于双耳音频。因此,应当理解,模块170可用于处理便携式麦克风信号112并执行以下功能:i改变声音对象相对于渲染的声音空间中的收听者的相对位置定向Argz和或距离|z|;以及ii改变渲染的声音空间的定向包括根据i定位的渲染的声音对象。还应当理解,当处理由静态麦克风120提供的音频信号122时,模块170还可以仅用于执行定向块150的功能。然而,到达方向信号将仅包括Δ而不包括Argz。在一些但并非全部示例中,可以将修改间接路径的增益的可变增益设备191的增益设置为“零”,并且可以固定用于直接路径的可变增益设备181的增益。在这种情况下,模块170缩小成旋转记录的声音空间,以根据仅包括Δ并且不包括Argz的到达方向信号产生渲染的声音空间的系统。图10示出了使用装置400实现的系统100的示例。装置400例如可以是静态电子设备、便携式电子设备或手持便携式电子设备其尺寸适合于拿在用户的手掌上或放入用户夹克口袋中。在该示例中,装置400包括静态麦克风120作为集成麦克风,但不包括一个或多个远程的便携式麦克风110。在该示例但并非全部示例中,静态麦克风120是麦克风阵列。然而,在其它示例中,装置400不包括静态麦克风120。装置400包括外部通信接口402,用于与外部麦克风例如,远程便携式麦克风110进行外部通信。这例如可以包括无线收发机。定位系统450被示为系统100的一部分。该定位系统450用于相对于声音空间的原点例如,静态麦克风120定位便携式麦克风110。在该示例中,定位系统450被示为在便携式麦克风110和装置400两者的外部。它向装置400提供依赖于便携式麦克风110相对于声音空间的原点的位置z的信息。在该示例中,经由外部通信接口402提供该信息,然而,在其它示例中,可以使用不同的接口。此外,在其它示例中,定位系统可以完全或部分地位于便携式麦克风110内和或装置400内。位置系统450以特定频率提供便携式麦克风110的位置更新,并且术语声音对象的“准确”和“不准确”定位应理解为在由位置更新频率施加的约束内的准确或不准确。也即是说,准确和不准确是相对术语而不是绝对术语。位置系统450使得能够确定便携式麦克风110的位置。位置系统450可以接收定位信号并确定提供给处理器412的位置,或者它可以提供定位信号或依赖于定位信号的数据,以使得处理器412可以确定便携式麦克风110的位置。位置系统450可以使用许多不同的技术来定位包括无源系统和有源系统的对象,在无源系统中,定位的对象是被动的并且不产生定位信号,而在有源系统中,定位的对象产生一个或多个定位信号。在KinectTM设备中使用的系统的示例是使用红外光将对象绘制上非均匀的符号图案,并且使用多个相机测量反射光,然后使用视差效应处理反射光以确定对象的位置。有源无线定位系统的示例是对象具有发射机,该发射机向多个接收机发送无线定位信号以允许通过例如三边测量或三角测量来定位对象。发射机可以是蓝牙标签或射频识别RFID标签。无源无线定位系统的示例是对象具有一个或多个接收机,这些接收机从多个发射机接收无线定位信号,以能够通过例如三边测量或三角测量来定位对象。三边测量需要估计对象与已知位置处的多个未对准的发射机接收机位置的距离。例如,可以使用飞行时间或信号衰减来估计距离。三角测量需要估计对象相对于已知位置处的多个未对准的发射机接收机位置的方位。例如,可以使用以可变窄孔径发射的发射机、以可变窄孔径接收的接收机,或通过检测分集接收机处的相位差来估计方位。其它定位系统可以使用航位推算和惯性运动或磁定位。定位的对象可以是便携式麦克风110,或者可以是与便携式麦克风110相关联的由人穿戴或携带的对象,或者可以是与便携式麦克风110相关联的人。装置400完全或部分地操作上述系统100和方法200以产生多麦克风多声道音频信号103。装置400经由输出通信接口404将多麦克风多声道音频信号103提供给音频输出设备300以进行渲染。在一些但并非全部示例中,音频输出设备300可以使用双耳编码。可替代地或附加地,在一些但并非全部示例中,音频输出设备300可以是头戴式音频输出设备。在该示例中,装置400包括控制器410,控制器410被配置为处理由静态麦克风120和便携式麦克风110以及定位系统450提供的信号。在一些示例中,控制器410可能需要根据麦克风110、120和音频输出设备300的功能对从麦克风110、120接收的信号执行模数转换和或对发送到音频输出设备300的信号执行数模转换。然而,为了清楚地表示,图9中未示出转换器。控制器410的实现可以是控制器电路。控制器410可以仅通过硬件实现,仅具有软件包括固件的特定方面,或者可以是硬件和软件包括固件的组合。如图10所示,控制器410可以使用实现硬件功能的指令来实现,例如,通过在通用或专用处理器40中使用可执行计算机程序指令416来实现,可执行计算机程序指令416可以存储在计算机可读存储介质磁盘、存储器等上以由此类处理器412执行。处理器412被配置为对存储器414执行读写操作。处理器412还可以包括处理器412经由其输出数据和或命令的输出接口以及经由其将数据和或命令输入处理器412的输入接口。存储器414存储计算机程序416,计算机程序416包括计算机程序指令计算机程序代码,当加载到处理器412中时,计算机程序指令计算机程序代码控制装置400的操作。计算机程序416的计算机程序指令提供使得装置能够执行图1-19所示方法的逻辑和例程。通过读取存储器414,处理器412能够加载并执行计算机程序416。图8和9中示出的方框可以表示方法的步骤和或计算机程序416中的代码段。方框的特定顺序的图示并非意味着存在必要或优选的方框顺序,方框的顺序和排列可以是变化的。此外,可以省略一些方框。前面的描述关于图1至7描述了系统、装置30、方法60和计算机程序48,其能够控制虚拟视觉空间20和依赖于虚拟视觉空间20的虚拟视觉场景26。前面的描述关于图8至10描述了系统100、装置400、方法200和计算机程序416,其能够控制声音空间和依赖于声音空间的声音场景。在一些但并非全部示例中,虚拟视觉空间20和声音空间可以是对应的。当声音空间和虚拟视觉空间相关地使用时,“对应”或“对应的”意思是声音空间和虚拟视觉空间是时间和空间对齐的,即它们在相同的时间是相同的空间。虚拟视觉空间与声音空间之间的对应导致虚拟视觉场景与声音场景之间的对应。当声音场景和虚拟视觉场景相关地使用时,“对应”或“对应的”意思是声音空间和虚拟视觉空间是对应的,并且其视点定义声音场景的名义收听者和其视点定义虚拟视觉场景的名义观看者处于相同的位置和定向,即他们具有相同的视点。以下描述结合图11至19描述了方法520,其使得音频处理例如,空间音频处理能够通过尤其是使用其它虚拟对象21之间的互连虚拟视觉对象620的布置例如,路由和或外观在虚拟视觉空间20内进行可视化。图11A和11B示出了方法520的示例,其将参照图11至17更详细地描述。方法520包括在框521处使得渲染包括在相应位置730处的声音对象710的声音场景700。方法520还包括在框522处自动控制第一声音场景701到第二声音场景702的转换,第一声音场景701包括在第一组731相应位置730处的第一组721声音对象710,第二声音场景702与第一声音场景701不同并包括在第二组732相应位置730处的第二组722声音对象710。在一些但并非全部示例中,第一声音场景701到第二声音场景702的转换527响应于从第一声音场景701到第二声音场景702的声音场景的改变的直接或间接的用户指定。直接指定例如可以发生在用户进行将第一声音场景701改变为第二声音场景702的声音编辑命令时。间接指定例如可以发生在用户进行诸如视频编辑命令的另一个命令时,该另一个命令被解释为将第一声音场景701改变为第二声音场景702的用户要求。其它示例包括切换到虚拟现实视频中的另一个位置在时间上向前或向后跳跃或者在虚拟现实视频中切换场景,或者用空间音频内容来改变音频内容的音乐轨道在这种情况下,它不必具有视觉内容,而只具有空间音频。在图11B中更详细地示出了框522的操作。方法520包括在图11B中的框523处自动使得渲染第一声音场景701,其包括在第一组731相应位置730处的第一组721声音对象710。在图13A中示出了第一声音场景701的示例。然后,方法520包括在框524处自动使得改变第一组721声音对象710中的至少一些的相应位置730,以在转换前阶段711中将第一声音场景701渲染为适配的第一声音场景701',其包括在与第一组731相应位置730不同的第一适配组相应位置处的第一组721声音对象710。在图13B中示出了适配的第一声音场景701'的示例。然后,方法520包括在框525处自动使得在转换后阶段712中将第二声音场景702渲染为适配的第二声音场景702',其包括在与第二组732相应位置730不同的第二适配组相应位置处的第二组722声音对象710。在图13C中示出了适配的第二声音场景702'的示例。然后,方法520包括在框526处自动使得改变第二组722声音对象710中的至少一些的相应位置730,以将第二声音场景702渲染为在第二组732相应位置730处的第二组722声音对象710。在图13D中示出了未适配的第二声音场景702的示例。图12A示出了包括声音对象510的声音空间500的示例。在该示例中,声音空间500是记录的声音空间,声音对象510是记录的声音对象,但在其它示例中,声音空间500可以是合成的声音空间,声音对象510则可以是从头开始abinitio人工生成的声音对象,或者是通过混合可能包括或不包括全部或部分记录的声音对象的其它声音对象而生成的声音对象。每个声音对象510具有在声音空间500中的位置512并且具有定义该声音对象的特性514。特性514例如可以是音频特性,其例如基于在音频编码之前或之后从便携式静态麦克风110120输出的音频信号112122。音频特性514的一个示例是音量。如图12B中所示,当具有位置512和特性514的声音对象510在渲染的声音场景700中被渲染时,它被渲染为具有位置730和特性734的渲染的声音对象710。特性514、732可以是相同或不同的特性,其中它们可以具有相同或不同的值。为了将声音对象510正确地渲染为渲染的声音对象710,位置730与位置512相同或相似,并且特性734是与特性514相比具有相同或相似值的相同特性。然而,如前所述,可以处理表示渲染的声音对象710的音频信号以改变其渲染的位置730和或改变其渲染的特性734。方法520包括在框521和522处使得音频处理声音对象510以产生渲染的声音对象710。对与不同的声音空间相关联的不同的声音对象的处理导致从第一声音场景701包括在第一组731相应位置730处的第一组721声音对象710到第二声音场景702包括在第二组732相应位置730处的第二不同组722声音对象710的转换。对与相同的第一声音空间相关联的相同的声音对象的不同处理导致从刚好在转换前阶段711之前的第一声音场景701到在转换前阶段期间的适配的第一声音场景701'的改变。第一声音场景包括在第一组731相应位置730处的第一组721声音对象710,而适配的第一声音场景701'包括在与第一组731相应位置730不同的第一适配组731'相应位置730处的第一组721声音对象710。对与相同的第二声音空间相关联的相同的声音对象的不同处理导致从在转换后阶段712期间的适配的第二声音场景702到刚好在转换阶段711之后的第二声音场景702的改变。第二声音场景702包括在第二组732相应位置730处的第二组722声音对象710,而适配的第二声音场景702'包括在与第二组732相应位置730不同的第二适配组732'相应位置处的第二组722声音对象710。在一些但并非全部示例中,对包括在第一组731相应位置730处的第一组721声音对象710的第一声音场景701的渲染对应于渲染在第一声音空间500内它们的位置512处的第一声音对象510。因此,正确地渲染了第一声音空间500。因此,对在转换前阶段711中的适配的第一声音场景701'的渲染不对应于渲染在第一声音空间500内它们的位置512处的第一声音对象510。因此,第一声音空间500被错误地渲染。在一些但并非全部示例中,对包括在第二组732相应位置730处的第二组722声音对象710的第二声音场景701的渲染对应于渲染在第二声音空间500内它们的位置512处的第二声音对象510。因此,正确地渲染了第二声音空间500。因此,对在转换后阶段712中的适配的第二声音场景702'的渲染不对应于渲染在第二声音空间500内它们的位置512处的第二声音对象510。因此,第二声音空间500被错误地渲染。图13A示出了第一声音场景701的示例,第一声音场景701包括在第一组731相应位置730处的第一组721声音对象710。第一组721声音对象710中的每个渲染的声音对象710具有位置730和一个或多个特性734。位置730将声音对象710定位在第一声音场景701内,并且声音对象710的特性734在声音对象710被渲染时控制其音频特性。特性734的示例是音量。图13D示出了与第一声音场景701不同的第二声音场景702。第二声音场景702包括在第二组732相应位置730处的第二组722声音对象710。第二组722声音对象710中的每个声音对象710具有位置730和一个或多个特性734。声音对象710的位置734确定了在第二声音场景702内渲染该声音对象的位置,并且声音对象710的特性734在声音对象710被渲染时控制其音频特性。特性734的示例是音量。为了帮助理解本发明,第一组721声音对象中的声音对象710被示出为第一声音场景701内的圆圈,第二组722声音对象中的声音对象710被表示为所示第二声音场景702中的三角形。声音对象710在所示声音场景内的所示位置由声音对象的位置730确定。声音对象710的特性734使用表示声音对象710的图标的大小示意性地示出。应当理解,在第一声音场景701中的声音对象710,它们的位置730和特性734可以完全独立于在第二声音场景702中的声音对象710、它们的位置730和特性734。方法520使能从第一声音场景701到包括不同的声音对象710的第二声音场景702的转换。然而,从第一声音场景701到第二声音场景702的转换不是直接的。相反,它离开第一声音场景701图13A,在到达第二声音场景702图13D之前,通过第一声音场景701的转换前阶段711图13B,然后通过第二声音场景702的转换阶段后712图13C。图13B示出了在转换527之前,在转换前阶段711期间的适配的第一声音场景701'的示例。适配的第一声音场景701'包括在与第一组731相应位置730不同的第一适配组731'相应位置730处的第一组721声音对象710。在适配的第一声音场景701'中渲染的声音对象710也在第一声音场景701中被渲染。在一些但并非全部示例中,在第一声音场景701中渲染的所有声音对象710也在适配的声音场景701'中被渲染。然而,当在适配的第一声音场景701'中渲染声音对象710时,与第一声音场景701相比,可以用不同的位置730和或一个或多个不同的特性734来渲染声音对象710。在所示的示例中,声音对象710的位置已被改变,使得它们都位于适配的第一声音场景701'内的中央。在该示例但并非全部示例中,中央声音对象710或最中央声音对象710的特性尚未被改变,而非中央的声音对象710的特性已被改变以相对于中央声音对象710不再强调它们。应当理解,从第一声音场景701到适配的第一声音场景701'的改变至少包括改变第一组721声音对象710中的至少一些的相应位置730。为了清楚起见,在图13B、13C和13D中的所有实例中,没有明确标记声音对象710的位置730和特性734。接下来,发生第一声音场景701到第二声音场景702的转换527,第一声音场景701包括第一组721声音对象710,第二声音场景702与第一声音场景701不同并包括第二组722声音对象710。图13C示出了在转换527之后,在转换后阶段712期间的适配的第二声音场景702'的示例。适配的第二声音场景702'包括在与第二组732相应位置730不同的的第二适配组732'相应位置730处的第二组722声音对象710。在转换后阶段712之后,适配的第二声音场景702'变成第二声音场景702,如在图11B中所示。这通过至少改变第二组732声音对象710中的至少一些的相应位置730以将第二声音场景702渲染为在第二组732相应位置730处的第二组722声音对象710来实现。在适配的第二声音场景702'中渲染的声音对象710也在第二声音场景702中被渲染。在一些但并非全部示例中,在适配的第二声音场景702'中渲染的所有声音对象710也在第二声音场景702中被渲染。然而,当在适配的第二声音场景702'中渲染声音对象710时,与第二声音场景702相比,可以用不同的位置730和或一个或多个不同的特性734来渲染声音对象710。在所示的示例中,声音对象710的位置被改变,使得它们全部位于适配的第二声音场景702'内的中央。在该示例但并非全部示例中,与第二声音场景702相比,在适配的第二声音场景702'中,中央声音对象710或最中央声音对象710的特性没有被改变,而非中央的声音对象710的特性已被改变以相对于中央声音对象710来不再强调它们。应当理解,从适配的第二声音场景702'到第二声音场景702的改变包括至少改变第二组722声音对象710中的至少一些的相应位置730。从上述内容可以理解,替代具有从第一声音场景701到第二声音场景702的直接转换,存在从第一声音场景701到第二声音场景702的间接转换,其经由在转换前阶段711期间的适配的第一声音场景701'到转换后阶段712中的适配的第二声音场景702',然后从适配的第二声音场景702'到第二声音场景702。虽然这种间接转换可能涉及更多处理能力,但是它可以显著改进用户体验,因为用户不会经历从第一声音场景701到第二声音场景702的突然和戏剧性的转换,而是引入了通过使用转换前阶段711和转换后阶段712的逐步转换。第一声音场景701的转换前阶段711可被用于布置第一声音场景701的声音对象710在位置710中和或用特性734,这减少了第一声音场景701与第二声音场景702之间的转换527的突然性。应当理解,当在第一声音场景701与第一适配的声音场景701'之间进行比较时,第一组721声音对象中的不同的声音对象710将经历不同的适配。例如,如前所述,一些声音对象可被移动很长的距离,而其它声音对象可被移动较小的距离或者根本不移动。例如,可以改变一些声音对象710的特性734,而不改变其它声音对象710的特性734。例如,特定声音对象710可以不改变其位置730并且可以不改变其特性734,而至少一些其它声音对象710可以改变它们的位置730以使得它们在转换前阶段711期间更接近该特定声音对象710,并且可以改变它们的特性734以使得它们在转换前阶段711期间相对于该特定声音对象710的突出性被减小。第二声音场景702的转换后阶段712可被用于布置第二声音场景702的声音对象710在位置710中和或用特性734,这减小了第一声音场景7016与第二声音场景702之间的转换527的突然性。应当理解,当在第二声音场景702与适配的第二声音场景702'之间进行比较时,第二组722声音对象中的不同的声音对象710将经历不同的适配。例如,一些声音对象710可被移动很长的距离,而其它声音对象可被移动较小的距离或者根本不移动。例如,可以改变一些声音对象710的特性734,而不改变其它声音对象710的特性734。例如,特定声音对象710可以不改变其位置730并且可以不改变其特性734,而至少一些其它声音对象710可以改变它们的位置730以使得它们在转换后阶段712期间更接近该特定声音对象710,并且可以改变它们的特性734以使得它们在转换后阶段712期间相对于该特定声音对象710的突出性被减小。在图13A和13B的示例中,在第一声音场景701和适配的声音场景701'之间仅改变声音对象的位置和或音量特性734。在其它示例中,可以仅改变声音对象710的位置而不改变声音对象或任何声音对象的音量特性734。在图13C和13D的示例中,在第二声音场景702和适配的第二声音场景702'之间仅改变声音对象的位置和或音量特性734。在其它示例中,可以仅改变声音对象710的位置而不改变声音对象或任何声音对象的音量特性734。比较图13A和13B,应当理解,由第一组721声音对象710的第一组731相应位置730定义的第一组721声音对象710在第一声音场景701中的空间分离S1大于第一组721声音对象710在适配的第一声音场景701'中基于适配的第一声音场景701'中第一组721声音对象710的第一适配组731'相应位置730的空间分离S1'。因此,与刚好在转换前阶段711之前相比,在转换前阶段711中,第一组721声音对象710在第一声音场景701中的的空间分离被减小。空间分离例如可以被计算为每对声音对象710之间的平均距离或者声音对象710与定义的声音对象710或定义的位置之间的平均距离。比较图13C和13D,应当理解,由第二组722声音对象710的第二组732相应位置730定义的第二组722声音对象710在第二声音场景701中的空间分离S2大于第二组722声音对象710在适配的第二声音场景702'中基于适配的第二声音场景702'中第二组722声音对象710的第二适配组732'相应位置730的空间分离S2'。因此,与刚好在转换后阶段712之后相比,在转换后阶段712中,第二组722声音对象710在第二声音场景702中的空间分离被减小。比较图13B和13C,应当理解,第一组721声音对象710在适配的第一声音场景701'中基于适配的第一声音场景701'中第一组721声音对象710的第一适配组731'相应位置730的空间分离S1'与第二组722声音对象710在适配的第二声音场景702'中基于适配的第二声音场景702'中第二组722声音对象710的第二适配组732'相应位置730的空间分离S2'类似。在转换前阶段711中第一组721声音对象710的空间分离S1'相较于在转换后阶段712中第二组722声音对象710的空间分离S2'的差异S1'-S2'显著小于刚好在转换前阶段711之前第一组721声音对象的空间分离S1相较于刚好在转换后阶段712之后第二组722声音对象的空间分离S2的差异S1-S1。例如,S1'-S2'0.5*S1-S1。图14A至14D、图15A至15C以及图16A至16C示出了与在图13A至13D中所示的方法520类似的示例。为了描述的清楚起见,在这些附图中使用了类似的参考标号以引用类似的特征,并且将不详细描述这些特征。因此,先前关于这些特征给出的描述也与这些附图的特征相关。该描述将侧重于在这些附图中示出的实现与在图13A至13D中所示的实现之间的差异。在图14A至14D、15A至15D以及图16A至16C中的每一个中,方法520还包括在第一组721声音对象710中选择第一声音对象751。改变第一组721声音对象710中的至少一些的位置730以创建适配的第一声音场景701'涉及改变第一组721声音对象710中的至少一些相对于所选择的第一声音对象751的位置730。方法520还包括在第二组722声音对象710中选择第二声音对象752。改变第二组722声音对象710中的至少一些的位置730以从适配的第二声音场景702'改变到第二声音场景702涉及改变第二组722声音对象710中的至少一些相对于所选择的第二声音对象752的位置730。方法520包括基于以下标准中的一个或多个,自动选择第一声音对象751和或第二声音对象752:i第一声音对象751和或第二声音对象752是用于单人表演的;ii第一声音对象751相对于第一声音场景701内的位置和或音量是突出的,和或第二声音对象752相对于第二声音场景702内的位置和或音量是突出的。位置的突出性可以通过距离声音场景的中央位置或声音场景内的一些其它定义的位置例如,用户的注意力所指向的位置的较小距离来确定。音量的突出性可以相对于声音场景内声音对象710之间的绝对音量阈值或相对音量比较来确定。音量可以是瞬时音量或音量的综合例如,平均度量。iii第一声音对象751和第二声音对象752在音乐上相似。这可以通过音调频率比较和或节奏比较来确定。iv第一声音对象是用户关注的主题。例如,这可以通过跟踪用户的头部或注视的移动来确定。v第一声音对象751和第二声音对象752涉及相同的声源。第一声音对象751可以针对来自一个位置视角的声源,而第二声音对象752可以针对来自不同的位置视角的声源。vi第一声音对象751和第二声音对象752在相应的第一声音场景和第二声音场景内占据相似的位置。这可以例如通过确定距离相应的声音场景的中心的距离来确定。vii第一声音对象和第二声音对象在相应的第一声音场景701和第二声音场景702内具有相似的音量或相对的音量。为方便起见,在图14A至14D中,尽可能地使用相似的图。图14A与图13A相同,图14D与图13D相同。此外,图14B与图13B类似,图14C与图13C类似。在图14B中示出的适配的第一声音场景701'与在图13B中示出的第一声音场景701'之间的差异在于:所有操作的声音对象710在第一声音场景701'中被定位在第一组721声音对象710中的所选择的一个第一声音对象751的阈值距离D1内。在进入转换前阶段711时改变第一组721声音对象710中的至少一些的位置730涉及将第一组721声音对象710中的至少一些移动到所选择的第一声音对象751的第一预定距离D1内。这减少了空间分离。在图14C中示出的适配的第二声音场景702'与在图13C中示出的第二声音场景702'之间的差异在于:所有操作的声音对象710在第二声音场景702'中被定位在第二组722声音对象710中的所选择的一个第二声音对象752的阈值距离D2内。在离开转换后阶段711时改变第二组722声音对象710中的至少一些的位置730涉及将第二组722声音对象710中的至少一些移动到所选择的第二声音对象752的第二预定距离D2内。这增加了空间分离。图15A-15C和图16A-16C更详细地示出了在转换前第一声音场景701'与转换后第二声音场景702'之间的可能转换527。在这些示例中,定义第一组721声音对象710中的至少一些与第二组722声音对象710中的至少一些之间映射以定义声音对象的映射对。每个映射对包括第一组721声音对象中的声音对象和第二组722声音对象中的声音对象。方法520使得在转换前阶段711中的第一声音场景701与转换后阶段712中的第二声音场景702之间的转换527之前之后,在相应的声音对象的映射对中的声音对象710之间位置匹配。在图15A、15B、15C中,通过将映射的声音对象710定位在适配的第二声音场景702'中以使得它们具有类似于映射的声音对象在适配的第一声音场景701'中的布置,来实现在转换527之前之后相应的声音对象的映射对中的声音对象710之间位置匹配。例如,映射的声音对象在适配的第二声音场景702'中的星座图已被旋转或以其它方式被适配为类似于映射的声音对象710在适配的第一声音场景701'中的星座图。星座图例如可以被计算为每对声音对象710之间的角间距或者定义声音对象710相对于定义的声音对象710或定义的位置的位置730的矢量的总和。在一些但并非全部示例中,这可以通过在转换后阶段712中将映射的声音对象在第一声音场景701中的第一适配组731'位置730用作映射的声音对象在适配的第二声音场景702'中的第二适配组732'位置730来实现。可选地,用于映射的声音对象在适配的第二声音场景702'中的第二适配组732'位置730在转换后阶段712的期间被修改。这可以包括将映射的声音对象定位在适配的第二声音场景702'中,以使得它们具有更类似于映射的声音对象在第二声音场景702中的布置。例如,映射的声音对象在适配的第二声音场景702'中的星座图可被旋转或被适配为类似于映射的声音对象在第二声音场景702中的星座图。因此,从第一声音场景701到第二声音场景的转换可以包括:a在转换前阶段中,对第一声音场景中的声音对象进行空间压缩,以创建适配的第一声音场景701'图14A-14B;b从适配的第一声音场景701转换到适配的第二声音场景702',其中,声音对象在适配的第二声音场景702'中的星座图与声音对象在适配的第一声音场景701'中的星座图类似图15A-15B;c在转换后阶段中,将声音对象在适配的第二声音场景702中的星座图改变为新星座图图15B-15C;以及d用新星座图对适配的第二声音场景702'中的声音对象进行空间解压缩图14C-14D。空间压缩步骤a可以是可选的。重新布置步骤b可以是可选的。重新布置步骤c可以是可选的。空间压缩步骤d可以是可选的。在图16A、16B、16C中,通过将映射的声音对象710定位在适配的第二声音场景702'中以使得它们具有类似于映射的声音对象在适配的第二声音场景702'中的布置,来实现在转换527之前之后相应的声音对象的映射对中的声音对象710之间位置匹配。用于映射的声音对象在适配的第二声音场景702'中的第一适配组731'位置730在转换后阶段712的期间被修改。这可以包括将映射的声音对象定位在适配的第一场景701'中,以使得它们具有更类似于映射的声音对象在第二声音场景702中的布置。例如,映射的声音对象在适配的第一声音场景701'中的星座图已经在转换前阶段的期间被旋转或以其它方式适配为类似于映射的声音对象710在适配的第二声音场景702'中的星座图。星座图例如可以被计算为每对声音对象710之间的角间距或者定义声音对象710相对于定义的声音对象710或定义的位置的位置730的矢量的总和。在一些但并非全部示例中,这可以通过在转换前阶段711中将映射的声音对象在第一声音场景701中的第二适配组732'位置730用作映射的声音对象在适配的第一声音场景701'中的更新的第一适配组731'位置730来实现。因此,从第一声音场景701到第二声音场景的转换可以包括:a在转换前阶段中,对第一声音场景的声音对象进行空间压缩,以创建适配的第一声音场景701'图14A-14B;b在转换前阶段中,将声音对象在适配的第一声音场景701'中的星座图改变为新星座图图16AB-16B;以及c从适配的第一声音场景701'转换到适配的,其中,声音对象在适配的第二声音场景702'中的星座图与声音对象在适配的第一声音场景701'中的星座图类似图16B-16C;d用新星座图对适配的第二声音场景702'中的声音对象进行空间解压缩图14C-14D。空间压缩步骤a可以是可选的。重新布置步骤b可以是可选的。重新布置步骤c可以是可选的。空间压缩步骤d可以是可选的。图17A和17B示出了在转换527之前图17A和转换之后图17B的视觉场景的示例。在该示例中,方法520还包括自动使得在第一声音场景701到第二声音场景702的转换527之前,渲染与第一声音场景701对应的第一视觉场景761,以及在第一声音场景701到第二声音场景702的转换527之后,渲染与第二声音场景702对应的第二视觉场景762。在图17A中,第一视觉场景761中的第一视觉对象771位于第一视觉场景761内的第一位置781处。在图17B中,第二视觉场景762中的第二视觉对象772位于第二视觉场景762内的第二位置782处。第一位置761和第二位置762是相同的,以使得执行视觉匹配切割。当在第一视觉场景761与第二视觉场景762之间发生视觉转换时,第一视觉对象771和第二视觉对象772出现在不同的场景内的相同位置处。在一些但并非全部示例中,第一视觉场景761对应于第一声音场景701,第一视觉对象771对应于声音对象710,例如,所选择的第一声音对象751。在一些但并非全部示例中,第二视觉场景762对应于第二声音场景702,第二视觉对象772对应于声音对象710,例如,所选择的第二声音对象752。第一视觉场景761和第二视觉场景762可以是虚拟视觉场景22,第一视觉对象771和第二视觉对象772可以是虚拟视觉对象21。在先前示出的示例中,应当理解,第一适配的声音场景701'包括在第一声音场景701中仅有的声音对象710。它可以包括相同的声音对象710或者更少的声音对象710。然而,在其它示例中,第一适配的声音场景701'还可以包括在第二声音场景702中的一个或多个声音对象710。在先前示出的示例中,应当理解,第二适配的声音场景702'包括在第二声音场景702中仅有的声音对象710。它可以包括相同的声音对象710或者更少的声音对象710。然而,在其它示例中,第二适配的声音场景702'还可以包括在第一声音场景702中的一个或多个声音对象710。在先前示出的示例中,应当理解,第一声音场景具有转换前阶段第一适配的声音场景701',第二声音场景702具有转换后阶段第二适配的声音场景702'。在这些示例中,转换前阶段和转换后阶段是不同的,因为转换前阶段和转换后阶段包括不同的声音对象。转换前阶段仅包括第一声音场景701中的声音对象710,转换后阶段仅包括第二声音场景702中的声音对象。然而,在其它示例中,可以在转换前阶段和转换后阶段两者中提供单个中间转换声音场景。该单个中间声音场景可以例如包括仅来自第一声音场景701的声音对象,仅来自第二声音场景702的声音对象,或者来自第一声音场景701和第二声音场景702两者的声音对象。根据各种但并非全部示例,方法520可以包括:使得渲染包括在相应位置处的声音对象的声音场景;通过以下操作来自动控制第一声音场景到第二声音场景的转换,其中,第一声音场景包括在第一组相应位置处的第一组声音对象,第二声音场景与第一声音场景不同并包括在第二组相应位置处的第二组声音对象:创建至少一个中间声音场景,其包括在与第一组相应位置不同的第一适配组相应位置处的第一组声音对象中的至少一些声音对象,和或在与第二组相应位置不同的第二适配组相应位置处的第二组声音对象中的至少一些声音对象。根据各种但并非全部的示例,方法520可以包括:使得渲染包括在相应位置处的声音对象的声音场景;通过以下操作来自动控制第一声音场景到第二声音场景的转换,其中,第一声音场景包括在第一组相应位置处的第一组声音对象,第二声音场景与第一声音场景不同并包括在第二组相应位置处的第二组声音对象:创建至少一个中间声音场景,其包括在与第一组相应位置不同的第一适配组相应位置处的第一组声音对象中的至少一些声音对象并且不包括第二组声音对象中的任何一个。根据各种但并非全部示例,方法520可以包括:使得渲染包括在相应位置处的声音对象的声音场景;通过以下操作来自动控制第一声音场景到第二声音场景的转换,其中,第一声音场景包括在第一组相应位置处的第一组声音对象,第二声音场景与第一声音场景不同并包括在第二组相应位置处的第二组声音对象:创建至少一个中间声音场景,其包括在与第二组相应位置不同的第二适配组相应位置处的第二组声音对象中的至少一些声音对象并且不包括第一组声音对象中的任何一个。在前述示例中,已经参考了一个或多个计算机程序。计算机程序例如计算机程序48、416中的任一个或计算机程序48、416的组合可以被配置为执行方法500。另外作为示例,装置30、400可以包括:至少一个处理器40、412;以及包括计算机程序代码的至少一个存储器46、414,至少一个存储器46、414和计算机程序代码被配置为与至少一个处理器40、412一起使得装置430、00至少执行:使得渲染包括在相应位置处的声音对象的声音场景;通过以下操作来自动控制第一声音场景到第二声音场景的转换,其中,第一声音场景包括在第一组相应位置处的第一组声音对象,第二声音场景与第一声音场景不同并包括在第二组相应位置处的第二组声音对象:使得渲染包括在第一组相应位置处的第一组声音对象的第一声音场景;然后使得改变第一组声音对象中的至少一些声音对象的相应位置,以在转换前阶段中将第一声音场景渲染为适配的第一声音场景,其中,适配的第一声音场景包括在与第一组相应位置不同的第一适配组相应位置处的第一组声音对象;然后使得在转换后阶段中将第二声音场景渲染为适配的第二声音场景,其中,适配的第二声音场景包括在与第二组相应位置不同的第二适配组相应位置处的第二组声音对象;然后使得改变第二组声音对象中的至少一些声音对象的相应位置,以将第二声音场景渲染为在第二组相应位置处的第二组声音对象。另外作为示例,装置30、400可以包括:至少一个处理器40、412;以及包括计算机程序代码的至少一个存储器46、414,至少一个存储器46、414和计算机程序代码被配置为与至少一个处理器40、412一起使得装置430、00至少执行:使得渲染包括在相应位置处的声音对象的声音场景;通过以下操作来自动控制第一声音场景到第二声音场景的转换,其中,第一声音场景包括在第一组相应位置处的第一组声音对象,第二声音场景与第一声音场景不同并包括在第二组相应位置处的第二组声音对象:使得渲染包括在第一组相应位置处的第一组声音对象的第一声音场景;然后使得改变第一组声音对象中的至少一些声音对象的相应位置,以在转换前阶段中将第一声音场景渲染为适配的第一声音场景,其中,适配的第一声音场景包括在与第一组相应位置不同的第一适配组相应位置处的第一组声音对象;然后使得在转换后阶段中将第二声音场景渲染为适配的第二声音场景,其中,适配的第二声音场景包括在与第二组相应位置不同的第二适配组相应位置处的第二组声音对象;然后使得改变第二组声音对象中的至少一些声音对象的相应位置,以将第二声音场景渲染为在第二组相应位置处的第二组声音对象。计算机程序48、416可以经由任何适合的传送机制到达装置30、400。传送机制例如可以是非暂时性计算机可读存储介质、计算机程序产品、存储器设备、诸如光盘只读存储器CD-ROM或数字通用光盘DVD的记录介质、有形具体化计算机程序48、416的制品。传送机制可以是被配置为可靠地传送计算机程序48、416的信号。装置30、400可以传播或传送作为计算机数据信号的计算机程序48、416。图10示出了用于计算机程序416的传送机制430。从前述内容可以理解,所描述的各种方法520可以由装置30、400例如电子装置30、400执行。在一些示例中,电子装置400可以是音频输出设备300诸如头戴式音频输出设备或者用于这种音频输出设备300的模块的一部分。在一些示例中,附加地或可替代地,电子装置400可以是头戴式装置33包括向用户显示图像的显示器32的一部分。提到“计算机可读存储介质”、“计算机程序产品”、“有形具体化的计算机程序”等或者“控制器”、“计算机”、“处理器”等,应当被理解为不仅包括具有诸如单个多个处理器架构和串行冯诺依曼并行架构的不同架构的计算机,而且还包括诸如现场可编程门阵列FPGA、专用集成电路ASIC、信号处理设备和其它处理电路的专用电路。提到计算机程序、指令、代码等,应当被理解为包括用于可编程处理器的软件,或者可包括用于处理器的指令的诸如硬件设备的可编程内容的固件,或者用于固定功能器件、门阵列或可编程逻辑器件等的配置设置。如在本申请中使用的,术语“电路”是指如下的全部:a仅硬件的电路实现,诸如仅采用模拟和或数字电路的实现;b电路和软件和或固件的组合,诸如如可应用的:i处理器的组合;或者ii处理器软件的部分,包括数字信号处理器、软件和存储器,其协同工作以使诸如移动电话或服务器的装置执行各种功能;以及c电路,诸如微处理器或微处理器的一部分,其需要软件或固件以工作,即使该软件或固件在物理上不存在。“电路”的定义适用于本申请包括任何权利要求中的该术语的所有使用。作为进一步的示例,如在本申请中所使用的,术语“电路”还涵盖仅一个处理器或多个处理器或处理器的一部分及它或它们的伴随软件和或固件的实现。例如,如果适用于特定的权利要求元素,术语“电路”还涵盖用于移动电话的基带集成电路或应用处理器集成电路,或服务器、蜂窝网络设备或其它网络设备中的类似集成电路。图11-17B中中示出的方框、步骤和过程可以表示计算机程序中的方法和或代码段中的步骤。对方框的特定顺序的说明并非意味着这些方框具有必需或优选的顺序,方框的顺序和排列可以改变。此外,有些方框可被省略。在已经描述了结构特征的情况下,可以通过用于执行结构特征的一个或多个功能的装置来替换结构特征,无论该功能或这些功能是否被明确或隐含地描述。如在本文中所使用的,“模块”是指除了由终端制造商或用户添加的某些部件组件以外的单元或装置。控制器42或控制器410例如可以是模块。装置可以是模块。显示器32可以是模块。在本文中使用的术语“包括”具有包容而非排它性的意义。也即是说,任何提到“X包括Y”指示“X可以仅包括一个Y”或“X可以包括多于一个的Y”。如果意图使用具有排它性意义的“包括”,则将通过提及“仅包括一个”或通过使用“由...组成”在上下文中明确说明。其它已经在详细的描述中参考了各种示例。针对示例的特征或功能的描述指示这些特征或功能存在于该示例中。无论是否明确陈述,在文本中术语“示例”或“例如”或“可”的使用表示这种特征或功能至少存在于所描述的示例中,无论是否作为示例来描述,并且这种特征或功能可以但不必存在于一些或所有其它示例中。因此“示例”、“例如”或“可”是指一类示例中的特别的实例。实例的性质可以仅是该实例的性质或该类实例的性质或包括一些但未包括全部该类实例的该类实例的子类的性质。因此,隐含公开了针对一个示例但未针对另一个示例描述的特征可以但不必用于其它示例。尽管本发明的实施例已经在之前的段落中参考各种示例进行了描述,但应当理解,可在不背离本发明要求保护的范围的情况下对给出的示例进行修改。例如,尽管在上面描述了其中多个视频相机510同时捕获实况视频图像514的本发明的实施例,但是在其它实施例中,可仅使用单个视频相机来捕获实况视频图像,还可结合深度传感器。在之前的描述中描述的特征可用于除了明确描述的组合之外的组合中。尽管已经参考某些特征描述了功能,但这些功能可由其它特征来执行,无论是否描述。尽管已经参考某些实施例描述了特征,但这些特征也可存在于其它实施例中,无论是否描述。在之前的描述中试图指出被认为是特别重要的本发明的特征时,应当理解,申请人要求保护关于在本文中之前参考附图和或在附图中示出的任何可授予专利的特征或特征组合的内容,无论是否已经强调。我我们要求保护随附权利要求。

权利要求:1.一种方法,包括:使得渲染包括在相应位置处的声音对象的声音场景;通过以下操作来自动控制第一声音场景到第二声音场景的转换,其中,所述第一声音场景包括在第一组相应位置处的第一组声音对象,所述第二声音场景与所述第一声音场景不同并包括在第二组相应位置处的第二组声音对象:使得渲染包括在所述第一组相应位置处的所述第一组声音对象的所述第一声音场景;然后在所述第一组声音对象中选择至少一个第一声音对象;然后使得改变所述第一组声音对象中的至少一些声音对象相对于第一声音对象的相应位置,以在转换前阶段中将所述第一声音场景渲染为适配的第一声音场景,其中,所述适配的第一声音场景包括在与所述第一组相应位置不同的第一适配组相应位置处的所述第一组声音对象;然后在所述第二组声音对象中选择至少一个第二声音对象;然后使得在转换后阶段中将所述第二声音场景渲染为适配的第二声音场景,其中,所述适配的第二声音场景包括在与所述第二组相应位置不同的第二适配组相应位置处的所述第二组声音对象;然后使得改变所述第二组声音对象中的至少一些声音对象相对于第二声音对象的相应位置,以将所述第二声音场景渲染为在所述第二组相应位置处的所述第二组声音对象。2.根据权利要求1所述的方法,还包括:通过将所述第一组声音对象中的所述至少一些声音对象移动到所选择的第一声音对象的第一预定距离内来改变所述第一组声音对象中的所述至少一些声音对象的位置;和或通过将所述第二组声音对象中的所述至少一些声音对象移动到所选择的第二声音对象的第二预定距离内来改变所述第二组声音对象中的所述至少一些声音对象的位置。3.根据权利要求1或2所述的方法,还包括:基于以下标准中的一个或多个,自动选择所述第一声音对象和或所述第二声音对象:所述第一声音对象和或所述第二声音对象是用于单人表演的;所述第一声音对象相对于所述第一声音场景内的位置和或音量是突出的,和或所述第二声音对象相对于所述第二声音场景内的位置和或音量是突出的;所述第一声音对象和所述第二声音对象在音乐上相似;所述第一个声音对象是用户关注的主题;所述第一声音对象和所述第二声音对象涉及相同的声源;所述第一声音对象和所述第二声音对象在相应的所述第一声音场景和所述第二声音场景内占据相似的位置;所述第一声音对象和所述第二声音对象在相应的所述第一声音场景和所述第二声音场景内具有相似的音量或相对的音量。4.根据前述任一项权利要求所述的方法,其中,响应于从所述第一声音场景到所述第二声音场景的声音场景的改变的直接或间接的用户指定,自动控制所述第一声音场景到所述第二声音场景的转换。5.根据前述任一项权利要求所述的方法,其中,所述第一声音场景的所述转换前阶段与在所述转换前阶段之前的所述第一声音场景的不同之处仅在于:所述第一声音对象中的至少一些声音对象的位置或位置和音量在刚好在所述转换前阶段之前的所述第一声音场景与所述第一声音场景的所述转换前阶段之间是不同的;和或其中,所述第二声音场景的所述转换后阶段与在所述转换后阶段之后的所述第二声音场景的不同之处仅在于:所述第二声音对象中的至少一些声音对象的位置或位置和音量在刚好在所述转换后阶段之后的所述第二声音场景与所述第二声音场景的所述转换后阶段之间是不同的。6.根据前述任一项权利要求所述的方法,其中,所述第一组声音对象中的至少一些声音对象的位置的改变以在所述转换阶段中渲染所述第一声音场景包括:对所述第一组声音对象中的所述至少一些声音对象中的不同声音对象的不同的位置改变;和或其中,改变所述第二组声音对象中的至少一些声音对象的位置以在转换后阶段中将所述第二声音场景渲染为适配的第二声音场景包括:对所述第二组声音对象中的所述至少一些声音对象中的不同声音对象应用不同的位置改变。7.根据前述任一项权利要求所述的方法,其中,所述第一声音场景的所述转换前阶段与在所述转换前阶段之前的第一声音场景的不同之处不仅在于所述第一组声音对象中的至少一些声音对象的一个或多个位置改变,还在于所述第一组声音对象中的至少一些声音对象的一个或多个附加特性的一个或多个改变;和或其中,所述第二声音场景的所述转换后阶段与在所述转换后阶段之后的第二声音场景的不同之处不仅在于所述第二组声音对象中的至少一些声音对象的一个或多个位置改变,还在于所述第二组声音对象中的至少一些声音对象的一个或多个附加特性的一个或多个改变。8.根据前述任一项权利要求所述的方法,其中,改变所述第一组声音对象中的至少一些声音对象的位置以在转换前阶段中将所述第一声音场景渲染为适配的第一声音场景包括:对所述第一组声音对象中的至少一些声音对象应用不同的位置改变以及声音对象的附加特性的不同改变;和或其中,改变所述第二组声音对象中的至少一些声音对象的位置以在转换后阶段中将所述第二声音场景渲染为适配的第二声音场景包括:对所述第二组声音对象中的至少一些声音对象应用不同的位置改变以及声音对象的附加特性的不同改变。9.根据权利要求7或8所述的方法,其中,改变的附加特性是音量。10.根据前述任一项权利要求所述的方法,其中,与刚好在所述转换前阶段之前相比,在所述转换前阶段中,所述第一组声音对象在所述第一声音场景中的空间分离被减小;以及与刚好在所述转换后阶段之后相比,在所述转换后阶段中,所述第二组声音对象在所述第二声音场景中的空间分离被减小。11.根据前述任一项权利要求所述的方法,其中,在所述转换前阶段中所述第一组声音对象的空间分离相较于在所述转换后阶段中所述第二组声音对象的空间分离的差异显著小于刚好在所述转换前阶段之前所述第一组声音对象的空间分离相较于刚好在所述转换后阶段之后所述第二组声音对象的空间分离的差异。12.根据前述任一项权利要求所述的方法,还包括:定义所述第一组声音对象中的至少一些声音对象与所述第二组声音对象中的至少一些声音对象之间的映射以定义声音对象的映射对,每个映射对包括所述第一组声音对象中的声音对象和所述第二组声音对象中的声音对象;以及使得在所述转换前阶段中的所述第一声音场景与所述转换后阶段中的所述第二声音场景之间的转换之前之后,在相应的声音对象的映射对中的声音对象之间位置匹配。13.根据前述任一项权利要求所述的方法,还包括:自动使得在所述第一声音场景到所述第二声音场景的转换之前,渲染与所述第一声音场景对应的第一视觉场景,以及在所述第一声音场景到所述第二声音场景的转换之后,渲染与所述第二声音场景对应的第二视觉场景;其中,所述第一视觉场景中的第一视觉对象位于所述第一视觉场景内的第一位置处,所述第二视觉场景中的第二视觉对象位于所述第二视觉场景内的第二位置处,并且其中,所述第一位置和所述第二位置是相同的以使得执行视觉匹配切割。14.一种装置,包括:至少一个处理器;以及包括计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使得所述装置执行根据权利要求1至13中任一项或多项所述的方法。15.一种计算机可读介质,包括存储在其上的计算机程序代码,所述计算机可读介质和计算机程序代码被配置为当在至少一个处理器上运行时执行权利要求1至14的方法。

百度查询: 诺基亚技术有限公司 音频处理