【发明授权】一种在不同设备上分别播放音频与视频的唇音同步方法_上海赛连信息科技有限公司_201811210525.2

申请/专利权人：上海赛连信息科技有限公司

申请日：2018-10-17

公开（公告）日：2021-06-18

公开（公告）号：CN109168059B

主分类号：H04N21/41(20110101)

分类号：H04N21/41(20110101);H04N21/43(20110101);H04N21/4363(20110101);H04N21/8547(20110101)

优先权：

专利状态码：有效-授权

法律状态：2021.06.18#授权;2019.02.01#实质审查的生效;2019.01.08#公开

摘要：本发明公开了一种在不同设备上分别播放音频与视频的唇音同步方法，所述不同设备包括音频播放设备和视频播放设备，包括使用发送端发送音视频码至所述音频播放设备和视频播放设备，所述发送端对其发送的数据包增加时间戳信息，所述音频播放设备和视频播放设备分别使用同步机制以同步播放具备相同时间戳的音频和视频信息。本发明设计的唇音同步播放机制，可以应对99％的网络抖动情况，保证在网络质量不稳定时，在不同设备上的音视频仍然可以同步播放。

主权项：1.在不同设备上分别播放音频与视频的唇音同步方法，所述不同设备包括音频播放设备和视频播放设备，其特征在于，所述方法包括，使用发送端发送音视频码至所述音频播放设备和视频播放设备，所述发送端对其发送的数据包增加时间戳信息，所述音频播放设备和视频播放设备分别使用同步机制以同步播放具备相同时间戳的音频和视频信息；音频播放设备和视频播放设备为声音和视频各自维护了一个缓冲队列，待缓冲一定数量的数据包之后，再通过所述同步机制进行播放;其中，可以将所述音频播放设备在同步机制中设为主动方，其从本地的缓冲队列中均匀地播放声音数据，同时按一时间周期定期地向视频显示设备发送同步消息，把当前正在播放的声音数据的采集时间戳同步给视频显示设备，视频显示设备根据所收到的时间戳来控制视频数据的缓冲队列长度进行播放，从而保证声音和视频的同步；所述音频播放设备每播放一所述时间周期的数据，就向视频播放设备发送一个同步消息，所述视频播放设备收到同步消息后，返回一个确认消息至所述发送端，所述确认消息中包括接收到的来自于音频播放设备的当前发送时间戳；当确认消息被发送端接收到时，发送端用当前接收的系统时间减去发送时的系统时间以确认在当前网络下的往返延时值Δ；所述发送端每隔一加权周期对所述往返延时值Δ进行加权处理后发送至所述音频播放设备，所述音频播放设备将采集时间戳加上当前的加权处理后的往返延时值Δ后发送至所述视频播放设备，所述视频播放设备按照该时间戳进行视频的同步播放。

全文数据：一种在不同设备上分别播放音频与视频的唇音同步方法技术领域本发明涉及多媒体技术领域，具体而言，涉及一种在不同设备上分别播放音频与视频的唇音同步方法。背景技术在视频会议场景中，每个参会的终端都接收来自于其他参会者的视频和音频码流，并通过本地的图像显示设备比如显示屏和声音播放设备比如扬声器把接收到的视频和音频进行显示和播放。由于音视频码流是由同一设备接收并且播放的，所以相应的音频和视频图像在播放时是唇音同步的，即视频图像中参会者说话时的口型与对应的声音是一致的。但在没有人为干预的情况下，声音和视频的播放时间由于IP网络的不稳定性，有可能是不一致的。导致用户感受到的声音和视频不同步，即唇音不同步。例如在一些特定场景下如图1-2，对音视和视频的接收和播放有时需要在不同的设备上进行，比如视频图像的接收是由会议室中的视频终端完成的，而音频的接收，则是由与该终端通过某种方式配对连接的无线麦克风+音箱完成的；或者如智能终端一体机NE60是一款适合桌面或者小型会议室使用的音视频通讯设备，触屏操控，方便易用，它可以同ME终端配对，实现利用桌面上的NE60上的音频设备来播放声音，而通过与ME终端相连接的电视屏幕输出视频图像。在这些场景下，声音和视频就会从不同的设备上接收并进行播放和显示。由于两个独立的设备通过IP网络接收音视频数据码流，而IP网络的不稳定性，声音和视频到达不同设备的时间可能是不同的，如果每个设备直接播放所接收到的音视频码流，就会存在音视频不同步的问题，即所显示的参会者说话时的口型与所对应的声音是不一致的。本发明解决的就是在使用IP网络条件下分别传输声音和视频数据到不同设备时，进行音视频同步播放的问题。发明内容本发明提出了一种在不同设备上分别播放音频与视频的唇音同步方法，所述不同设备包括音频播放设备和视频播放设备，其特征在于，所述方法包括，使用发送端发送音视频码至所述音频播放设备和视频播放设备，所述发送端对其发送的数据包增加时间戳信息，所述音频播放设备和视频播放设备分别使用同步机制以同步播放具备相同时间戳的音频和视频信息。进一步的，音频播放设备和视频播放设备为声音和视频各自维护了一个缓冲队列，待缓冲一定数量的数据包之后，再通过所述同步机制进行播放。进一步的，其还包括将所述声音播放设备在同步机制中设为主动方，其从本地的缓冲队列中均匀地播放声音数据，同时按一时间周期定期地向视频显示设备发送同步消息，把当前正在播放的声音数据的采集时间戳同步给视频显示设备，视频显示设备根据所收到的时间戳来控制视频数据的缓冲队列长度，进行适度播放，从而保证声音和视频的同步进一步的，所述声音播放设备每播放一所述时间周期的数据，就向视频播放设备发送一个同步消息，所述视频播放设备收到同步消息后，返回一个确认消息至所述发送端，所述确认消息中包括接收到的来自于音频播放设备的当前发送时间戳；当确认消息被发送端接收到时，发送端用当前接收的系统时间减去发送时的系统时间以确认在当前网络下的往返延时值Δ；所述发送端每隔一加权周期对所述往返延时值Δ进行加权处理后发送至所述声音播放设备，所述声音播放设备将采集时间戳加上当前的加权处理后的往返延时值Δ后发送至所述视频播放设备，所述视频播放设备按照该时间戳进行视频的同步播放。进一步的，所述对所述往返延时值Δ进行加权处理包括，将往返延时值Δ除以2得到单向延时值并对所述单向延时值采用滤波算法处理。进一步的，所述滤波算法包括，将一段时间内的单向延时值进行加权平均以得到滤波处理后的单向延时值。优选或可选的，其还包括将所述视频播放设备在同步机制中设为主动方，并通过视频播放设备收集音视频不同步的差值，并对其进行滤波后将所述差值与一预设阈值进行比较，当所述差值大于所述预设阈值时将此偏差值发送给声音播放设备并根据该偏差值会将声音播放设备的缓冲队列增加相应的长度。在没有人为干预的情况下，声音和视频的播放时间由于IP网络的不稳定性，有可能是不一致的。导致用户感受到的声音和视频不同步，即唇音不同步。而基于以上方法设计的唇音同步播放机制，可以应对99％的网络抖动情况，保证在网络质量不稳定时，在不同设备上的音视频仍然可以同步播放。附图说明从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。图1是本发明的应用场景一示意图；图2是本发明的应用场景二示意图；图3是本发明的同步机制—音频播放设备向视频播放设备发送同步消息示意图；图4是本发明的同步机制—视频播放设备向音频播放设备发送同步消息示意图。具体实施方式为了使得本发明的目的、技术方案及优点更加清楚明白，以下结合其实施例，对本发明进行进一步详细说明；应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。对于本领域技术人员而言，在查阅以下详细描述之后，本实施例的其它系统、方法和或特征将变得显而易见。旨在所有此类附加的系统、方法、特征和优点都包括在本说明书内、包括在本发明的范围内，并且受所附权利要求书的保护。在以下详细描述描述了所公开的实施例的另外的特征，并且这些特征根据以下将详细描述将是显而易见的。实施例一：本发明提出了一种在不同设备上分别播放音频与视频的唇音同步方法，所述不同设备包括音频播放设备和视频播放设备，其特征在于，所述方法包括，使用发送端发送音视频码至所述音频播放设备和视频播放设备，所述发送端对其发送的数据包增加时间戳信息，所述音频播放设备和视频播放设备分别使用同步机制以同步播放具备相同时间戳的音频和视频信息。进一步的，音频播放设备和视频播放设备为声音和视频各自维护了一个缓冲队列，待缓冲一定数量的数据包之后，再通过所述同步机制进行播放。进一步的，其还包括将所述声音播放设备在同步机制中设为主动方，其从本地的缓冲队列中均匀地播放声音数据，同时按一时间周期定期地向视频显示设备发送同步消息，把当前正在播放的声音数据的采集时间戳同步给视频显示设备，视频显示设备根据所收到的时间戳来控制视频数据的缓冲队列长度，进行适度播放，从而保证声音和视频的同步进一步的，所述声音播放设备每播放一所述时间周期的数据，就向视频播放设备发送一个同步消息，所述视频播放设备收到同步消息后，返回一个确认消息至所述发送端，所述确认消息中包括接收到的来自于音频播放设备的当前发送时间戳；当确认消息被发送端接收到时，发送端用当前接收的系统时间减去发送时的系统时间以确认在当前网络下的往返延时值Δ；所述发送端每隔一加权周期对所述往返延时值Δ进行加权处理后发送至所述声音播放设备，所述声音播放设备将采集时间戳加上当前的加权处理后的往返延时值Δ后发送至所述视频播放设备，所述视频播放设备按照该时间戳进行视频的同步播放。进一步的，所述对所述往返延时值Δ进行加权处理包括，将往返延时值Δ除以2得到单向延时值并对所述单向延时值采用滤波算法处理。所述滤波算法包括，将一段时间内的单向延时值进行加权平均以得到滤波处理后的单向延时值。当然，所述滤波方法只是一种示例，其他可选用的滤波方法也可以作为替换，但本方法经实验在本实施例中效果较佳或者最佳而作为推荐。实施例二：本发明提出了一种在不同设备上分别播放音频与视频的唇音同步方法，所述不同设备包括音频播放设备和视频播放设备，其特征在于，所述方法包括，使用发送端发送音视频码至所述音频播放设备和视频播放设备，所述发送端对其发送的数据包增加时间戳信息，所述音频播放设备和视频播放设备分别使用同步机制以同步播放具备相同时间戳的音频和视频信息。进一步的，音频播放设备和视频播放设备为声音和视频各自维护了一个缓冲队列，待缓冲一定数量的数据包之后，再通过所述同步机制进行播放。在本实施例中，所述方法还包括将所述视频播放设备在同步机制中设为主动方，并通过视频播放设备收集音视频不同步的差值，并对其进行滤波后将所述差值与一预设阈值进行比较，当所述差值大于所述预设阈值时将此偏差值发送给声音播放设备并根据该偏差值会将声音播放设备的缓冲队列增加相应的长度。其中的滤波处理方法类同前一实施例，或者可以采用本领域常见的其他滤波方法，再次不再赘述。实施例三：在本实施例中，为解决唇音不同步问题，需要在音视频码流的发送端，对其发送的数据包增加时间戳信息，即在每个发送出去的音视频数据包中都携带其采集时的时间戳信息，在同一时刻Tx采集的音频数据包和视频数据包，其携带的时间戳是相同的，都是TSx。在接收端，由于音频和视频分别是由不同的设备进行接收和播放，因此在接收端的两个设备都可以分别提取出音频和视频数据包中的采集时间戳。为了应对网络抖动而导致的音视频播放不同步的现象，在接收端的两个不同设备上为声音和视频各自维护了一个缓冲队列，旨在减轻网络抖动的影响，以一定的延时换取播放时的平滑和同步。接收设备在收到音视频码流后，并不是直接无条件播放，而是先放到缓冲队列中，待缓冲一定数量的数据包之后，再通过同步机制进行播放。本发明把声音播放设备A1在同步机制中设为主动方，它默认会从本地的缓冲队列中均匀地播放声音数据，同时，它还定期地每隔20ms向视频显示设备V1发送同步消息，把当前正在播放的声音数据的采集时间戳同步给视频显示设备V1，视频显示设备根据所收到的时间戳来控制视频数据的缓冲队列长度，进行适度播放，从而保证声音和视频的同步。图三由于A1和V1之间的同步消息也是利用IP网络发送传输的，也存在一定的系统延时，以及由于网络抖动而造成的随机延时。因此需要采取如下方法消除同步消息延时所带来的误差：声音播放设备A1每播放20ms的数据，就向视频播放设备V1发送一个同步消息。同步消息中的数据包中携带这个包在发送时，声音播放设备A1的本地系统时间戳LT1，和本地播放音频数据的原始采集时间戳TS1。视频播放设备V1收到同步消息后，会立刻返回一个确认消息。确认消息中的数据包中携带接收到的来自于音频播放设备A1的发送时间戳LT1。当确认消息被发送端接收到时，发送端用当前接收的系统时间LT2减去发送时的系统时间LT1，即可确认在当前网络下在A1与V1之间的往返延时值Δ。往返延时值Δ除以2，即为单向延时值。在得到了每个包的单向延时值后，采用滤波算法对数据进行处理，比如将一段时间内的单向延时值进行加权平均，用此值作为延时补偿Δ1。在获得了延时值Δ1后，在A1下一次向V1发送同步消息时，将修改数据包中的声音采集时间戳，将其由原始值TS2改为TS2+Δ1。视频播放设备V1将收到修改过的声音数据时间戳TS2+Δ1，将按照这一时间戳进行视频的同步播放。IP网络的传输延时的抖动有时比较大，单次计算的单向延时值Δ可能会变化频繁。但由于通过一段时间内对每个同步数据包都参与延时值的计算，经过滤波后的延时数据可以在速度和精确度上都达到比较好的效果。正常情况下，由于视频图像数据所占用带宽会比声音数据高很多即视频数据包要比音视频数据包大很多，所以在传输过程中，通常是声音数据比图像数据传输得更快，更早被接收端设备接收到并开始播放。在一些极端情况下，比如视频数据包传输过慢，延迟过大，会导致图像设备V1的缓冲队列中已缓存的视频数据全部已被播放，没有新的数据到达，队列完全为空。此时从声音播放设备A1发来的单向同步消息也无法保证音视频同步。因此，需要在视频播放设备V1上收集音视频不同步的差值，并对其进行滤波消除抖动干扰。如果发现较长时间的偏差过大，则会将此偏差值发送给声音播放设备A1。声音播放设备A1会将自己的缓冲队列增加相应的长度，相当于让更多的声音数据包进入缓冲队列，来等待视频数据的成功接收，以保证最终的音视频同步。图四虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。也就是说上面讨论的方法，系统或设备等均是示例。各种配置可以适当地省略，替换或添加各种过程或组件。例如，在替代配置中，可以以与所描述的顺序不同的顺序执行方法，和或可以添加，省略和或组合各种阶段。而且，关于某些配置描述的特征可以以各种其他配置组合。可以以类似的方式组合配置的不同方面和元素。此外，随着技术的发展许多元素仅是示例而不限制本公开或权利要求的范围。在说明书中给出了具体细节以提供对包括实现的示例性配置的透彻理解。然而，可以在没有这些具体细节的情况下实践配置例如，已经示出了众所周知的电路、过程、算法、结构和技术而没有不必要的细节，以避免模糊配置。该描述仅提供示例配置，并且不限制权利要求的范围，适用性或配置。相反，前面对配置的描述将为本领域技术人员提供用于实现所描述的技术的使能描述。在不脱离本公开的精神或范围的情况下，可以对元件的功能和布置进行各种改变。此外，尽管每个操作可以将操作描述为顺序过程，但是许多操作可以并行或同时执行。另外，可以重新排列操作的顺序。一个过程可能有其他步骤。此外，可以通过硬件、软件、固件、中间件、代码、硬件描述语言或其任何组合来实现方法的示例。当在软件、固件、中间件或代码中实现时，用于执行必要任务的程序代码或代码段可以存储在诸如存储介质的非暂时性计算机可读介质中，并通过处理器执行所描述的任务。综上，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，所述权利要求包括所有等同物旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

权利要求：1.在不同设备上分别播放音频与视频的唇音同步方法，所述不同设备包括音频播放设备和视频播放设备，其特征在于，所述方法包括，使用发送端发送音视频码至所述音频播放设备和视频播放设备，所述发送端对其发送的数据包增加时间戳信息，所述音频播放设备和视频播放设备分别使用同步机制以同步播放具备相同时间戳的音频和视频信息。2.如权利要求1所述的方法，其特征在于，音频播放设备和视频播放设备为声音和视频各自维护了一个缓冲队列，待缓冲一定数量的数据包之后，再通过所述同步机制进行播放。3.如权利要求2所述的方法，其特征在于，其还包括将所述声音播放设备在同步机制中设为主动方，其从本地的缓冲队列中均匀地播放声音数据，同时按一时间周期定期地向视频显示设备发送同步消息，把当前正在播放的声音数据的采集时间戳同步给视频显示设备，视频显示设备根据所收到的时间戳来控制视频数据的缓冲队列长度，进行适度播放，从而保证声音和视频的同步。4.如权利要求3所述的方法，其特征在于，所述声音播放设备每播放一所述时间周期的数据，就向视频播放设备发送一个同步消息，所述视频播放设备收到同步消息后，返回一个确认消息至所述发送端，所述确认消息中包括接收到的来自于音频播放设备的当前发送时间戳；当确认消息被发送端接收到时，发送端用当前接收的系统时间减去发送时的系统时间以确认在当前网络下的往返延时值Δ；所述发送端每隔一加权周期对所述往返延时值Δ进行加权处理后发送至所述声音播放设备，所述声音播放设备将采集时间戳加上当前的加权处理后的往返延时值Δ后发送至所述视频播放设备，所述视频播放设备按照该时间戳进行视频的同步播放。5.如权利要求4所述的方法，其特征在于，所述对所述往返延时值Δ进行加权处理包括，将往返延时值Δ除以2得到单向延时值并对所述单向延时值采用滤波算法处理。6.如权利要求5所述的方法，其特征在于，所述滤波算法包括，将一段时间内的单向延时值进行加权平均以得到滤波处理后的单向延时值。7.如权利要求2所述的方法，其特征在于，其还包括将所述视频播放设备在同步机制中设为主动方，并通过视频播放设备收集音视频不同步的差值，并对其进行滤波后将所述差值与一预设阈值进行比较，当所述差值大于所述预设阈值时将此偏差值发送给声音播放设备并根据该偏差值会将声音播放设备的缓冲队列增加相应的长度。

百度查询：上海赛连信息科技有限公司一种在不同设备上分别播放音频与视频的唇音同步方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：数字人文本动作生成方法、装置、计算机设备和存储介质_苏州元脑智能科技有限公司_202410374550.3

下一篇：抗高功率电磁脉冲毁伤保护装置及信号接收机_广州海格通信集团股份有限公司_202211358383.0

相关技术

数字人文本动作生成方法、装置、计算机设备和存储介质_苏州元脑智能科技有限公司_202410374550.3

抗高功率电磁脉冲毁伤保护装置及信号接收机_广州海格通信集团股份有限公司_202211358383.0

房车空调及其控制方法_青岛海尔空调器有限总公司_202211379468.7

镀锌卷生产用具有捆扎机构的存放装置及存放方法_湖南攀达新型材料有限公司_202410398389.3

基于人工智能的公文生成方法及装置_紫金诚征信有限公司_202410398569.1

一种家庭全光网络管理方法、装置及设备_中国移动通信有限公司研究院_202211376911.5

半导体结构的形成方法及半导体结构_长鑫存储技术有限公司_202211328743.2

车辆在线诊断与运维的方法、装置和系统_比亚迪股份有限公司_202211348561.1

通信方法及装置_华为技术有限公司_202211354585.8

一种用于高压屏蔽线缆的剥线机_南京溯远基因科技有限公司_202410404331.5

一种竹木深层染色方法_湖南宝顶竹木科技有限公司_202311366501.7

接收器电路及具有其的总线收发器_苏州纳芯微电子股份有限公司_202211326505.8

音频相关技术

音频处理方法及装置_北京猿力未来科技有限公司_202110362001.0

音频处理设备和方法_深圳市韶音科技有限公司_202211353277.3

音频检测方法及装置_北京猿力未来科技有限公司_202011211792.9

音频放大装置与方法_瑞昱半导体股份有限公司_202211365740.6

用于编码的音频编码器及用于解码的音频解码器_弗劳恩霍夫应用研究促进协会_202110178110.7

音频信号处理方法及装置、音频播放设备、存储介质_OPPO广东移动通信有限公司_202211370718.0

音频信号处理方法、装置、音频输出系统、设备和介质_浙江华创视讯科技有限公司_202410179327.3

一种音频功放稳压控制电路、芯片和音频功放装置_芯朗半导体(深圳)有限公司_202310748532.2

具有音频源扫描机制的蓝牙音频播放装置及蓝牙通信方法_瑞昱半导体股份有限公司_202211386226.0

音频处理方法及终端设备_平安科技(深圳)有限公司_201811423356.0

视频相关技术

视频监控识别装置_江苏标图信息科技有限公司_202322731524.5

视频召回方法及装置_中移动金融科技有限公司_202110473364.1

基于视频通讯的视频传输方法、装置、电子设备和介质_广州蓝笔信息科技有限公司_202311826512.9

一种视频矩阵切换器及视频矩阵切换系统_北京嗨动视觉科技有限公司_202322668349.X

视频签名及视频验签方法、装置及设备、存储介质_上海芯翌智能科技有限公司_202410139278.0

基于视频信息处理模型的视频信息处理方法及装置_深圳市雅阅科技有限公司_202010016360.6

视频远程投屏装置和视频远程投屏方法_广东电网有限责任公司佛山供电局_202410407046.9

视频压缩方法及系统_OPPO广东移动通信有限公司_202180102638.4

图像显示方法和视频处理设备_北京嗨动视觉科技有限公司_201880092180.7

显示设备及视频处理方法_海信视像科技股份有限公司_202311839880.7

唇音相关技术

一种在不同设备上分别播放音频与视频的唇音同步方法_上海赛连信息科技有限公司_202110568007.3

一种数字人的唇音同步方法及装置、设备及存储介质_艾塔(深圳)智能信息有限公司_202310940644.8

唇音同步结果的检测方法、装置、电子设备及存储介质_腾讯科技(深圳)有限公司_202211324144.3

一种唇音同步的测试方法、装置、电子设备和存储介质_北京飞讯数码科技有限公司_202211599754.4

一种唇音同步方法和装置_杭州海康威视数字技术股份有限公司_201910937097.1

一种在不同设备上分别播放音频与视频的唇音同步方法_上海赛连信息科技有限公司_202110568007.3

一种在不同设备上分别播放音频与视频的唇音同步方法_上海赛连信息科技有限公司_201811210525.2

一种唇音同步方法和装置_杭州海康威视数字技术股份有限公司_201910937097.1

一种多媒体文件拼接音视频唇音同步的方法_南斗六星系统集成有限公司_202010754899.1

多设备间唇音同步方法及设备_华为技术有限公司_201780049030.3

龙图腾网&IPTOP

【发明授权】一种在不同设备上分别播放音频与视频的唇音同步方法_上海赛连信息科技有限公司_201811210525.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务