【发明公布】转录和基于文本的视频编辑的面部感知说话人日志化_奥多比公司_202310958027.0

导航：龙图腾网> 最新专利技术> 转录和基于文本的视频编辑的面部感知说话人日志化_奥多比公司_202310958027.0

申请/专利权人：奥多比公司

申请日：2023-08-01

公开（公告）日：2024-04-19

公开（公告）号：CN117915157A

主分类号：H04N21/472

分类号：H04N21/472;H04N21/439;H04N21/44;H04N21/845;H04N21/8547;H04N21/8549;G10L15/26;G10L15/04

优先权：["20221017 US 17/967,399"]

专利状态码：在审-实质审查的生效

法律状态：2024.05.07#实质审查的生效;2024.04.19#公开

摘要：本公开的实施例涉及转录和基于文本的视频编辑的面部感知说话人日志化。本发明的实施例提供了用于面部感知说话人日志化的系统、方法和计算机存储介质。在示例性实施例中，应用纯音频说话人日志化技术来生成视频的纯音频说话人日志化，应用视听说话人日志化技术来生成视频的面部感知说话人日志化，并且使用面部感知说话人日志化来细化纯音频说话人日志化，以生成将检测到的面部链接到检测到的语音的混合说话人日志化。在一些实施例中，为了适应具有表现为像素化的小面部的视频，从视频的每一帧提取任何给定面部的裁剪图像，并且使用裁剪图像的大小来选择相应的活动说话者检测模型，以预测针对裁剪图像中面部的活动说话者得分。

主权项：1.一种或多种计算机存储介质，存储计算机可用指令，所述计算机可用指令在由一个或多个计算设备执行时使得所述一个或多个计算设备执行操作，所述操作包括：生成初始说话人日志化，所述初始说话人日志化将视频中检测到的说话人分配给所述视频的第一组时间片段；生成面部感知说话人日志化，所述面部感知说话人日志化将检测到的说话面部分配给所述视频的第二组时间片段；以及生成混合说话人日志化，所述混合说话人日志化将所述初始说话人日志化与所述面部感知说话人日志化相结合。

全文数据：

权利要求：

百度查询：奥多比公司转录和基于文本的视频编辑的面部感知说话人日志化

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

【发明公布】转录和基于文本的视频编辑的面部感知说话人日志化_奥多比公司_202310958027.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务