买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种粤语新闻视频中自动裁剪含主播的视听数据集的方法_东南大学_202211132338.3 

申请/专利权人:东南大学

申请日:2022-09-17

公开(公告)日:2022-12-09

公开(公告)号:CN115460462A

主分类号:H04N21/4402

分类号:H04N21/4402;H04N21/845;H04N21/439;G10L13/02;G10L21/0208;G06V20/40;G06V40/16;G06F16/483

优先权:

专利状态码:在审-实质审查的生效

法律状态:2022.12.27#实质审查的生效;2022.12.09#公开

摘要:本发明公开了一种粤语新闻视频中自动裁剪含主播的视听数据集的方法,该方法把粤语新闻视频裁剪为视频、语音两个模态的数据集合,其中每一段数据都只包含主持人进行新闻播报的场景。该方法基于HSV图像信息检测算法进行整个新闻场景的分割,基于FaceRecognition人脸检测库和人脸特征提取工具进行包含目标主播人脸的视频识别,基于语音活动检测算法对音频进行切分,再根据切分停顿点对视频进行切分,实现自动完成粤语新闻中裁剪含主播的视听数据集的制作。通过设计的合理的流程和使用高效的算法,提高了构建粤语高质量视听数据集的效率,并能够方便地推广到其他语言的视听数据集制作中,最终能应用于如粤语场景下语音去噪、音视频驱动的人脸生成模型的训练中。

主权项:1.一种粤语新闻视频中自动裁剪含主播的视听数据集的方法,其特征在于,具体步骤如下:步骤1,视频场景分割,1.1,收集电视台公开的粤语新闻播报视频,视频中新闻主播需要使用粤语播报新闻;1.2,使用一种基于HSV图像信息的检测算法处理1.1中的视频,根据场景信息的变化得到切割后的不同场景的视频;步骤2,目标人脸分类,2.1,使用人脸检测工具FaceRecognition检测得到的场景视频中的人脸,对于不包含人脸或者包含一个以上人脸的视频将会直接丢弃;2.2,对于只包含一个人脸的场景视频,使用FaceRecognition计算该人脸和目标主播人脸的128维度人脸特征向量;2.3,计算2.2中两个特征向量的余弦相似度,若大于设定的阈值,则认为该场景视频为仅包含目标主播播报的视频片段,将其加入该目标主播文件夹中,否则丢弃该视频;步骤3,语音后处理,3.1,对于目标主播文件夹中的视频,使用FFmpeg工具提取视频对应的音频;3.2,利用语音活动检测VoiceActivityDetection,VAD方法,对语音中出现的停顿进行检测并分割,同时会得到分割的停顿点信息,该步骤形成音频模态的数据;3.3,利用分割的停顿点信息去切分对应的视频,得到与音频片段对应的视频片段,该步骤形成视频模态的数据。

全文数据:

权利要求:

百度查询: 东南大学 一种粤语新闻视频中自动裁剪含主播的视听数据集的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。