买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】语音信息的批量筛选方法、装置、计算机设备及存储介质_平安科技(深圳)有限公司_201910197526.6 

申请/专利权人:平安科技(深圳)有限公司

申请日:2019-03-15

公开(公告)日:2024-04-16

公开(公告)号:CN110059059B

主分类号:G06F16/14

分类号:G06F16/14;G06F16/172;G06F16/61;G06F16/683;G10L15/06;G10L15/16;G10L15/26

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2021.04.23#实质审查的生效;2019.07.26#公开

摘要:本发明实施例公开了一种语音信息的批量筛选方法、装置、计算机设备及存储介质,其中所述方法包括若接收到信息处理指令,获取预设的训练集所在的文件夹的输入文件夹地址;根据所述信息处理指令确定预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址;读取所述输入文件夹地址以获取所有的待处理语音信息;调用预设的语音筛选脚本以分别提取每个待处理语音信息的特征信息;依次读取所有的特征信息以判断其是否与预设阀值相匹配;若是,将该特征信息所对应的待测语音信息存储至第二输出文件夹地址所对应的第二输出文件夹中以用于批量输出。本发明可以高效准确地实现对训练集中的多个待处理语音信息的统一筛选,并减少筛选过程的错误。

主权项:1.一种语音信息的批量筛选方法,其特征在于,所述方法包括:若接收到信息处理指令,获取预设的训练集所在的文件夹的地址,并将该地址作为输入文件夹地址,所述训练集包括多个待处理语音信息;根据所述信息处理指令确定预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址,其中,所述第一输出文件夹地址为第一输出文件夹被保存的地址,所述第一输出文件夹包括多个可读文本文件,所述第二输出文件夹地址为第二输出文件夹被保存的地址;读取所述输入文件夹地址以获取所有的待处理语音信息;依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息以分别确定每个待处理语音信息的音频格式;若所述待处理语音信息的音频格式为预设音频格式,保持所述待处理语音信息的音频格式不变;若所述待处理语音信息的音频格式不为预设音频格式,根据预设的音频格式转换规则将所述待处理语音信息的音频格式转换为预设音频格式;调用预设的语音筛选脚本以分别提取每个待处理语音信息的特征信息,并将每个待处理语音信息的特征信息分别写入不同的可读文本文件中;所述预设阀值包括预设时长阀值,所述特征信息包括音频时长,依次读取所述第一输出文件夹中的所有的可读文本文件中的音频时长;判断所述可读文本文件中的音频时长是否大于或等于预设时长阀值;若所述可读文本文件中的音频时长大于或等于预设时长阀值,则判定所述可读文本文件中的特征信息与预设阀值相匹配;所述判定所述可读文本文件中的特征信息与预设阀值相匹配的步骤之前,包括:若所述可读文本文件中的音频时长大于或等于预设时长阀值,依次读取所述第一输出文件夹中的所有的可读文本文件中的采样点数;判断所述可读文本文件中的采样点数是否大于或等于预设采样点数;若所述可读文本文件中的采样点数大于或等于预设采样点数,则判定所述可读文本文件中的特征信息与预设阀值相匹配;若所述可读文本文件中的特征信息与预设阀值相匹配,则将该可读文本文件所对应的待测语音信息存储至所述第二输出文件夹中以用于批量输出;所述信息处理指令包括预设的第三输出文件夹地址,所述方法还包括:依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息以分别判断每个可读文本文件中的特征信息的类型是否与预设的特征信息的类型相匹配;若所述可读文本文件中的特征信息的类型与预设的特征信息的类型不相匹配,判定所述可读文本文件所对应的待测语音信息为无效语音信息,并将该待测语音信息存储至所述第三输出文件夹地址所对应的第三输出文件夹中所述信息处理指令包括第四输出文件夹地址,所述方法还包括:若所述可读文本文件中的特征信息与预设阀值不相匹配,则将该可读文本文件所对应的待测语音信息存储至所述第四输出文件夹地址所对应的第四输出文件夹中。

全文数据:语音信息的批量筛选方法、装置、计算机设备及存储介质技术领域本发明涉及数据处理领域,尤其涉及一种语音信息的批量筛选方法、装置、计算机设备及存储介质。背景技术在语音识别项目中通常需要从各种渠道收集或采集大量语音信息,并利用这些语音信息作为训练集中的训练样本对神经网络进行训练,从而得到相应的用于进行特征的语音识别的识别模型。而为了确保神经网络的训练过程的顺利以及所获取的识别模型的精准性,通常需要对所获取的语音信息进行训练前的预先处理,如有效语音信息的筛选等,而实现对大量的语音信息的预处理工作需要逐步迭代才能完成,但是重复迭代处理的过程因数据量大,非常容易出现操作失误,造成语音信息筛选不准确的问题。发明内容本发明实施例提供一种语音信息的批量筛选方法、装置、计算机设备及存储介质,能够高效准确地实现对训练集中的多个待处理语音信息的统一筛选,并减少筛选过程的错误。第一方面,本发明实施例提供了一种语音信息的批量筛选方法,该方法包括:若接收到信息处理指令,获取预设的训练集所在的文件夹的地址,并将该地址作为输入文件夹地址,所述训练集包括多个待处理语音信息;根据所述信息处理指令确定预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址,其中,所述第一输出文件夹地址为第一输出文件夹被保存的地址,所述第一输出文件夹包括多个可读文本文件,所述第二输出文件夹地址为第二输出文件夹被保存的地址;读取所述输入文件夹地址以获取所有的待处理语音信息;调用预设的语音筛选脚本以分别提取每个待处理语音信息的特征信息,并将每个待处理语音信息的特征信息分别写入不同的可读文本文件中;依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息以判断所述可读文本文件中的特征信息是否与预设阀值相匹配;若所述可读文本文件中的特征信息与预设阀值相匹配,则将该可读文本文件所对应的待测语音信息存储至所述第二输出文件夹中以用于批量输出。第二方面,本发明实施例还提供了一种语音信息的批量筛选装置,该装置包括用于执行上述方法的单元。第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。本发明实施例提供了一种语音信息的批量筛选方法、装置、计算机设备及存储介质。其中,所述方法包括:若接收到信息处理指令,获取预设的训练集所在的文件夹的地址,并将该地址作为输入文件夹地址,所述训练集包括多个待处理语音信息;根据所述信息处理指令确定预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址;读取所述输入文件夹地址以获取所有的待处理语音信息;调用预设的语音筛选脚本以分别提取每个待处理语音信息的特征信息,并将每个待处理语音信息的特征信息分别写入不同的可读文本文件中;依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息以判断所述可读文本文件中的特征信息是否与预设阀值相匹配;若所述可读文本文件中的特征信息与预设阀值相匹配,则将该可读文本文件所对应的待测语音信息存储至所述第二输出文件夹中以用于批量输出。本发明实施例通过上述的批量处理能够高效准确地实现对训练集中的多个待处理语音信息的统一筛选,并减少筛选过程的错误,以便于精准地实现神经网络的训练。附图说明为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明实施例提供的一种语音信息的批量筛选方法的流程示意图;图2是本发明实施例提供的一种语音信息的批量筛选方法的子流程示意图;图3是本发明实施例提供的一种语音信息的批量筛选方法的子流程示意图;图4是本发明另一实施例提供的一种语音信息的批量筛选方法的流程示意图;图5是本发明实施例提供的一种语音信息的批量筛选装置的示意性框图;图6是本发明实施例提供的一种语音信息的批量筛选装置的信息确定单元的示意性框图;图7是本发明实施例提供的一种语音信息的批量筛选装置的信息判断单元的示意性框图;图8是本发明另一实施例提供的一种语音信息的批量筛选装置的示意性框图;图9是本发明实施例提供的一种计算机设备结构组成示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和或其集合的存在或添加。还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。请参阅图1,图1是本申请实施例提供的一种语音信息的批量筛选方法的示意流程图。该语音信息的批量筛选方法应用于管理服务器中。该管理服务器管理服务器通过训练集对神经网络进行训练之前,对获取到的训练集中的待处理语音信息进行批量预处理,如将损坏的待处理语音信息、过短的待处理语音信息从训练集中剔除,通过上述批处理能够高效准确地实现对训练集中的多个待处理语音信息的统一筛选,并减少筛选过程的错误,以便于精准地实现神经网络的训练。如图1所示,该方法的步骤包括步骤S101~S104。步骤S101,若接收到信息处理指令,获取预设的训练集所在的文件夹的地址,并将该地址作为输入文件夹地址,所述训练集包括多个待处理语音信息。在本实施例中,为了对神经网络进行训练从而得到相应的语音识别模型,需要对获取到的训练集中的待处理语音信息进行批量的预处理,从而达到符合训练神经网络的要求,提高训练得到的语音识别模型的精准度。而训练集可以是预先设置的,即可以从各个能够进行语音信息获取的应用程序中收集语音信息进行存储,还可以是通过不同的录音人员进行录音从而得到语音信息,此时存储在训练集中的语音信息即为待处理的语音信息。当管理服务器接收到用户发起的信息处理指令,那么则获取预先设置的训练集所在的文件夹的地址,并将该地址作为输入文件夹地址,以便于用户准确地定位输入文件夹,即输入文件夹中存储有训练集。步骤S102,根据所述信息处理指令确定预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址,其中,所述第一输出文件夹地址为第一输出文件夹被保存的地址,所述第一输出文件夹包括多个可读文本文件,所述第二输出文件夹地址为第二输出文件夹被保存的地址。在本实施例中,所述信息处理指令中可以包括预先设置的预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址,以便于管理服务器在接收到信息处理指令之后,通过分析该信息处理指令从而得到音频筛选过程中所需的参数,这些参数可以包括上述的预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址。同时,所述第一输出文件夹地址作为第一输出文件夹被保存的地址,是对应第一输出文件夹的,所述第一输出文件夹可以包括有多个可读文本文件,此处的可读文本文件可以是有文档名的空的文本文件,也可以是预存有足够存储空间的文本文件,即可读文件文件可以用于进行数据的存储保留。所述第二输出文件夹地址为第二输出文件夹被保存的地址,是对应第二输出文件夹的。其中,对音频进行筛选主要是根据待处理语音信息的本身的特征信息来进行筛选,故需要预先设置预设阀值,通过预设阀值来界定待处理语音信息的特征信息是否符合要求,并将该符合要求的待处理语音信息存储至第二输出文件夹地址所对应的第二输出文件夹中。例如,预设阀值可以是跟语音信息的音频时长相关的阀值,可以是跟语音信息的采样点数相关的阀值,还可以是跟语音信息的缩放系数相关的阀值,也可以是跟语音信息的最大幅度值相关的阀值等等。另外,第一输出文件夹地址所对应的第一输出文件夹可用于存放中间文件。在一实施例中,如图2所示,所述步骤S102可以包括步骤S201~S202。步骤S201,解析所述信息处理指令以得到相应的预设信息。其中,所述信息处理指令包括有用户预先设置的多种信息,以便于管理服务器在获取该信息处理指令后,根据预先设置的多种信息进行相应的音频筛选。步骤S202,根据所述预设信息确定预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址。其中,为了实现语音信息的精准筛选,管理服务器可以根据所述预设信息确定在音频筛选过程中需要的参数,如预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址。例如,所述预设阀值可以是跟语音信息的音频时长相关的预设时长阀值,还可以是跟语音信息的采样点相关的预设采样点数阀值。步骤S103,读取所述输入文件夹地址以获取所有的待处理语音信息。在本实施例中,管理服务器能够读取所述输入文件夹地址,并根据该输入文件夹地址确定相应的输入文件夹,从而获取相应的输入文件夹中的所有的待处理语音信息,以便于对所有的待处理语音信息进行批量处理。步骤S104,调用预设的语音筛选脚本以分别提取每个待处理语音信息的特征信息,并将每个待处理语音信息的特征信息分别写入不同的可读文本文件中。在本实施例中,预设的格式转换脚本是指预先设置的能够对语音信息进行筛选的脚本,例如预设的语音筛选脚本可以是SOX脚本,当然还可以是其他的用于进行音频筛选的脚本、程序或者函数等。管理服务器通过Python执行调用预设的音频筛选脚本后,可以批量地提取每个待处理语音信息的特征信息。其中关于语音信息的特征信息可以包括语音信息的音频时长、采样点数、缩放系数以及最大幅度值等信息。为了便于对待处理语音信息进行具体的分析,可以将每个待处理语音信息的特征信息均存储至一相应的可读文本文件中进行记录,一般情况下,不同的待处理语音信息对应一个不同的可读文本文件。作为可选的,所述可读文本文件可是TXT文件,当然也可以是其他便于读写的文本文件,如WORD文件等。另外,为了便于统一管理,所有的可读文本文件均可存储于预设的第一输出文件夹地址所对应的第一输出文件夹中,以便于管理服务器根据需要进行调用提取等操作。步骤S105,依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息以判断所述可读文本文件中的特征信息是否与预设阀值相匹配。在本实施例中,管理服务器可以依次读取第一输出文件夹中的所有的可读文本文件中的特征信息,并将所获取的特征信息去与预设阀值进行匹配,从而确定符合预设阀值所界定的要求的语音信息。在一实施例中,如图3所示,所述预设阀值包括预设时长阀值,所述特征信息包括音频时长,所述步骤S105可以包括步骤S301~S303。步骤S301,依次读取所述第一输出文件夹中的所有的可读文本文件中的音频时长。其中,管理服务器可以依次从第一输出文件夹中读取所有的可读文本文件中的音频时长,每个可读文本文件对应一个待处理语音信息,故可知管理服务器所提取的应该是每个待处理语音信息的音频时长。步骤S302,判断所述可读文本文件中的音频时长是否大于或等于预设时长阀值。其中,当语音信息的音频时长小于预设时长阀值时,可能表示该语音信息在训练神经网络的过程中并不能起到很好的效果,为保证训练结果,可以保留大于或等于预设时长阀值的语音信息。故此时需要去批量判断所述可读文本文件中的音频时长大于或等于预设时长阀值。该预设时长阀值可以根据用户的实际需求情况进行设备,在本实施例中,并不做限定。步骤S303,若所述可读文本文件中的音频时长大于或等于预设时长阀值,则判定所述可读文本文件中的特征信息与预设阀值相匹配。其中,当可读文本文件中的音频时长大于或等于预设时长阀值,那么则可以判定所述可读文本文件中的特征信息是与预设阀值相匹配的,此时则表明该可读文本文件对应的待测语音信息为有效的语音信息。另外,所述步骤S105可以包括:步骤S303a,若所述可读文本文件中的音频时长小于预设时长阀值,则判定所述可读文本文件中的特征信息与预设阀值不相匹配。当所述可读文本文件中的音频时长小于预设的时长阀值时,需要将该可读文本文件所对应的待处理语音信息进行筛除。作为更进一步的实施例,所述步骤S303之前还可以包括:步骤S304,若所述可读文本文件中的音频时长大于或等于预设时长阀值,依次读取所述第一输出文件夹中的所有的可读文本文件中的采样点数。其中,当待测语音信息的音频时长符合一定要求后,为了进一步地确定待测语音信息是否为有效的信息,还需要从采样点数上来对待测语音信息进行分析,故需要依次获取所有的可读文本文件中的采样点数。步骤S305,判断所述可读文本文件中的采样点数大于或等于预设采样点数。其中,为了确保待测语音信息在播放过程中更为清晰,此时需要选择的待测语音信息的采样点数需要大于或等于预设采样点数,该预设采样点数可以根据用户的需求进行相应的设置,在本实施例中并不做限定。具体的,若所述可读文本文件中的采样点数大于或等于预设采样点数,则执行所述判定所述可读文本文件中的特征信息与预设阀值相匹配的步骤,即执行步骤S303。其中,若所述可读文本文件中的采用点数大于或等于预设采样点数,则表明该可读文本文件所对应的待处理语音信息为有效的语音信息,故可以判定所述可读文本文件中的特征信息与预设阀值相匹配的。另外,若所述可读文本文件中的采样点数小于预设采样点数,则执行所述判定所述可读文本文件中的特征信息与预设阀值不相匹配的步骤,则执行步骤S303a。其中,当所述可读文本文件中的音频时长小于预设的时长阀值时,则表明此时的待测语音信息是不符合要求的,需要将该可读文本文件所对应的待处理语音信息进行筛除。步骤S106,若所述可读文本文件中的特征信息与预设阀值相匹配,则将该可读文本文件所对应的待测语音信息存储至所述第二输出文件夹中以用于批量输出。在本实施例中,为便于管理服务器调用已经进行音频筛选的语音信息,需要根据第二输出文件夹地址确定第二输出文件夹的位置,并将经批量筛选而得到的特征信息与预设阀值相匹配的待测语音信息均存储至第二输出文件夹中。作为进一步的实施例,所述信息处理指令包括第四输出文件夹地址,所述方法还可以包括:步骤S107,若所述可读文本文件中的特征信息与预设阀值不相匹配,则将该可读文本文件所对应的待测语音信息存储至所述第四输出文件夹地址所对应的第四输出文件夹中。在本实施例中,若所述可读文本文件中的特征信息与预设阀值不相匹配,则表明该可读文本文件所对应的待处理语音信息是不符合要求的,为了便于管理,可根据所述第四输出文件夹地址确定其对应的第四输出文件夹,并将该可读文本文件所对应的待测语音信息存储至第四输出文件夹中。综上,本实施例通过上述的批量处理能够高效准确地实现对训练集中的多个待处理语音信息的统一筛选,并减少筛选过程的错误,以便于精准地实现神经网络的训练。请参阅图4,图4是本发明另一实施例提供的一种语音信息的批量筛选方法的示意流程图。如图4所示,该方法的步骤包括步骤S401~S404。其中与上述实施例中的步骤S101-S106类似的步骤的相关解释和详细说明在此不再赘述,下面详细说明的为本实施例中所增加的步骤。步骤S401,若接收到信息处理指令,获取预设的训练集所在的文件夹的地址,并将该地址作为输入文件夹地址,所述训练集包括多个待处理语音信息。步骤S402,根据所述信息处理指令确定预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址,其中,所述第一输出文件夹地址为第一输出文件夹被保存的地址,所述第一输出文件夹包括多个可读文本文件,所述第二输出文件夹地址为第二输出文件夹被保存的地址。步骤S403,读取所述输入文件夹地址以获取所有的待处理语音信息。步骤S403a,依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息以分别确定每个待处理语音信息的音频格式。在本实施例中,为了进一步地确保管理服务器更好地调用预设的语音筛选脚本以批量提取每个待处理语音信息的特征信息,还需要将每个待处理音频信息的音频格式进行统一的转换处理。其中,音频格式是指具体可以是可以包括AIFF、MPEG、MP3、MIDI、WMA、FLAC、APE、AMR、WAV等格式,管理服务器通过依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息,能够批量确定每个待处理语音信息的音频格式。步骤S403b,若所述待处理语音信息的音频格式为预设音频格式,保持所述待处理语音信息的音频格式不变。其中,当所述待处理语音信息的音频格式为预设音频格式,则表明此时的待处理语音信息不需要进行处理,即可以保持所述待处理语音信息的音频格式不变。例如,当预设音频格式为WAV格式,而待处理语音信息的音频格式也为WAV格式时,则不需要进行音频格式转换。步骤S403c,若所述待处理语音信息的音频格式不为预设音频格式,根据预设的音频格式转换规则将所述待处理语音信息的音频格式转换为预设音频格式。其中,当待处理语音信息的音频格式不为预设音频格式时,是需要根据预先设置的音频格式转换规则对其进行音频格式转换的。例如,该预设的音频格式转换规则可以是通过Ffmpeg脚本对待处理语音信息进行音频格式转换。当预设音频格式为WAV格式,而待处理语音信息的音频格式也为MP3格式时,需要将该待处理语音的音频格式进行转换。步骤S404,调用预设的语音筛选脚本以分别提取每个待处理语音信息的特征信息,并将每个待处理语音信息的特征信息分别写入不同的可读文本文件中。步骤S405,依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息以判断所述可读文本文件中的特征信息是否与预设阀值相匹配。步骤S406,若所述可读文本文件中的特征信息与预设阀值相匹配,则将该可读文本文件所对应的待测语音信息存储至所述第二输出文件夹中以用于批量输出。作为进一步的实施例,所述信息处理指令包括预设的第三输出文件夹地址,所述方法还可以包括以下步骤:步骤S407,依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息以分别判断每个可读文本文件中的特征信息的类型是否与预设的特征信息的类型相匹配。其中,根据待处理语音信息的特征信息的类型与预设的特征信息的类型是否匹配,就可以判断其是否为有效的语音信息,例如若特征信息需要包括语音信息的音频时长、采样点数、缩放系数以及最大幅度值,而在可读文本文件中的保存的仅只有音频时长和采样点数,那么则该可读文本件对应的待处理语音信息为无效信息。而在可读文本文件中的保存的包括音频时长、采样点数、缩放系数以及最大幅度值,则表明该可读文本件对应的待处理语音信息为有效信息。步骤S408,若所述可读文本文件中的特征信息的类型与预设的特征信息的类型不相匹配,判定所述可读文本文件所对应的待测语音信息为无效语音信息,并将该待测语音信息信息存储至所述第三输出文件夹地址所对应的第三输出文件夹中。其中,为了进一步地区分待测语音信息的性质,可将判定为无效语音信息的待测语音信息存储至所述第三输出文件夹地址所对应的第三输出文件夹中。作为进一步的实施例,所述信息处理指令包括第四输出文件夹地址,所述方法还可以包括:步骤S409,若所述可读文本文件中的特征信息与预设阀值不相匹配,则将该可读文本文件所对应的待测语音信息存储至所述第四输出文件夹地址所对应的第四输出文件夹中。本领域普通技术员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体Read-OnlyMemory,ROM等。请参阅图5,对应上述一种语音信息的批量筛选方法,本发明实施例还提出一种语音信息的批量筛选装置,该装置100包括:地址获取单元101、信息确定单元102、信息读取单元103、特征提取单元104、信息判断单元105以及第一存储单元106。所述地址获取单元101,用于若接收到信息处理指令,获取预设的训练集所在的文件夹的地址,并将该地址作为输入文件夹地址,所述训练集包括多个待处理语音信息。在本实施例中,为了对神经网络进行训练从而得到相应的语音识别模型,需要对获取到的训练集中的待处理语音信息进行批量的预处理,从而达到符合训练神经网络的要求,提高训练得到的语音识别模型的精准度。而训练集可以是预先设置的,即可以从各个能够进行语音信息获取的应用程序中收集语音信息进行存储,还可以是通过不同的录音人员进行录音从而得到语音信息,此时存储在训练集中的语音信息即为待处理的语音信息。当管理服务器接收到用户发起的信息处理指令,那么则获取预先设置的训练集所在的文件夹的地址,并将该地址作为输入文件夹地址,以便于用户准确地定位输入文件夹,即输入文件夹中存储有训练集。所述信息确定单元102,用于根据所述信息处理指令确定预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址,其中,所述第一输出文件夹地址为第一输出文件夹被保存的地址,所述第一输出文件夹包括多个可读文本文件,所述第二输出文件夹地址为第二输出文件夹被保存的地址。在本实施例中,所述信息处理指令中可以包括预先设置的预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址,以便于管理服务器在接收到信息处理指令之后,通过分析该信息处理指令从而得到音频筛选过程中所需的参数,这些参数可以包括上述的预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址。同时,所述第一输出文件夹地址作为第一输出文件夹被保存的地址,是对应第一输出文件夹的,所述第一输出文件夹可以包括有多个可读文本文件,此处的可读文本文件可以是有文档名的空的文本文件,也可以是预存有足够存储空间的文本文件,即可读文件文件可以用于进行数据的存储保留。所述第二输出文件夹地址为第二输出文件夹被保存的地址,是对应第二输出文件夹的。其中,对音频进行筛选主要是根据待处理语音信息的本身的特征信息来进行筛选,故需要预先设置预设阀值,通过预设阀值来界定待处理语音信息的特征信息是否符合要求,并将该符合要求的待处理语音信息存储至第二输出文件夹地址所对应的第二输出文件夹中。例如,预设阀值可以是跟语音信息的音频时长相关的阀值,可以是跟语音信息的采样点数相关的阀值,还可以是跟语音信息的缩放系数相关的阀值,也可以是跟语音信息的最大幅度值相关的阀值等等。另外,第一输出文件夹地址所对应的第一输出文件夹可用于存放中间文件。在一实施例中,如图6所示,所述信息确定单元102可以包括指令解析单元201以及信息提取单元202。所述指令解析单元201,用于解析所述信息处理指令以得到相应的预设信息。其中,所述信息处理指令包括有用户预先设置的多种信息,以便于管理服务器在获取该信息处理指令后,根据预先设置的多种信息进行相应的音频筛选。所述信息提取单元202,用于根据所述预设信息确定预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址。其中,为了实现语音信息的精准筛选,管理服务器可以根据所述预设信息确定在音频筛选过程中需要的参数,如预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址。例如,所述预设阀值可以是跟语音信息的音频时长相关的预设时长阀值,还可以是跟语音信息的采样点相关的预设采样点数阀值。所述信息读取单元103,用于读取所述输入文件夹地址以获取所有的待处理语音信息。在本实施例中,管理服务器能够读取所述输入文件夹地址,并根据该输入文件夹地址确定相应的输入文件夹,从而获取相应的输入文件夹中的所有的待处理语音信息,以便于对所有的待处理语音信息进行批量处理。所述特征提取单元104,用于调用预设的语音筛选脚本以分别提取每个待处理语音信息的特征信息,并将每个待处理语音信息的特征信息分别写入不同的可读文本文件中。在本实施例中,预设的格式转换脚本是指预先设置的能够对语音信息进行筛选的脚本,例如预设的语音筛选脚本可以是SOX脚本,当然还可以是其他的用于进行音频筛选的脚本、程序或者函数等。管理服务器通过Python执行调用预设的音频筛选脚本后,可以批量地提取每个待处理语音信息的特征信息。其中关于语音信息的特征信息可以包括语音信息的音频时长、采样点数、缩放系数以及最大幅度值等信息。为了便于对待处理语音信息进行具体的分析,可以将每个待处理语音信息的特征信息均存储至一相应的可读文本文件中进行记录,一般情况下,不同的待处理语音信息对应一个不同的可读文本文件。作为可选的,所述可读文本文件可是TXT文件,当然也可以是其他便于读写的文本文件,如WORD文件等。另外,为了便于统一管理,所有的可读文本文件均可存储于预设的第一输出文件夹地址所对应的第一输出文件夹中,以便于管理服务器根据需要进行调用提取等操作。所述信息判断单元105,用于依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息以判断所述可读文本文件中的特征信息是否与预设阀值相匹配。在本实施例中,管理服务器可以依次读取第一输出文件夹中的所有的可读文本文件中的特征信息,并将所获取的特征信息去与预设阀值进行匹配,从而确定符合预设阀值所界定的要求的语音信息。在一实施例中,如图7所示,所述预设阀值包括预设时长阀值,所述特征信息包括音频时长,所述信息判断单元105可以包括时长读取单元301、时长判断单元302以及第一判定单元303。所述时长读取单元301,用于依次读取所述第一输出文件夹中的所有的可读文本文件中的音频时长。其中,管理服务器可以依次从第一输出文件夹中读取所有的可读文本文件中的音频时长,每个可读文本文件对应一个待处理语音信息,故可知管理服务器所提取的应该是每个待处理语音信息的音频时长。所述时长判断单元302,用于判断所述可读文本文件中的音频时长是否大于或等于预设时长阀值。其中,当语音信息的音频时长小于预设时长阀值时,可能表示该语音信息在训练神经网络的过程中并不能起到很好的效果,为保证训练结果,可以保留大于或等于预设时长阀值的语音信息。故此时需要去批量判断所述可读文本文件中的音频时长大于或等于预设时长阀值。该预设时长阀值可以根据用户的实际需求情况进行设备,在本实施例中,并不做限定。所述第一判定单元303,用于若所述可读文本文件中的音频时长大于或等于预设时长阀值,则判定所述可读文本文件中的特征信息与预设阀值相匹配。其中,当可读文本文件中的音频时长大于或等于预设时长阀值,那么则可以判定所述可读文本文件中的特征信息是与预设阀值相匹配的,此时则表明该可读文本文件对应的待测语音信息为有效的语音信息。另外,所述信息判断单元105可以包括:第二判定单元303a,用于若所述可读文本文件中的音频时长小于预设时长阀值,则判定所述可读文本文件中的特征信息与预设阀值不相匹配。当所述可读文本文件中的音频时长小于预设的时长阀值时,需要将该可读文本文件所对应的待处理语音信息进行筛除。作为更进一步的实施例,所述第一判定单元303之前还可以包括:数值读取单元304,用于若所述可读文本文件中的音频时长大于或等于预设时长阀值,依次读取所述第一输出文件夹中的所有的可读文本文件中的采样点数。其中,当待测语音信息的音频时长符合一定要求后,为了进一步地确定待测语音信息是否为有效的信息,还需要从采样点数上来对待测语音信息进行分析,故需要依次获取所有的可读文本文件中的采样点数。数值判断单元305,用于判断所述可读文本文件中的采样点数大于或等于预设采样点数。其中,为了确保待测语音信息在播放过程中更为清晰,此时需要选择的待测语音信息的采样点数需要大于或等于预设采样点数,该预设采样点数可以根据用户的需求进行相应的设置,在本实施例中并不做限定。具体的,在一实施例中,所述第一判定单元303还用于若所述可读文本文件中的采样点数大于或等于预设采样点数,判定所述可读文本文件中的特征信息与预设阀值相匹配。其中,若所述可读文本文件中的采用点数大于或等于预设采样点数,则表明该可读文本文件所对应的待处理语音信息为有效的语音信息,故可以判定所述可读文本文件中的特征信息与预设阀值相匹配的。另外,在一实施例中,所述第二判定单元303a还用于若所述可读文本文件中的采样点数小于预设采样点数,判定所述可读文本文件中的特征信息与预设阀值不相匹配。其中,当所述可读文本文件中的音频时长小于预设的时长阀值时,则表明此时的待测语音信息是不符合要求的,需要将该可读文本文件所对应的待处理语音信息进行筛除。所述第一存储单元106,用于若所述可读文本文件中的特征信息与预设阀值相匹配,则将该可读文本文件所对应的待测语音信息存储至所述第二输出文件夹中以用于批量输出。在本实施例中,为便于管理服务器调用已经进行音频筛选的语音信息,需要根据第二输出文件夹地址确定第二输出文件夹的位置,并将经批量筛选而得到的特征信息与预设阀值相匹配的待测语音信息均存储至第二输出文件夹中。作为进一步的实施例,所述信息处理指令包括第四输出文件夹地址,所述装置100还可以包括:第二存储单元107,用于若所述可读文本文件中的特征信息与预设阀值不相匹配,则将该可读文本文件所对应的待测语音信息存储至所述第四输出文件夹地址所对应的第四输出文件夹中。在本实施例中,若所述可读文本文件中的特征信息与预设阀值不相匹配,则表明该可读文本文件所对应的待处理语音信息是不符合要求的,为了便于管理,可根据所述第四输出文件夹地址确定其对应的第四输出文件夹,并将该可读文本文件所对应的待测语音信息存储至第四输出文件夹中。请参阅图8,对应上述一种语音信息的批量筛选方法,本发明另一实施例还提出一种语音信息的批量筛选装置,该装置400包括:地址获取单元401、信息确定单元402、信息读取单元403、格式确定单元403a、格式保持单元403b、格式转换单元403c、特征提取单元404、信息判断单元405以及第一存储单元406。地址获取单元401,用于若接收到信息处理指令,获取预设的训练集所在的文件夹的地址,并将该地址作为输入文件夹地址,所述训练集包括多个待处理语音信息。信息确定单元402,用于根据所述信息处理指令确定预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址,其中,所述第一输出文件夹地址为第一输出文件夹被保存的地址,所述第一输出文件夹包括多个可读文本文件,所述第二输出文件夹地址为第二输出文件夹被保存的地址。信息读取单元403,用于读取所述输入文件夹地址以获取所有的待处理语音信息。格式确定单元403a,用于依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息以分别确定每个待处理语音信息的音频格式。在本实施例中,为了进一步地确保管理服务器更好地调用预设的语音筛选脚本以批量提取每个待处理语音信息的特征信息,还需要将每个待处理音频信息的音频格式进行统一的转换处理。其中,音频格式是指具体可以是可以包括AIFF、MPEG、MP3、MIDI、WMA、FLAC、APE、AMR、WAV等格式,管理服务器通过依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息,能够批量确定每个待处理语音信息的音频格式。格式保持单元403b,用于若所述待处理语音信息的音频格式为预设音频格式,保持所述待处理语音信息的音频格式不变。其中,当所述待处理语音信息的音频格式为预设音频格式,则表明此时的待处理语音信息不需要进行处理,即可以保持所述待处理语音信息的音频格式不变。例如,当预设音频格式为WAV格式,而待处理语音信息的音频格式也为WAV格式时,则不需要进行音频格式转换。格式转换单元403c,用于若所述待处理语音信息的音频格式不为预设音频格式,根据预设的音频格式转换规则将所述待处理语音信息的音频格式转换为预设音频格式。其中,当待处理语音信息的音频格式不为预设音频格式时,是需要根据预先设置的音频格式转换规则对其进行音频格式转换的。例如,该预设的音频格式转换规则可以是通过Ffmpeg脚本对待处理语音信息进行音频格式转换。当预设音频格式为WAV格式,而待处理语音信息的音频格式也为MP3格式时,需要将该待处理语音的音频格式进行转换。特征提取单元404,用于调用预设的语音筛选脚本以分别提取每个待处理语音信息的特征信息,并将每个待处理语音信息的特征信息分别写入不同的可读文本文件中。信息判断单元405,用于依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息以判断所述可读文本文件中的特征信息是否与预设阀值相匹配。第一存储单元406,用于若所述可读文本文件中的特征信息与预设阀值相匹配,则将该可读文本文件所对应的待测语音信息存储至所述第二输出文件夹中以用于批量输出。作为进一步的实施例,所述信息处理指令包括预设的第三输出文件夹地址,所述装置400还可以包括以下单元:类型判断单元407,用于依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息以分别判断每个可读文本文件中的特征信息的类型是否与预设的特征信息的类型相匹配。其中,根据待处理语音信息的特征信息的类型与预设的特征信息的类型是否匹配,就可以判断其是否为有效的语音信息,例如若特征信息需要包括语音信息的音频时长、采样点数、缩放系数以及最大幅度值,而在可读文本文件中的保存的仅只有音频时长和采样点数,那么则该可读文本件对应的待处理语音信息为无效信息。而在可读文本文件中的保存的包括音频时长、采样点数、缩放系数以及最大幅度值,则表明该可读文本件对应的待处理语音信息为有效信息。第三判定单元408,用于若所述可读文本文件中的特征信息的类型与预设的特征信息的类型不相匹配,判定所述可读文本文件所对应的待测语音信息为无效语音信息,并将该待测语音信息信息存储至所述第三输出文件夹地址所对应的第三输出文件夹中。其中,为了进一步地区分待测语音信息的性质,可将判定为无效语音信息的待测语音信息存储至所述第三输出文件夹地址所对应的第三输出文件夹中。作为进一步的实施例,所述信息处理指令包括第四输出文件夹地址,所述装置400还可以包括:第二存储单元409,用于若所述可读文本文件中的特征信息与预设阀值不相匹配,则将该可读文本文件所对应的待测语音信息存储至所述第四输出文件夹地址所对应的第四输出文件夹中。需要说明的是,所属领域的技术人员可以清楚地了解到,上述语音信息的批量筛选装置100和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。由以上可见,在硬件实现上,以上地址获取单元101、信息确定单元102、信息读取单元103、特征提取单元104、信息判断单元105以及第一存储单元106等可以以硬件形式内嵌于或独立于寿险报案的装置中,也可以以软件形式存储于语音信息的批量筛选装置的存储器中,以便处理器调用执行以上各个单元对应的操作。该处理器可以为中央处理单元CPU、微处理器、单片机等。上述语音信息的批量筛选装置可以实现为一种计算机程序的形式,计算机程序可以在如图9所示的计算机设备上运行。图9为本发明一种计算机设备的结构组成示意图。该设备可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。参照图9,该计算机设备500包括通过系统总线501连接的处理器502、存储器、内存储器504和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。该非易失性存储介质503可存储操作系统5031和计算机程序5032,该计算机程序5032被执行时,可使得处理器502执行一种语音信息的批量筛选方法。该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种语音信息的批量筛选方法。该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如上所述的语音信息的批量筛选方法中的步骤。应当理解,在本申请实施例中,处理器502可以是中央处理单元CentralProcessingUnit,CPU,该处理器502还可以是其他通用处理器、数字信号处理器DigitalSignalProcessor,DSP、专用集成电路ApplicationSpecificIntegratedCircuit,ASIC、现成可编程门阵列Field-ProgrammableGateArray,FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,该计算机程序被处理器执行时使处理器执行如上所述的语音信息的批量筛选方法中的步骤。所述存储介质可以是U盘、移动硬盘、只读存储器Read-OnlyMemory,ROM、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备可以是个人计算机,终端,或者网络设备等执行本发明各个实施例所述方法的全部或部分步骤。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

权利要求:1.一种语音信息的批量筛选方法,其特征在于,所述方法包括:若接收到信息处理指令,获取预设的训练集所在的文件夹的地址,并将该地址作为输入文件夹地址,所述训练集包括多个待处理语音信息;根据所述信息处理指令确定预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址,其中,所述第一输出文件夹地址为第一输出文件夹被保存的地址,所述第一输出文件夹包括多个可读文本文件,所述第二输出文件夹地址为第二输出文件夹被保存的地址;读取所述输入文件夹地址以获取所有的待处理语音信息;调用预设的语音筛选脚本以分别提取每个待处理语音信息的特征信息,并将每个待处理语音信息的特征信息分别写入不同的可读文本文件中;依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息以判断所述可读文本文件中的特征信息是否与预设阀值相匹配;若所述可读文本文件中的特征信息与预设阀值相匹配,则将该可读文本文件所对应的待测语音信息存储至所述第二输出文件夹中以用于批量输出。2.如权利要求1所述的方法,其特征在于,所述根据所述信息处理指令确定预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址的步骤,包括:解析所述信息处理指令以得到相应的预设信息;根据所述预设信息确定预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址。3.如权利要求1所述的方法,其特征在于,所述预设阀值包括预设时长阀值,所述特征信息包括音频时长,所述依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息以判断所述可读文本文件中的特征信息是否与预设阀值相匹配的步骤,包括:依次读取所述第一输出文件夹中的所有的可读文本文件中的音频时长;判断所述可读文本文件中的音频时长是否大于或等于预设时长阀值;若所述可读文本文件中的音频时长大于或等于预设时长阀值,则判定所述可读文本文件中的特征信息与预设阀值相匹配。4.如权利要求3所述的方法,其特征在于,所述判定所述可读文本文件中的特征信息与预设阀值相匹配的步骤之前,包括:若所述可读文本文件中的音频时长大于或等于预设时长阀值,依次读取所述第一输出文件夹中的所有的可读文本文件中的采样点数;判断所述可读文本文件中的采样点数大于或等于预设采样点数;若所述可读文本文件中的采样点数大于或等于预设采样点数,则判定所述可读文本文件中的特征信息与预设阀值相匹配。5.如权利要求1所述的方法,其特征在于,所述调用预设的语音筛选脚本以分别提取每个待处理语音信息的特征信息,并将每个待处理语音信息的特征信息分别写入不同的可读文本文件中的步骤之前,包括:依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息以分别确定每个待处理语音信息的音频格式;若所述待处理语音信息的音频格式为预设音频格式,保持所述待处理语音信息的音频格式不变;若所述待处理语音信息的音频格式不为预设音频格式,根据预设的音频格式转换规则将所述待处理语音信息的音频格式转换为预设音频格式。6.如权利要求5所述的方法,其特征在于,所述信息处理指令包括预设的第三输出文件夹地址,所述方法还包括:依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息以分别判断每个可读文本文件中的特征信息的类型是否与预设的特征信息的类型相匹配;若所述可读文本文件中的特征信息的类型与预设的特征信息的类型不相匹配,判定所述可读文本文件所对应的待测语音信息为无效语音信息,并将该待测语音信息信息存储至所述第三输出文件夹地址所对应的第三输出文件夹中。7.如权利要求1所述的方法,其特征在于,所述信息处理指令包括第四输出文件夹地址,所述方法还包括:若所述可读文本文件中的特征信息与预设阀值不相匹配,则将该可读文本文件所对应的待测语音信息存储至所述第四输出文件夹地址所对应的第四输出文件夹中。8.一种语音信息的批量筛选装置,其特征在于,包括用于执行如权利要求1-7任一项所述方法的单元。9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行如权利要求1-7中任一项所述的方法。

百度查询: 平安科技(深圳)有限公司 语音信息的批量筛选方法、装置、计算机设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。