买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于语义解析的文本确认方法、装置及终端设备_平安科技(深圳)有限公司_201811502282.X 

申请/专利权人:平安科技(深圳)有限公司

申请日:2018-12-10

公开(公告)日:2024-03-22

公开(公告)号:CN109817205B

主分类号:G10L15/18

分类号:G10L15/18;G10L25/93;G10L13/08;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2020.11.27#实质审查的生效;2019.05.28#公开

摘要:本发明适用于数据处理技术领域,提供了基于语义解析的文本确认方法、装置、终端设备以及计算机可读存储介质,包括:获取与目标语音对应的至少两个语音标注文本,并根据字数最多的语音标注文本对目标语音进行分节得到至少两段文本语音;将不同语音标注文本之间存在差异的部分文本确定为差异文本,并判断差异文本对应的差异语音是否带有清音属性;若差异语音带有清音属性,则判断差异文本与清音属性是否存在关联关系;将与清音属性存在关联关系的差异文本所对应的语音标注文本添加至标注集,将标注集中重复率最高的差异文本所对应的语音标注文本输出为确认结果。本发明基于清音属性判断语音标注文本是否正确,提升了语音标注的准确性。

主权项:1.一种基于语义解析的文本确认方法,其特征在于,包括:获取与目标语音对应的至少两个语音标注文本,并根据字数最多的所述语音标注文本对所述目标语音进行分节得到至少两段文本语音,其中,不同的所述语音标注文本由不同的标注方生成;将不同所述语音标注文本之间存在差异的部分文本确定为差异文本,将所述差异文本对应的所述文本语音确定为差异语音,并判断所述差异语音是否带有清音属性;若所述差异语音带有所述清音属性,则判断所述差异文本与所述清音属性是否存在关联关系;将与所述清音属性存在关联关系的所述差异文本所对应的所述语音标注文本添加至标注集,并确定所述标注集中重复率最高的所述差异文本,将重复率最高的所述差异文本所对应的所述语音标注文本输出为确认结果,其中,所述重复率是指所述差异文本在所述标注集中的出现次数与所述标注集中所述语音标注文本的数量之间的比例;若所述标注集内的所述语音标注文本中存在至少两个所述差异文本,则所述确定所述标注集中重复率最高的所述差异文本,将重复率最高的所述差异文本所对应的所述语音标注文本输出为确认结果,包括:获取与所述标注集中每个所述差异文本对应的预设基础值,并基于所述预设基础值对所述语音标注文本中每个所述差异文本对应的所述重复率进行加权求和,得到文本评分值,其中,不同差异文本的预设基础值根据实际应用场景自由设置;将数值最高的所述文本评分值对应的所述语音标注文本输出为所述确认结果。

全文数据:基于语义解析的文本确认方法、装置及终端设备技术领域本发明属于数据处理技术领域,尤其涉及基于语义解析的文本确认方法、装置、终端设备以及计算机可读存储介质。背景技术随着信息技术的发展,对语音信号的分析已成为现今的热门研究方向。语音分析的一个重点分支为语音批注,即根据语音信号批注出对应的文本,语音批注可通过人工批注或算法批注实现。在语音信号不清楚或批注算法不准确等因素影响下,根据语音信号批注出的文本可能存在错误,在现有技术中,对于批注出的文本尚不存在有效的确认方法,导致语音批注的准确性低,容易出现文本与语音信号不符的情况。发明内容有鉴于此,本发明实施例提供了基于语义解析的文本确认方法、装置、终端设备以及计算机可读存储介质,以解决现有技术中语音批注的准确性低的问题。本发明实施例的第一方面提供了一种基于语义解析的文本确认方法,包括:获取与目标语音对应的至少两个语音标注文本,并根据字数最多的所述语音标注文本对所述目标语音进行分节得到至少两段文本语音,其中,不同的所述语音标注文本由不同的标注方生成;将不同所述语音标注文本之间存在差异的部分文本确定为差异文本,将所述差异文本对应的所述文本语音确定为差异语音,并判断所述差异语音是否带有清音属性;若所述差异语音带有所述清音属性,则判断所述差异文本与所述清音属性是否存在关联关系;将与所述清音属性存在关联关系的所述差异文本所对应的所述语音标注文本添加至标注集,并确定所述标注集中重复率最高的所述差异文本,将重复率最高的所述差异文本所对应的所述语音标注文本输出为确认结果,其中,所述重复率是指所述差异文本在所述标注集中的出现次数与所述标注集中所述语音标注文本的数量之间的比例。本发明实施例的第二方面提供了一种基于语义解析的文本确认装置,包括:分节单元,用于获取与目标语音对应的至少两个语音标注文本,并根据字数最多的所述语音标注文本对所述目标语音进行分节得到至少两段文本语音,其中,不同的所述语音标注文本由不同的标注方生成;第一判断单元,用于将不同所述语音标注文本之间存在差异的部分文本确定为差异文本,将所述差异文本对应的所述文本语音确定为差异语音,并判断所述差异语音是否带有清音属性;第二判断单元,用于若所述差异语音带有所述清音属性,则判断所述差异文本与所述清音属性是否存在关联关系;输出单元,用于将与所述清音属性存在关联关系的所述差异文本所对应的所述语音标注文本添加至标注集,并确定所述标注集中重复率最高的所述差异文本,将重复率最高的所述差异文本所对应的所述语音标注文本输出为确认结果,其中,所述重复率是指所述差异文本在所述标注集中的出现次数与所述标注集中所述语音标注文本的数量之间的比例。本发明实施例的第三方面提供了一种终端设备,所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:获取与目标语音对应的至少两个语音标注文本,并根据字数最多的所述语音标注文本对所述目标语音进行分节得到至少两段文本语音,其中,不同的所述语音标注文本由不同的标注方生成;将不同所述语音标注文本之间存在差异的部分文本确定为差异文本,将所述差异文本对应的所述文本语音确定为差异语音,并判断所述差异语音是否带有清音属性;若所述差异语音带有所述清音属性,则判断所述差异文本与所述清音属性是否存在关联关系;将与所述清音属性存在关联关系的所述差异文本所对应的所述语音标注文本添加至标注集,并确定所述标注集中重复率最高的所述差异文本,将重复率最高的所述差异文本所对应的所述语音标注文本输出为确认结果,其中,所述重复率是指所述差异文本在所述标注集中的出现次数与所述标注集中所述语音标注文本的数量之间的比例。本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:获取与目标语音对应的至少两个语音标注文本,并根据字数最多的所述语音标注文本对所述目标语音进行分节得到至少两段文本语音,其中,不同的所述语音标注文本由不同的标注方生成;将不同所述语音标注文本之间存在差异的部分文本确定为差异文本,将所述差异文本对应的所述文本语音确定为差异语音,并判断所述差异语音是否带有清音属性;若所述差异语音带有所述清音属性,则判断所述差异文本与所述清音属性是否存在关联关系;将与所述清音属性存在关联关系的所述差异文本所对应的所述语音标注文本添加至标注集,并确定所述标注集中重复率最高的所述差异文本,将重复率最高的所述差异文本所对应的所述语音标注文本输出为确认结果,其中,所述重复率是指所述差异文本在所述标注集中的出现次数与所述标注集中所述语音标注文本的数量之间的比例。本发明实施例与现有技术相比存在的有益效果是:本发明实施例通过分析至少两个语音标注文本之间存在差异的差异文本,确定出带有清音属性的差异语音差异文本对应的部分语音所对应的语音标注文本,并进一步将其中与清音属性关联的差异文本所对应的语音标注文本添加至标注集,将标注集中重复率最高的差异文本对应的语音标注文本作为确认结果进行输出。本发明实施例通过综合比对至少两个语音标注文本,并通过清音属性来判断语音标注文本是否正确,提升了语音标注的准确性。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本发明实施例一提供的基于语义解析的文本确认方法的实现流程图;图2是本发明实施例二提供的基于语义解析的文本确认方法的实现流程图;图3是本发明实施例三提供的基于语义解析的文本确认方法的实现流程图;图4是本发明实施例四提供的基于语义解析的文本确认方法的实现流程图;图5是本发明实施例五提供的基于语义解析的文本确认方法的实现流程图;图6是本发明实施例六提供的基于语义解析的文本确认装置的结构框图;图7是本发明实施例七提供的终端设备的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。图1示出了本发明实施例提供的基于语义解析的文本确认方法的实现流程,详述如下:在S101中,获取与目标语音对应的至少两个语音标注文本,并根据字数最多的所述语音标注文本对所述目标语音进行分节得到至少两段文本语音,其中,不同的所述语音标注文本由不同的标注方生成。语音标注是通过人工或特定的语音识别模型比如隐马尔科夫模型对语音进行分析,从而标注出与语音对应的文本。由于语音可能存在发音不清晰或口音干扰等问题,无论是通过人工还是语音识别模型进行语音标注,得到的语音标注文本都可能存在错误。为了提升语音标注的准确性,在本发明实施例中,首先获取与同一个目标语音相关的至少两个语音标注文本,其中,不同的语音标注文本由不同的标注方生成,标注方是指生成语音标注文本的主体,比如标注方可为用户或第三方标注软件等。在本发明实施例中,在得到的所有语音标注文本中确定出字数最多的语音标注文本,并根据该字数最多的语音标注文本对目标语音进行分节,得到组成目标语音的至少两段文本语音,每一段文本语音都与语音标注文本中不同的字对应,其中,之所以根据字数最多的语音标注文本进行分节,是因为分节出的文本语音时长较短,且数量较多,在不存在信息缺失的情况下更利于后续分析。具体地,分节操作是将目标语音根据语音标注文本中的每个字进行分节,分节可以是平均分节,即是将目标语音的时长根据语音标注文本的字数进行等分,将等分后的每个时长对应的部分语音作为一段文本语音,比如字数最多的语音标注文本为“多吃蔬菜”,而该语音标注文本的时长为4秒,则由于语音标注文本的字数为4,则将时长进行4等分,进而将目标语音中0至第1秒、第1秒至第2秒、第2秒至第3秒和第3秒至第4秒对应的部分语音分别作为一个单独的文本语音。当然,除了平均分节之外,还可由用户或第三方软件根据其他方式对目标语音进行自由分节,生成与语音标注文本中的字对应的文本语音,本发明实施例对具体的分节方式不做限定。值得一提的是,由于对目标语音进行识别得到的语音标注文本中可能存在连词,则为了节省计算资源,可在执行分节操作时,将目标语音中与连词对应的部分语音作为一段文本语音,以上述例子进行举例,假设“蔬菜”为连词,则执行分节操作后,分别得到“多”、“吃”、“蔬菜”对应的三段文本语音,语音标注文本中的连词可基于开源的连词库进行确定。另外,若语音标注文本为英文,则根据单词数最多的语音标注文本对目标语音进行分节得到至少两段文本语音,其中每段文本语音都对应语音标注文本中不同的单词。在S102中,将不同所述语音标注文本之间存在差异的部分文本确定为差异文本,将所述差异文本对应的所述文本语音确定为差异语音,并判断所述差异语音是否带有清音属性。将得到的所有语音标注文本进行相互比对,若所有的语音标注文本都完全相同,则直接将所有语音标注文本都输出为确认结果;若不同的语音标注文本之间存在差异,则将存在差异的部分文本确定为差异文本,并将差异文本对应的文本语音确定为差异语音,具体地,由于文本语音是基于字数最多的语音标注文本进行分节得到的,故在得到差异文本后,根据差异文本相对于字数最多的语音标注文本的相对位置确定差异语音,确定出的差异语音的数量为至少一个。举例来说,语音标注文本TextA为“多吃素菜”,字数最多的语音标注文本TextB为“多吃蔬菜”,由于TextA和TextB之间的差异文本相对于字数最多的语音标注文本的相对位置为第三个字,所以将第三个字对应的文本语音作为差异语音。通常来说,声音分为浊音和清音,浊音是发音时声带振动的音,清音是发音时声带不振动的音,其中,由于浊音需要声带振动才能发出,故浊音的能量相对于清音来说较高。由于在通用语言中浊音对应的音标较多,不易于区分,故在本发明实施例中,得到差异语音后,首先判断差异语音是否带有清音属性,并根据清音属性来判断语音标注文本的准确性,具体获取差异语音的能量,如果根据差异语音的能量判断出差异语音中含有清音,则确定差异语音带有清音属性;如果根据差异语音的能量判断出差异语音中不含有清音,则确定差异语音不带有清音属性,具体内容在后文进行阐述。在S103中,若所述差异语音带有所述清音属性,则判断所述差异文本与所述清音属性是否存在关联关系。若差异语音不带有清音属性,则无法通过清音属性来判断语音标注文本的准确性,故可直接输出无法确认的提示;若差异语音带有清音属性,则进一步判断该差异语音对应的差异文本与清音属性是否存在关联关系,具体的判断方式在后文进行阐述。值得一提的是,由于差异文本是基于至少两个语音标注文本之间相互对比得到的,故差异语音对应的差异文本的数量为至少两个。举例来说,语音标注文本TextC为“wastemytime”,语音标注文本TextD为“voicemytime”,语音标注文本TextE为“vansmytime”,可见差异语音是第一个单词对应的文本语音,如果该差异语音带有清音属性,则可确定出该差异语音对应的差异文本包括“waste”、“voice”和“vans”。在S104中,将与所述清音属性存在关联关系的所述差异文本所对应的所述语音标注文本添加至标注集,并确定所述标注集中重复率最高的所述差异文本,将重复率最高的所述差异文本所对应的所述语音标注文本输出为确认结果,其中,所述重复率是指所述差异文本在所述标注集中的出现次数与所述标注集中所述语音标注文本的数量之间的比例。如果存在与清音属性存在关联关系的差异文本,则将该差异文本对应的语音标注文本添加至标注集,而对于标注集内不同的语音标注文本来说,其差异文本可能不同,故确定该标注集中重复率最高的差异文本,将重复率最高的差异文本所对应的语音标注文本输出为确认结果,以提升确认结果的准确性,其中,标注集只用于指示对特定的语音标注文本进行单独分类,而不是指某一种特定的存储格式,另外,重复率是指差异文本在标注集中的出现次数与标注集中语音标注文本的数量之间的比例。通过图1所示实施例可知,在本发明实施例中,通过获取与目标语音对应的至少两个语音标注文本,并对目标语音进行分节得到至少两段文本语音,将不同语音标注文本之间存在差异的部分文本确定为差异文本,在差异文本对应差异语音带有清音属性的情况下,将与清音属性存在关联关系的差异文本所对应的语音标注文本添加至标注集,最终将标注集中重复率最高的差异文本所对应的语音标注文本输出为确认结果。本发明实施例在存在至少两个语音标注文本时,通过清音属性进行判断并输出确认结果,提升了语音标注的准确性。图2所示,是在本发明实施例一的基础上,对判断所述差异语音是否带有清音属性的过程进行细化后得到的一种方法。本发明实施例提供了基于语义解析的文本确认方法的实现流程图,如图2所示,该文本确认方法可以包括以下步骤:在S201中,将所述差异语音按照预设的尺度时长平均拆分为至少两段子语音,并将每一段所述子语音与预设的消减系数进行乘积运算后,获取每一段所述子语音的属性衡量值,其中,所述属性衡量值用于指示所述子语音的能量高低。在目标语音为连续的语音信号的情况下,为了提升对差异语音是否带有清音属性进行判断的准确度,在本发明实施例中,将差异语音按照预设的尺度时长拆分为至少两段子语音,其中每一段子语音的时长都与尺度时长相同。具体地,考虑到语音信号在较短的时长内具有平稳性,故尺度时长优选小于40毫秒,在设定尺度时长后,从目标语音的起始位置开始,每隔一个尺度时长进行一次截取,将截取出的每一部分语音作为一个子语音,比如预设的尺度时长为30毫秒,目标语音的时长为120毫秒,则可截取出4个子语音。可选地,获取预设的防丢失时长,在已截取一个子语音后,在该子语音末尾的时间点向前移动一个防丢失时长,并按照尺度时长截取下一个子语音。在本发明实施例中,由于目标语音是连续信号,故为了防止丢失目标语音中的动态信息,预先设置防丢失时长,并按照尺度时长和防丢失时长进行对目标语音的截取,其中,设定的防丢失时长小于尺度时长。在截取完成后,后一个子语音与前一个子语音会产生重叠,且重叠区域的时长总是为防丢失时长。举例来说,尺度时长为30毫秒,防丢失时长为10毫秒,预存语音信号的时长为120毫秒,则第一个子语音的时长为目标语音的第0秒至第30毫秒,第二个子语音的时长为目标语音的第20毫秒至第50毫秒,第三个子语音的时长为目标语音的第40毫秒至第70毫秒,以此类推。通过上述方法可防止连续的子语音之间出现断层,提升截取出的子语音的连续性。在此基础上,为了增加每一个子语音的左端和右端的连续性,将每一个子语音与预设的消减系数进行乘积运算,从而对子语音的左端和右端进行消减弱化处理,该消减系数源于预设的消减空间,消减空间的公式如下:其中,ωn为消减系数,n是指子语音位于消减空间内的第n时刻,N为消减空间的宽度时长,可根据实际应用场景中的尺度时长进行自由设置,进行乘积运算的公式为:xnewn=xn·ωn,其中,xn为消减空间内的第n时刻的子语音,xnewn是乘积运算后的第n时刻的子语音。值得一提的是,在进行消减时,对于每个子语音,实质上是基于子语音构建信号曲线信号曲线所在坐标系的横轴为时刻,坐标系的竖轴可为语音幅度或其他语音信号单位,并将信号曲线通过消减空间,将信号曲线每个时刻的语音幅度或其他语音信号单位与消减空间生成的该时刻的消减系数进行乘积运算。在将每一段子语音与预设的消减系数进行乘积运算后,对于每一段子语音,可将位于该子语音中间时刻假设该子语音的起始时刻为0,则中间时刻为尺度时长2的能量值作为该子语音的属性衡量值,也可在该子语音的尺度时长内设置至少两个采样时刻,并将所有采样时刻的能量值的平均值确定为子语音对应的属性衡量值,其中,能量值优选为短时平均能量。在S202中,将落入预设的目标衡量值区间的所述属性衡量值所对应的至少两段连续的所述子语音归入子语音集,获取得到的每个所述子语音集的子语音数量。由于浊音的能量相对于清音来说较高,故预先设置第一门限值和第二门限值,并将第一门限值和第二门限值之间的区间设置为目标衡量值区间,将落入目标衡量值区间的属性衡量值所对应的至少两段连续的子语音归入子语音集。其中,第一门限值和第二门限值可根据实际应用场景中浊音与清音的能量值界定标准进行设置,第一门限值对应清音,第二门限值对应浊音,且第一门限值小于第二门限值。在设置完成后,将高于第二门限值的属性衡量值所对应的子语音确定为浊音,将低于第一门限值的属性衡量值所对应的子语音确定为空白音由于能量过低,不将该子语音视为人发出的语音,将位于第一门限值与第二门限值之间的属性衡量值所对应的子语音确定为清音。上述的归入操作即是将处于连续状态的至少两个为清音的子语音归入子语音集,由于为清音的至少两个子语音之间可能并不为连续状态,故在完成归入操作后,得到的子语音集的数量不定,即可能为零,也可能为至少一个。若在归入操作完成后,未得到子语音集,则直接输出无法确认的提示;若在归入操作完成后,得到至少一个子语音集,则获取每一个子语音集中的子语音数量。在S203中,若存在超过预设数量的所述子语音数量,则确定所述差异语音带有所述清音属性。由于尺度时长较短,单个子语音对于整个差异语音来说不具有代表性,故在为清音的且为连续的子语音超过一定数量后,才认定差异语音带有清音属性,具体若存在超过预设数量的子语音数量,则确定差异语音带有清音属性;若不存在超过预设数量的子语音数量,则确定差异语音不带有清音属性。预设数量可根据按照尺度时长拆分出的子语音总数量进行确定,优选地,设置的预设数量的数值大于或等于子语音总数量的数值的一半,比如拆分出的子语音总数量为30个,则可设置预设数量为子语音总数量的70%,即21个。通过图2所示实施例可知,在本发明实施例中,将差异语音按照预设的尺度时长平均拆分为至少两段子语音,并将每一段子语音与预设的消减系数进行乘积运算后,获取每一段子语音的属性衡量值,然后将落入预设的目标衡量值区间的属性衡量值所对应的至少两段连续的子语音归入子语音集,获取得到的每个子语音集的子语音数量,若存在超过预设数量的子语音数量,则确定差异语音带有所述清音属性。本发明实施例通过计算属性衡量值的方式来判断子语音是否为清音,提升了对差异语音是否带有清音属性进行判断的准确性。图3所示,是在本发明实施例二的基础上,对判断差异文本与清音属性是否存在关联关系的过程进行细化后得到的一种方法。本发明实施例提供了基于语义解析的文本确认方法的实现流程图,如图3所示,该文本确认方法可以包括以下步骤:在S301中,将所述差异文本与预设的目标字库中的所有目标字进行比对,其中,所述目标字是带有所述清音属性对应的音标的字。由于清音属性在语言中往往对应特定的音标,故在判断差异文本与清音属性是否存在关联关系时,可将差异文本与预设的目标字库中的所有目标字进行比对。其中,目标字是带有清音属性对应的音标的字或单词。以英文举例,清音属性在英文中对应的音标包括p、t、k、f、θ、s、W、t∫、ts、tr和h,故可预先将包含上述任一音标的所有英文单词添加至目标字库。在S302中,若所述差异文本中含有所述目标字,则确定所述差异文本与所述清音属性存在关联关系。如果差异文本中含有目标字库中的任一个目标字,则确定差异文本与清音属性存在关联关系;如果差异文本中不含有目标字库中的目标字,则确定差异文本与清音属性不存在关联关系。除此之外,也可直接分析出差异文本中每一个字或单词的音标,并判断分析出的至少一个音标中是否含有清音属性对应的音标,如果含有,则确定差异文本与清音属性存在关联关系;如果不含有,则确定差异文本与清音属性不存在关联关系。通过图3所示实施例可知,在本发明实施例中,通过分析差异文本是否含有目标字,并在差异文本含有目标字时,确定差异文本与清音属性存在关联关系,提升了对关联关系进行判断的客观性和准确性。图4所示,是在本发明实施例三的基础上,对若差异文本中含有目标字,则确定差异文本与清音属性存在关联关系的过程进行细化后得到的一种方法。本发明实施例提供了基于语义解析的文本确认方法的实现流程图,如图4所示,该文本确认方法可以包括以下步骤:在S401中,计算所述差异文本中所述清音属性对应的音标相对于所述差异文本中所有音标的音标占比区间,并根据所述音标占比区间以及所述差异语音的时长计算第一发音区间,其中,所述第一发音区间是预期的所述清音属性对应的音标在所述差异语音中所占的发音时段。通常来说,一个字或单词中各个音标被说出的速度是匀速的,故在本发明实施例中,在确定出差异文本中含有目标字后,计算差异文本中清音属性对应的音标相对于差异文本中所有音标的音标占比区间,该音标占比区间是清音属性对应的音标在差异文本的所有音标中所占的区域。举例来说,差异文本TextF“waste”在美式读音中的所有音标为[west],但差异文本TextF中清音属性对应的音标仅为t,由于清音属性对应的音标在所有音标中占据了后四分之一的区域,故可得出TextF对应的音标占比区间为[75%,100%]。然后,将音标占比区间的两个端点分别与差异语音的时长进行乘积运算,并将乘积运算的结果组合为第一发音区间,该第一发音区间是预期的清音属性对应的音标在差异语音中所占的发音时段。以上述差异文本TextF的例子进行举例,假设差异语音的时长为2秒,则可得到第一发音区间为[1.5秒,2秒]。在S402中,确定超过所述预设数量的所述子语音数量所对应的所述子语音集,并确定所述子语音集中的所有所述子语音在所述差异语音中所占的第二发音区间。在确定预期的清音属性对应的音标在差异语音中所占的发音时段的同时,确定现实中清音属性对应的音标在差异语音中所占的发音时段,具体地,确定超过预设数量的子语音数量所对应的子语音集,如果确定出的子语音集仅为一个,则将该子语音集中所有子语音在差异语音中所占的发音时段作为第二发音区间;如果确定出的子语音集为一个以上,则将所有子语音集中所有子语音在差异语音中所占的发音时段作为第二发音区间。在S403中,若所述第一发音区间与所述第二发音区间之间的重合度超过预设的重合度阈值,则确定所述差异文本与所述清音属性存在关联关系。在得到第一发音区间和第二发音区间后,计算第一发音区间与第二发音区间之间的交集,再计算第一发音区间与第二发音区间之间的并集,将该交集与该并集之间的比值作为第一发音区间与第二发音区间之间的重合度。举例来说,第一发音区间为[1.5秒,2秒],第二发音区间为[1.75秒,2秒],则重合度为2-1.752-1.5=50%。对于计算出的重合度,判断其是否超过预设的重合度阈值,若重合度超过重合度阈值,证明现实中清音属性对应的音标的发音时段符合预期,则确定差异文本与清音属性存在关联关系;若重合度未超过重合度阈值,则确定差异文本与清音属性不存在关联关系,其中,重合度阈值可根据实际应用场景进行设置,比如设置为50%。通过图4所示实施例可知,在本发明实施例中,计算差异文本中清音属性对应的音标相对于差异文本中所有音标的音标占比区间,并根据音标占比区间以及差异语音的时长计算第一发音区间,同时,确定超过预设数量的子语音数量所对应的子语音集,确定子语音集中的所有子语音在差异语音中所占的第二发音区间,若第一发音区间与第二发音区间之间的重合度超过预设的重合度阈值,则确定差异文本与清音属性存在关联关系,本发明实施例将预期的发音时段与现实中的发音时段进行比较,进一步提升了对关联关系进行判断的准确性。图5所示,是在本发明实施例一的基础上,并在标注集内的语音标注文本中存在至少两个差异文本的基础上,对确定标注集中重复率最高的差异文本,将重复率最高的差异文本所对应的语音标注文本输出为确认结果的过程进行细化后得到的一种方法。本发明实施例提供了基于语义解析的文本确认方法的实现流程图,如图5所示,该文本确认方法可以包括以下步骤:在S501中,获取与所述标注集中每个所述差异文本对应的预设基础值,并基于所述预设基础值对所述语音标注文本中每个所述差异文本对应的所述重复率进行加权求和,得到文本评分值。在本发明实施例中,若标注集内的语音标注文本中包括至少两个差异文本,则获取标注集中每个差异文本对应的预设基础值,并对于标注集内的每个语音标注文本,将该语音标注文本中每个差异文本对应的预设基础值作为该差异文本对应的重复率的权值,从而进行加权求和,得到该语音标注文本的文本评分值。其中,不同差异文本的预设基础值可以相同,也可不同,根据实际应用场景进行自由设置。举例来说,标注集内的包括语音标注文本TextG、TextH和TextI,TextG为“wastemytime”,对应的差异文本为“waste”和“my”,TextH为“wasteminetime”,对应的差异文本为“waste”和“mine”,TextI为“vansmytime”,对应的差异文本为“vans”和“my”,假设“waste”、“my”、“mine”和“vans”的预设基础值都为1,则可得到TextG的文本评分值为1*23+1*23=43,TextH的文本评分值为1*23+1*13=1,TextI的文本评分值为1*13+1*23=1。可选地,获取语音标注文本对应的标注方的错误标注记录,该错误标注记录中包括有标注方已识别出错的文本;若错误标注记录含有语音标注文本中的差异文本,则将该差异文本对应的预设基础值设置为第一预设值;若错误标注记录未含有语音标注文本中的差异文本,则将该差异文本对应的预设基础值设置为第二预设值,其中,第二预设值大于第一预设值。在本发明实施例中,由于不同的语音标注文本是由不同的标注方生成的,故可获取标注集中的语音标注文本对应的标注方的错误标注记录,该错误标注记录中包括有该标注方已识别出错的文本,其中,已识别出错的文本可在存在已知文本以及对应的已知语音的情况下,通过标注方对该已知语音进行识别,并将识别出的结果与已知文本进行比对得到。若某个标注方的错误标注记录中含有该标注方对应的语音标注文本中的差异文本,则将该差异文本对应的预设基础值设置为第一预设值;若某个标注方的错误标注记录中未含有该标注方对应的语音标注文本中的差异文本,则将该差异文本对应的预设基础值设置为第二预设值,其中,第二预设值的数值大于第一预设值。上述方法以标注方为对象,对已识别出错的差异文本进行了降权,提升了计算文本评分值的准确性。在S502中,将数值最高的所述文本评分值对应的所述语音标注文本输出为所述确认结果。在计算出标注集中每个语音标注文本对应的文本评分值后,将其中数值最高的文本评分值对应的语音标注文本输出为确认结果。通过图5所示实施例可知,在本发明实施例中,获取与标注集中每个差异文本对应的预设基础值,并基于预设基础值对语音标注文本中每个差异文本对应的重复率进行加权求和得到文本评分值,然后将其中数值最高的文本评分值对应的语音标注文本输出为确认结果,本发明实施例通过计算文本评分值,在一个语音标注文本存在至少两个差异文本的情况下,提升了对语音标注文本进行确认的准确性。应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。对应于上文实施例所述的基于语义解析的文本确认方法,图6示出了本发明实施例提供的基于语义解析的文本确认装置的结构框图,参照图6,该文本确认装置包括:分节单元61,用于获取与目标语音对应的至少两个语音标注文本,并根据字数最多的所述语音标注文本对所述目标语音进行分节得到至少两段文本语音,其中,不同的所述语音标注文本由不同的标注方生成;第一判断单元62,用于将不同所述语音标注文本之间存在差异的部分文本确定为差异文本,将所述差异文本对应的所述文本语音确定为差异语音,并判断所述差异语音是否带有清音属性;第二判断单元63,用于若所述差异语音带有所述清音属性,则判断所述差异文本与所述清音属性是否存在关联关系;输出单元64,用于将与所述清音属性存在关联关系的所述差异文本所对应的所述语音标注文本添加至标注集,并确定所述标注集中重复率最高的所述差异文本,将重复率最高的所述差异文本所对应的所述语音标注文本输出为确认结果,其中,所述重复率是指所述差异文本在所述标注集中的出现次数与所述标注集中所述语音标注文本的数量之间的比例。可选地,第一判断单元62包括:拆分单元,用于将所述差异语音按照预设的尺度时长平均拆分为至少两段子语音,并将每一段所述子语音与预设的消减系数进行乘积运算后,获取每一段所述子语音的属性衡量值,其中,所述属性衡量值用于指示所述子语音的能量高低;归入单元,用于将落入预设的目标衡量值区间的所述属性衡量值所对应的至少两段连续的所述子语音归入子语音集,获取得到的每个所述子语音集的子语音数量;确定单元,用于若存在超过预设数量的所述子语音数量,则确定所述差异语音带有所述清音属性。可选地,第二判断单元63包括:比对单元,用于将所述差异文本与预设的目标字库中的所有目标字进行比对,其中,所述目标字是带有所述清音属性对应的音标的字;确定关联单元,用于若所述差异文本中含有所述目标字,则确定所述差异文本与所述清音属性存在关联关系。可选地,确定关联单元包括:第一区间计算单元,用于计算所述差异文本中所述清音属性对应的音标相对于所述差异文本中所有音标的音标占比区间,并根据所述音标占比区间以及所述差异语音的时长计算第一发音区间,其中,所述第一发音区间是预期的所述清音属性对应的音标在所述差异语音中所占的发音时段;第二区间计算单元,用于确定超过所述预设数量的所述子语音数量所对应的所述子语音集,并确定所述子语音集中的所有所述子语音在所述差异语音中所占的第二发音区间;确定关联子单元,用于若所述第一发音区间与所述第二发音区间之间的重合度超过预设的重合度阈值,则确定所述差异文本与所述清音属性存在关联关系。可选地,若标注集内的语音标注文本中存在至少两个差异文本,输出单元64包括:加权单元,用于获取与所述标注集中每个所述差异文本对应的预设基础值,并基于所述预设基础值对所述语音标注文本中每个所述差异文本对应的所述重复率进行加权求和,得到文本评分值;输出子单元,用于将数值最高的所述文本评分值对应的所述语音标注文本输出为所述确认结果。可选地,加权单元包括:记录获取单元,用于获取所述语音标注文本对应的所述标注方的错误标注记录,所述错误标注记录中包括有所述标注方已识别出错的文本;第一设置单元,用于若所述错误标注记录含有所述语音标注文本中的所述差异文本,则将所述差异文本对应的所述预设基础值设置为第一预设值;第二设置单元,用于若所述错误标注记录未含有所述语音标注文本中的所述差异文本,则将所述差异文本对应的所述预设基础值设置为第二预设值,其中,所述第二预设值大于所述第一预设值。因此,本发明实施例提供的基于语义解析的文本确认装置基于清音属性判断语音标注文本是否正确,提升了语音标注的准确性。图7是本发明实施例提供的终端设备的示意图。如图7所示,该实施例的终端设备7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72,例如基于语义解析的文本确认程序。所述处理器70执行所述计算机程序72时实现上述各个基于语义解析的文本确认方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,所述处理器70执行所述计算机程序72时实现上述各基于语义解析的文本确认装置实施例中各单元的功能,例如图6所示单元61至64的功能。示例性的,所述计算机程序72可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器71中,并由所述处理器70执行,以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。例如,所述计算机程序72可以被分割成分节单元、第一判断单元、第二判断单元以及输出单元,各单元具体功能如下:分节单元,用于获取与目标语音对应的至少两个语音标注文本,并根据字数最多的所述语音标注文本对所述目标语音进行分节得到至少两段文本语音,其中,不同的所述语音标注文本由不同的标注方生成;第一判断单元,用于将不同所述语音标注文本之间存在差异的部分文本确定为差异文本,将所述差异文本对应的所述文本语音确定为差异语音,并判断所述差异语音是否带有清音属性;第二判断单元,用于若所述差异语音带有所述清音属性,则判断所述差异文本与所述清音属性是否存在关联关系;输出单元,用于将与所述清音属性存在关联关系的所述差异文本所对应的所述语音标注文本添加至标注集,并确定所述标注集中重复率最高的所述差异文本,将重复率最高的所述差异文本所对应的所述语音标注文本输出为确认结果,其中,所述重复率是指所述差异文本在所述标注集中的出现次数与所述标注集中所述语音标注文本的数量之间的比例。所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是终端设备7的示例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。所称处理器70可以是中央处理单元CentralProcessingUnit,CPU,还可以是其他通用处理器、数字信号处理器DigitalSignalProcessor,DSP、专用集成电路ApplicationSpecificIntegratedCircuit,ASIC、现成可编程门阵列Field-ProgrammableGateArray,FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。所述存储器71可以是所述终端设备7的内部存储单元,例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡SmartMediaCard,SMC,安全数字SecureDigital,SD卡,闪存卡FlashCard等。进一步地,所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将所述终端设备的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。在本发明所提供的实施例中,应该理解到,所揭露的终端设备和方法,可以通过其它的方式实现。例如,以上所描述的终端设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器Read-OnlyMemory,ROM、随机存取存储器RandomAccessMemory,RAM、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

权利要求:1.一种基于语义解析的文本确认方法,其特征在于,包括:获取与目标语音对应的至少两个语音标注文本,并根据字数最多的所述语音标注文本对所述目标语音进行分节得到至少两段文本语音,其中,不同的所述语音标注文本由不同的标注方生成;将不同所述语音标注文本之间存在差异的部分文本确定为差异文本,将所述差异文本对应的所述文本语音确定为差异语音,并判断所述差异语音是否带有清音属性;若所述差异语音带有所述清音属性,则判断所述差异文本与所述清音属性是否存在关联关系;将与所述清音属性存在关联关系的所述差异文本所对应的所述语音标注文本添加至标注集,并确定所述标注集中重复率最高的所述差异文本,将重复率最高的所述差异文本所对应的所述语音标注文本输出为确认结果,其中,所述重复率是指所述差异文本在所述标注集中的出现次数与所述标注集中所述语音标注文本的数量之间的比例。2.如权利要求1所述的文本确认方法,其特征在于,所述判断所述差异语音是否带有清音属性,包括:将所述差异语音按照预设的尺度时长平均拆分为至少两段子语音,并将每一段所述子语音与预设的消减系数进行乘积运算后,获取每一段所述子语音的属性衡量值,其中,所述属性衡量值用于指示所述子语音的能量高低;将落入预设的目标衡量值区间的所述属性衡量值所对应的至少两段连续的所述子语音归入子语音集,获取得到的每个所述子语音集的子语音数量;若存在超过预设数量的所述子语音数量,则确定所述差异语音带有所述清音属性。3.如权利要求2所述的文本确认方法,其特征在于,判断所述差异文本与所述清音属性是否存在关联关系,包括:将所述差异文本与预设的目标字库中的所有目标字进行比对,其中,所述目标字是带有所述清音属性对应的音标的字;若所述差异文本中含有所述目标字,则确定所述差异文本与所述清音属性存在关联关系。4.如权利要求3所述的文本确认方法,其特征在于,所述若所述差异文本中含有所述目标字,则确定所述差异文本与所述清音属性存在关联关系,包括:计算所述差异文本中所述清音属性对应的音标相对于所述差异文本中所有音标的音标占比区间,并根据所述音标占比区间以及所述差异语音的时长计算第一发音区间,其中,所述第一发音区间是预期的所述清音属性对应的音标在所述差异语音中所占的发音时段;确定超过所述预设数量的所述子语音数量所对应的所述子语音集,并确定所述子语音集中的所有所述子语音在所述差异语音中所占的第二发音区间;若所述第一发音区间与所述第二发音区间之间的重合度超过预设的重合度阈值,则确定所述差异文本与所述清音属性存在关联关系。5.如权利要求1所述的文本确认方法,其特征在于,若所述标注集内的所述语音标注文本中存在至少两个所述差异文本,则所述确定所述标注集中重复率最高的所述差异文本,将重复率最高的所述差异文本所对应的所述语音标注文本输出为确认结果,包括:获取与所述标注集中每个所述差异文本对应的预设基础值,并基于所述预设基础值对所述语音标注文本中每个所述差异文本对应的所述重复率进行加权求和,得到文本评分值;将数值最高的所述文本评分值对应的所述语音标注文本输出为所述确认结果。6.如权利要求5所述的文本确认方法,其特征在于,所述获取所述语音标注文本中与每个所述差异文本对应的预设基础值,包括:获取所述语音标注文本对应的所述标注方的错误标注记录,所述错误标注记录中包括有所述标注方已识别出错的文本;若所述错误标注记录含有所述语音标注文本中的所述差异文本,则将所述差异文本对应的所述预设基础值设置为第一预设值;若所述错误标注记录未含有所述语音标注文本中的所述差异文本,则将所述差异文本对应的所述预设基础值设置为第二预设值,其中,所述第二预设值大于所述第一预设值。7.一种基于语义解析的文本确认装置,其特征在于,包括:分节单元,用于获取与目标语音对应的至少两个语音标注文本,并根据字数最多的所述语音标注文本对所述目标语音进行分节得到至少两段文本语音,其中,不同的所述语音标注文本由不同的标注方生成;第一判断单元,用于将不同所述语音标注文本之间存在差异的部分文本确定为差异文本,将所述差异文本对应的所述文本语音确定为差异语音,并判断所述差异语音是否带有清音属性;第二判断单元,用于若所述差异语音带有所述清音属性,则判断所述差异文本与所述清音属性是否存在关联关系;输出单元,用于将与所述清音属性存在关联关系的所述差异文本所对应的所述语音标注文本添加至标注集,并确定所述标注集中重复率最高的所述差异文本,将重复率最高的所述差异文本所对应的所述语音标注文本输出为确认结果,其中,所述重复率是指所述差异文本在所述标注集中的出现次数与所述标注集中所述语音标注文本的数量之间的比例。8.一种终端设备,其特征在于,所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:获取与目标语音对应的至少两个语音标注文本,并根据字数最多的所述语音标注文本对所述目标语音进行分节得到至少两段文本语音,其中,不同的所述语音标注文本由不同的标注方生成;将不同所述语音标注文本之间存在差异的部分文本确定为差异文本,将所述差异文本对应的所述文本语音确定为差异语音,并判断所述差异语音是否带有清音属性;若所述差异语音带有所述清音属性,则判断所述差异文本与所述清音属性是否存在关联关系;将与所述清音属性存在关联关系的所述差异文本所对应的所述语音标注文本添加至标注集,并确定所述标注集中重复率最高的所述差异文本,将重复率最高的所述差异文本所对应的所述语音标注文本输出为确认结果,其中,所述重复率是指所述差异文本在所述标注集中的出现次数与所述标注集中所述语音标注文本的数量之间的比例。9.如权利要求8所述的终端设备,其特征在于,所述判断所述差异语音是否带有清音属性,包括:将所述差异语音按照预设的尺度时长平均拆分为至少两段子语音,并将每一段所述子语音与预设的消减系数进行乘积运算后,获取每一段所述子语音的属性衡量值,其中,所述属性衡量值用于指示所述子语音的能量高低;将落入预设的目标衡量值区间的所述属性衡量值所对应的至少两段连续的所述子语音归入子语音集,获取得到的每个所述子语音集的子语音数量;若存在超过预设数量的所述子语音数量,则确定所述差异语音带有所述清音属性。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文本确认方法的步骤。

百度查询: 平安科技(深圳)有限公司 基于语义解析的文本确认方法、装置及终端设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。