申请/专利权人:粤港澳大湾区数字经济研究院(福田)
申请日:2022-09-16
公开(公告)日:2023-07-18
公开(公告)号:CN115587589B
主分类号:G06F40/289
分类号:G06F40/289;G06F40/242;G06F16/31;G06N3/048;G06N3/0455;G06N3/08
优先权:
专利状态码:有效-授权
法律状态:2023.07.18#授权;2023.01.31#实质审查的生效;2023.01.10#公开
摘要:本发明公开了针对多语种的语句困惑度获取方法、系统及相关设备,其中,上述方法包括:获取待计算语句,其中,待计算语句所对应的语种是预设的多种语种中的至少一种;根据已训练的分词模型和多语种词典获取待计算语句对应的基元序列;在基元序列的首位添加目标语种令牌以获得目标序列,其中,目标语种令牌是多语种词典中与待计算语句的语种所对应的语种标识的位置索引;根据目标序列,通过已训练的多语种困惑度计算模型获取待计算语句对应的语句困惑度,其中,已训练的多语种困惑度计算模型根据预设的多种语种对应的多语种语料集训练获得。本发明有利于在多语种场景下提高获取的语句困惑度的准确性。
主权项:1.一种针对多语种的语句困惑度获取方法,其特征在于,所述针对多语种的语句困惑度获取方法包括:获取待计算语句,其中,所述待计算语句所对应的语种是预设的多种语种中的至少一种;根据已训练的分词模型和多语种词典获取所述待计算语句对应的基元序列,其中,所述基元序列中的各个元素分别与所述多语种词典中一个位置索引所指示的值相同;在所述基元序列的首位添加目标语种令牌以获得目标序列,其中,所述目标语种令牌是所述多语种词典中与所述待计算语句的语种所对应的语种标识的位置索引;根据所述目标序列,通过已训练的多语种困惑度计算模型获取所述待计算语句对应的语句困惑度,其中,所述已训练的多语种困惑度计算模型根据所述预设的多种语种对应的多语种语料集训练获得。
全文数据:
权利要求:
百度查询: 粤港澳大湾区数字经济研究院(福田) 针对多语种的语句困惑度获取方法、系统及相关设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。