申请/专利权人:腾讯科技(深圳)有限公司
申请日:2022-05-25
公开(公告)日:2024-04-12
公开(公告)号:CN115114915B
主分类号:G06F40/289
分类号:G06F40/289;G06F40/30;G06F40/242;G06F40/216;G06F40/284
优先权:
专利状态码:有效-授权
法律状态:2024.04.12#授权;2022.10.18#实质审查的生效;2022.09.27#公开
摘要:本申请公开了短语识别方法、装置、设备和介质,涉及计算机技术领域,具体涉及自然语言处理技术领域。该方法包括:确定获取的待识别语句中的候选短语;候选短语为待识别语句的短语中短语构成率大于预设阈值的短语;确定候选短语的字特征向量、词特征向量以及短语特征向量;字特征向量用于表征候选短语中字的语义,词特征向量用于表征候选短语中词的语义,短语特征向量用于表征候选短语的语义;对每一候选字的字特征向量、候选字对应的词特征向量以及候选字对应的短语特征向量进行融合处理,获得候选字的融合特征向量;根据每一候选字的融合特征向量将候选字填充至目标短语,生成待识别语句的短语识别结果。能够提高对语句的短语识别精度。
主权项:1.一种短语识别方法,其特征在于,包括:获取待识别语句,确定所述待识别语句中的候选短语;所述候选短语为所述待识别语句的短语中短语构成率大于预设阈值的短语;所述短语构成率是子串构成短语的概率,所述短语构成率根据所述子串中的字段信息、与所述子串相关的点击信息确定;所述子串的确定方法包括:获取所述待识别语句的分词结果;所述分词结果中包含至少一个分词;基于所述分词结果中的分词,确定所述待识别语句的至少一个子串;每一子串至少包含所述待识别语句一个字;确定所述候选短语的字特征向量、词特征向量以及短语特征向量;所述字特征向量用于表征所述候选短语中的字的语义,所述词特征向量用于表征所述候选短语中的词的语义,所述短语特征向量用于表征所述候选短语的语义;针对所述候选短语中的每一候选字,对所述候选字的字特征向量、所述候选字对应的词特征向量以及所述候选字对应的短语特征向量进行融合处理,获得所述候选字的融合特征向量;针对每一所述候选字,根据所述候选字的融合特征向量将所述候选字填充至目标短语,生成所述待识别语句的短语识别结果。
全文数据:
权利要求:
百度查询: 腾讯科技(深圳)有限公司 短语识别方法、装置、设备和介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。