申请/专利权人:中国移动通信集团设计院有限公司;中国移动通信集团有限公司
申请日:2022-09-14
公开(公告)日:2024-03-22
公开(公告)号:CN117744623A
主分类号:G06F40/194
分类号:G06F40/194;G06F18/22
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.09#实质审查的生效;2024.03.22#公开
摘要:本发明实施例涉及自然语言处理技术领域,公开了一种文本相似度计算方法,该方法包括:计算待测文本中待测句子和对比文本中对比句子的字面相似度;计算待测句子中各个待测单词在待测文本中的待测单词权重,以及对比句子中各个对比单词在对比文本中的对比单词权重;计算待测单词与所述对比单词的词义相似度、词性相似度及语境相似度;根据字面相似度、待测单词权重、对比单词权重、语义相似度、词性相似度、语境相似度、待测句子长度及对比句子长度计算得到待测句子与对比句子的句子相似度。通过上述方式,本发明实施例实现了用多维度特征综合计算文本相似度,避免文本相似度受某个维度特征影响较大,提升了文本相似度计算的准确率。
主权项:1.一种文本相似度计算方法,其特征在于,所述方法包括:计算待测文本中待测句子和对比文本中对比句子的字面相似度;计算所述待测句子中各个待测单词在所述待测文本中的待测单词权重,以及所述对比句子中各个对比单词在所述对比文本中的对比单词权重;计算所述待测单词与所述对比单词的词义相似度、词性相似度及语境相似度;根据所述字面相似度、所述待测单词权重、所述对比单词权重、所述语义相似度、所述词性相似度、所述语境相似度、待测句子长度及对比句子长度计算得到所述待测句子与所述对比句子的句子相似度。
全文数据:
权利要求:
百度查询: 中国移动通信集团设计院有限公司;中国移动通信集团有限公司 文本相似度计算方法、装置、设备及计算机可读存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。