首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】文本处理方法、装置、设备和存储介质_北京嘀嘀无限科技发展有限公司_202010414349.5 

申请/专利权人:北京嘀嘀无限科技发展有限公司

申请日:2020-05-15

公开(公告)日:2024-05-17

公开(公告)号:CN111832312B

主分类号:G06F40/30

分类号:G06F40/30;G06F16/35;G06F18/22;G06N3/0455;G06N3/0442;G06N3/0895;G06N3/09

优先权:

专利状态码:有效-授权

法律状态:2024.05.17#授权;2020.11.13#实质审查的生效;2020.10.27#公开

摘要:本公开涉及一种文本处理方法、装置、设备和存储介质。在此描述的方法包括从第一文本集选择锚文本以及针对锚文本的正类文本,正类文本被分类到与锚文本相同的语义类别。该方法还包括从第二文本集选择针对锚文本的负类文本,负类文本被分类到与锚文本不同的语义类别。利用锚文本、正类文本和负类文本并且根据训练目标来训练用于生成文本向量化表示的模型,训练目标是要使模型为锚文本和正类文本生成的向量化表示对之间的第一差异小于为锚文本和负类文本生成的向量化表示对之间的第二差异。基于这样的训练目标得到的模型使得文本的向量化表示在语义区分上更准确。

主权项:1.一种文本处理方法,包括:从第一文本集选择锚文本以及针对所述锚文本的正类文本,所述正类文本被分类到与所述锚文本相同的语义类别;从第二文本集选择针对所述锚文本的负类文本,所述负类文本被分类到与所述锚文本不同的语义类别;以及利用所述锚文本、所述正类文本和所述负类文本并且根据训练目标,来训练用于生成文本向量化表示的模型,所述训练目标是要使所述模型为所述锚文本和所述正类文本生成的向量化表示对之间的第一差异小于为所述锚文本和所述负类文本生成的向量化表示对之间的第二差异;其中选择所述锚文本和所述正类文本包括:从所述第一文本集选择如下文本作为所述正类文本,使所选文本与所述锚文本之间的语法结构差异大于所述第一文本集中的至少一个其他文本与所述锚文本之间的语法结构差异;选择所述负类文本包括:从所述第二文本集选择如下文本作为所述负类文本,使所选文本与所述锚文本之间的语法结构差异小于所述第二文本集中的至少一个其他文本与所述锚文本之间的语法结构差异。

全文数据:

权利要求:

百度查询: 北京嘀嘀无限科技发展有限公司 文本处理方法、装置、设备和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术