买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于聚类和对比学习的中文问句文本表示学习的方法_之江实验室_202211480390.8 

申请/专利权人:之江实验室

申请日:2022-11-23

公开(公告)日:2024-02-20

公开(公告)号:CN115906835B

主分类号:G06F40/289

分类号:G06F40/289;G06F40/30;G06F40/216;G06F18/23;G06F18/22

优先权:

专利状态码:有效-授权

法律状态:2024.02.20#授权;2023.04.21#实质审查的生效;2023.04.04#公开

摘要:本发明公开一种基于聚类和对比学习的中文问句文本表示学习的方法,该方法先对中文问句语料进行清洗,然后进行聚类,将字面相似的样本划分在相同的子集中;按顺序选定子集并按批次抽取问句,将不同批次问句按顺序输入SimCLR对比学习框架中,并生成与每个问句对应的语义相似问句表示,之后使用对比损失函数拉近问句与语义相似问句之间的距离,并扩大该问句与同批次其他问句之间的距离,得到训练好的SimCLR对比学习模型;最后将新的中文问句语料也进行相同的清洗和聚类,并将聚类后的子集按批次输入训练好的SimCLR对比学习模型,得到分类后的中文问句语料,实现中文问句语料的自动打标。本发明有效提升了模型对问句文本之间差异的辨析性能。

主权项:1.一种基于聚类和对比学习的中文问句文本表示学习的方法,其特征在于,包括以下步骤:1对大批量的中文问句语料进行清洗,生成清洗后的问句语料;2使用聚类的方法将清洗后的问句语料中字面相似的样本划分在相同的子集中{s1,s2,s3…};所述步骤2包含以下子步骤:2.1使用分词算法对大批量的中文问句语料中的每个问句进行分词处理,生成每个问句的词序列,使用停用词词表过滤切分后的每个问句的词序列,若词序列出现在该停用词词表中,则删除该词,若不出现,则保留;2.2统计词频并删除词频低于等于2的词,并依据词频生成词表文件Vocab{w1,w2,w3…};遍历大批量的中文问句语料中的每个问句的词序列,若该词没有出现在词表文件Vocab{w1,w2,w3…}中,则删除该词,若存在则保留生成每个问句新的词序列Tj{tj1,tj2,tj3…};2.3使用改进的指数TF-IDF算法对每个问句的词序列进行向量化,计算公式如下: 式中,ExpTFIDFi,j为改进的TF-IDF指数,ni,j表示词序列中第i个词在词序列tj中出现的次数,∑knk,j表示词序列tj中所有词出现的次数之和,S表示语料库中所有词序列,|S|表示词序列的总数;|{j:fi∈dj}|表示语料库中包含词fi的词序列的数量,lenfi表示词fi的词长;2.4对向量化后的问句进行聚类,将大批量的中文问句语料中字面相似的样本划分在相同的子集中{s1,s2,s3…},保证一半以上的子集中问句的数量大于SimCLR对比学习模型每批输入问句样本的数量的2倍;3打乱子集的顺序,按照打乱后的顺序选定子集,再打乱选定子集中中文问句的顺序,并按批次抽取固定数量的问句样本Q{q1,q2,q3…},将不同批次的问句按顺序输入SimCLR对比学习模型中,并生成与每个问句对应的语义相似问句Q′{q′1,q′2,q′3…};之后使用对比损失函数对SimCLR对比学习模型进行训练,拉近问句与语义相似问句之间的距离,并扩大该问句与同批次其他问句之间的距离,得到训练好的SimCLR对比学习模型;4将新的中文问句语料重复步骤1和2,然后将聚类后的子集按批次输入训练好的SimCLR对比学习模型,得到分类后的中文问句语料,实现中文问句语料的自动打标。

全文数据:

权利要求:

百度查询: 之江实验室 一种基于聚类和对比学习的中文问句文本表示学习的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。