【发明授权】一种基于聚类和对比学习的中文问句文本表示学习的方法_之江实验室_202211480390.8

导航：龙图腾网> 最新专利技术> 一种基于聚类和对比学习的中文问句文本表示学习的方法_之江实验室_202211480390.8

申请/专利权人：之江实验室

申请日：2022-11-23

公开（公告）日：2024-02-20

公开（公告）号：CN115906835B

主分类号：G06F40/289

分类号：G06F40/289;G06F40/30;G06F40/216;G06F18/23;G06F18/22

优先权：

专利状态码：有效-授权

法律状态：2024.02.20#授权;2023.04.21#实质审查的生效;2023.04.04#公开

摘要：本发明公开一种基于聚类和对比学习的中文问句文本表示学习的方法，该方法先对中文问句语料进行清洗，然后进行聚类，将字面相似的样本划分在相同的子集中；按顺序选定子集并按批次抽取问句，将不同批次问句按顺序输入SimCLR对比学习框架中，并生成与每个问句对应的语义相似问句表示，之后使用对比损失函数拉近问句与语义相似问句之间的距离，并扩大该问句与同批次其他问句之间的距离，得到训练好的SimCLR对比学习模型；最后将新的中文问句语料也进行相同的清洗和聚类，并将聚类后的子集按批次输入训练好的SimCLR对比学习模型，得到分类后的中文问句语料，实现中文问句语料的自动打标。本发明有效提升了模型对问句文本之间差异的辨析性能。

主权项：1.一种基于聚类和对比学习的中文问句文本表示学习的方法，其特征在于，包括以下步骤：1对大批量的中文问句语料进行清洗，生成清洗后的问句语料；2使用聚类的方法将清洗后的问句语料中字面相似的样本划分在相同的子集中{s1,s2,s3…}；所述步骤2包含以下子步骤：2.1使用分词算法对大批量的中文问句语料中的每个问句进行分词处理，生成每个问句的词序列，使用停用词词表过滤切分后的每个问句的词序列，若词序列出现在该停用词词表中，则删除该词，若不出现，则保留；2.2统计词频并删除词频低于等于2的词，并依据词频生成词表文件Vocab{w1,w2,w3…}；遍历大批量的中文问句语料中的每个问句的词序列，若该词没有出现在词表文件Vocab{w1,w2,w3…}中，则删除该词，若存在则保留生成每个问句新的词序列Tj{tj1,tj2,tj3…}；2.3使用改进的指数TF-IDF算法对每个问句的词序列进行向量化，计算公式如下：式中，ExpTFIDFi,j为改进的TF-IDF指数，ni,j表示词序列中第i个词在词序列tj中出现的次数，∑knk,j表示词序列tj中所有词出现的次数之和，S表示语料库中所有词序列，|S|表示词序列的总数；|{j:fi∈dj}|表示语料库中包含词fi的词序列的数量，lenfi表示词fi的词长；2.4对向量化后的问句进行聚类，将大批量的中文问句语料中字面相似的样本划分在相同的子集中{s1,s2,s3…}，保证一半以上的子集中问句的数量大于SimCLR对比学习模型每批输入问句样本的数量的2倍；3打乱子集的顺序，按照打乱后的顺序选定子集，再打乱选定子集中中文问句的顺序，并按批次抽取固定数量的问句样本Q{q1,q2,q3…}，将不同批次的问句按顺序输入SimCLR对比学习模型中，并生成与每个问句对应的语义相似问句Q′{q′1,q′2,q′3…}；之后使用对比损失函数对SimCLR对比学习模型进行训练，拉近问句与语义相似问句之间的距离，并扩大该问句与同批次其他问句之间的距离，得到训练好的SimCLR对比学习模型；4将新的中文问句语料重复步骤1和2，然后将聚类后的子集按批次输入训练好的SimCLR对比学习模型，得到分类后的中文问句语料，实现中文问句语料的自动打标。

全文数据：

权利要求：

百度查询：之江实验室一种基于聚类和对比学习的中文问句文本表示学习的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种无人机使用高清摄像模组_陕西泰沃云科技有限公司_202322392870.5

下一篇：一种带防撞装置的压力机工作台_扬州蔚来机械装备制造有限责任公司_202322611255.9

相关技术

一种无人机使用高清摄像模组_陕西泰沃云科技有限公司_202322392870.5

一种带防撞装置的压力机工作台_扬州蔚来机械装备制造有限责任公司_202322611255.9

一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

一种能自动清洗的鸡养殖笼_海南省农业科学院三亚研究院(海南省实验动物研究中心)_202420555494.9

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

一种无缝钢管送料设备_宁波东进钢管有限公司_202322167126.5

一种精密小磨床用物料固定装置_昆山法尔霆机电科技有限公司_202322612017.X

一种散热户外路灯灯头_中山市澳斯朗电控科技有限公司_202322819842.7

一种可调节车挡_自贡市城市规划设计研究院有限责任公司_202322421392.6

一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

一种园林绿化便携铲_马丽丽_202322375183.2

龙图腾网&IPTOP

【发明授权】一种基于聚类和对比学习的中文问句文本表示学习的方法_之江实验室_202211480390.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务