【发明公布】文本分类样本的构建方法和文本分类模型的训练方法_易方达基金管理有限公司_202011593010.2

申请/专利权人：易方达基金管理有限公司

申请日：2020-12-29

公开（公告）日：2021-04-27

公开（公告）号：CN112711660A

主分类号：G06F16/34(20190101)

分类号：G06F16/34(20190101);G06F16/35(20190101);G06F40/258(20200101);G06K9/62(20060101)

优先权：

专利状态码：有效-授权

法律状态：2023.09.26#授权;2021.05.14#实质审查的生效;2021.04.27#公开

摘要：本发明提供了文本分类样本的构建方法和文本分类模型的训练方法。该方法包括：获取训练文本集；将训练文本转化为输入向量；对训练文本集中一定数量的训练文本进行分类结果标注得到训练样本集；通过训练样本集对预训练模型进行训练，得到对应一级标签的第一分类模型和对应二级标签的第二分类模型；获取训练文本集中训练样本集之外的训练文本，作为扩充文本；将扩充文本对应的输入向量分别输入至第一分类模型和第二分类模型，得到一级标签概率向量和二级标签概率向量；计算二级标签概率向量中每个元素与一级标签概率向量中对应元素的乘积；根据该乘积确定扩充文本对应的分类结果，以对训练样本集进行扩充。通过本发明，能够实现样本的快速标注。

主权项：1.一种文本分类样本的构建方法，其特征在于，包括：获取训练文本集，其中，所述训练文本集中包括多个训练文本；将所述训练文本转化为输入向量；对所述训练文本集中第一数量的训练文本进行分类结果标注，以得到训练样本集，其中，所述训练样本集包括所述第一数量的训练样本，所述训练样本包括输入向量和分类结果的对应关系，所述分类结果包括对应的所述训练文本所属的一级标签和二级标签，所述二级标签属于在所述一级标签下进一步分类的标签；将所述训练样本集中的所述输入向量作为预训练模型的输入，根据对应的一级标签构建预训练模型的输出向量，对所述预训练模型进行训练，以得到第一分类模型；将所述训练样本集中的所述输入向量作为预训练模型的输入，根据对应的二级标签构建预训练模型的输出向量，对所述预训练模型进行训练，以得到第二分类模型；获取所述训练文本集中所述训练样本集之外的训练文本，作为扩充文本；将所述扩充文本对应的输入向量分别输入至所述第一分类模型和所述第二分类模型，以得到所述第一分类模型输出的一级标签概率向量和所述第二分类模型输出的二级标签概率向量；计算所述二级标签概率向量中每个元素与所述一级标签概率向量中对应元素的乘积；根据所述二级标签概率向量中每个元素对应乘积的大小，确定所述扩充文本对应的分类结果；将所述扩充文本对应的输入向量和分类结果加入至所述训练样本集。

全文数据：

权利要求：

百度查询：易方达基金管理有限公司文本分类样本的构建方法和文本分类模型的训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：用于换土垫层处的风机基础实时沉降监测装置_山西迎润新能源有限公司_202420467901.0

下一篇：一种环保多层电路板_惠州市安浦联电子有限公司_202322410592.1

相关技术

用于换土垫层处的风机基础实时沉降监测装置_山西迎润新能源有限公司_202420467901.0

一种环保多层电路板_惠州市安浦联电子有限公司_202322410592.1

一种香料加工用磨粉装置_鹿邑县伟红食品有限公司_202322393890.4

一种水污染防治用污水过滤装置_江苏昊羽润环保科技有限公司_202322459396.3

一种塑料齿轮注塑成型模具_中山市润华精密齿轮有限公司_202322383109.5

一种便携型燃气管道泄漏检测装置_获嘉县金鹏燃气有限责任公司_202322517057.6

一种多角度调节式机械键盘_深圳市鼎隆盛塑胶模具有限公司_202322370171.0

一种环绕山体布置的光伏阵列柔性支架_中鼎建投(北京)集团有限公司_202322357469.8

一种具有双重防拆防伪的标签_青岛金马防伪特种印刷有限公司_202322542758.5

一种超声波清洗机用废水高效过滤装置_上海哲惜环保科技有限公司_202322419874.8

一种抗爆百叶窗及双向抗爆防雨百叶窗_上海震业环境科技有限公司_202322355181.7

一种机械制造用便于调节的固定夹具_福建富昌机械科技有限公司_202322430920.4

龙图腾网&IPTOP

【发明公布】文本分类样本的构建方法和文本分类模型的训练方法_易方达基金管理有限公司_202011593010.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务