申请/专利权人:中国人民大学
申请日:2020-01-20
公开(公告)日:2024-04-26
公开(公告)号:CN111310799B
主分类号:G06F18/214
分类号:G06F18/214;G06N3/044;G06N20/00
优先权:
专利状态码:有效-授权
法律状态:2024.04.26#授权;2020.07.14#实质审查的生效;2020.06.19#公开
摘要:本发明涉及一种基于历史评估结果的主动学习算法,其特征在于,包括以下内容:1采用已标注样本集,对任务模型进行初始化;2根据未标注样本集中未标注样本的历史评估结果的加权和历史评估结果的波动性排序模型的排序结果,选出未标注样本集中的部分未标注样本;3对选出的未标注样本进行标注并加入到已标注样本集中,训练和更新任务模型;4重复步骤2~3,直至训练和更新后的任务模型在测试集上的表现满足预先设定的要求,本发明可以广泛应用于机器学习领域中。
主权项:1.一种基于历史评估结果的主动学习方法,其特征在于,包括以下内容:1采用已标注样本集,对任务模型进行初始化,其中,任务为文本分类的自然语言处理任务;2采用当前的任务模型评估样本,根据未标注样本集中未标注样本的若干历史评估结果的加权和,选出未标注样本集中的部分未标注样本;3对选出的未标注样本进行标注并加入到已标注样本集中,训练和更新任务模型;4重复步骤2~3,直至训练和更新后的任务模型在训练集上的表现满足预先设定的要求;所述步骤2中样本选择的具体过程为:设置未标注样本集中各历史评估结果和当前评估结果的权重;根据设置的权重和对应的历史评估结果,确定未标注样本集中未标注样本的若干历史评估结果的加权和;根据未标注样本集中未标注样本的若干历史评估结果的加权和选出未标注样本集中的部分未标注样本: 其中,为第t次迭代时样本x的历史评估序列;wj对应第j次迭代评估结果的权重;为第j次迭代过程中对样本x的评估结果;t为当前的迭代次数;所述步骤2中的权重设置为: 其中,l为一个超参数,用于控制历史窗口的大小;或者,所述步骤2中的权重采用机器学习算法自动获得。
全文数据:
权利要求:
百度查询: 中国人民大学 一种基于历史评估结果的主动学习方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。