买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种分布式异步主动标注方法_南京航空航天大学_202110801168.2 

申请/专利权人:南京航空航天大学

申请日:2021-07-15

公开(公告)日:2024-04-02

公开(公告)号:CN113642610B

主分类号:G06F18/214

分类号:G06F18/214;G06F18/23

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2021.11.30#实质审查的生效;2021.11.12#公开

摘要:本发明提供了一种分布式异步主动标注方法,在具有多个server节点和worker节点的分布式场景下,server节点负责训练并更新预测模型,worker节点选择待查询节点,交由标注者进行标注;模型更新时,每个server独立训练预测模型;每个worker从自身维护的未标注数据池中主动选择,在多个worker间采用多样化的采样策略;通过该框架,信息可以经过两个共享的数据池在server节点、worker节点和标注者之间高效地进行通信,使三者可以异步地进行工作;一方面,该方法避免了主动学习中模型训练、实例选择和标签查询三个步骤之间的同步,从而避免了标注者的等待,提高了标记效率;另一方面,在Multi‑Server的更新模式下,增加模型更新的频率,在worker之间引入多种采样策略,可以保持主动学习样本选择的有效性。

主权项:1.一种分布式异步主动标注方法,其特征在于,包括以下步骤:步骤S1、配置主动学习标注场景参数;所述主动学习标注场景包括m个用于模型训练的server和k个用于实例选择的worker;每个server都基于标记样本池L学习一个预测模型;每个worker独立维护一部分未标记样本集,所有未标记样本的集合定义为未标记样本池D;定义S为选定的待查询样本的集合;步骤S2、模型训练阶段;所述每个server训练的预测模型互相独立;学习阶段中所有server均进行更新;模型训练阶段结束时,所有server会检测标记样本池L;当标记样本池L接收到迭代更新后的新标记样本数据时,启动新一轮模型训练更新;步骤S3、实例选择阶段;所述每个worker独立维护部分未标记样本集,且worker直接相互独立运作;每个worker均从所有server更新的训练模型库中获取最新模型,并从自身维护的未标记样本数据中选择出最具成本效益的待查询样本;具体地,首先,每个worker从直接从所有server完成训练的模型{g1,g2,…,gm}中检索出当前时刻最新更新的训练模型g*;然后worker直接采用主动样本选择算法持续地从自身维护的未标记数据池中选择最具成本效益的待查询样本如下:Sj=Sjg*,Dj其中Sj代表第j个worker所采用的主动样本选择算法,Dj代表第j个worker所维护的未标记样本集;输入当前时刻最新更新的训练模型g*和第j个worker所维护的未标记样本集,获得第j个worker选取的最具成本效益的待查询样本;实际每一个worker按照自身需求,可采用不同的主动样本选择算法;最后,所有worker选出的待查询样本汇总成集合S,由所有worker共享;步骤S4、标签查询阶段;标注者从待查询样本集S中随机挑选未标记样本,将挑选出的样本进行标注后,添加到标记样本集L中。

全文数据:

权利要求:

百度查询: 南京航空航天大学 一种分布式异步主动标注方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。