买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种多标签解耦的双向重采样方法_浙江师范大学_202010692452.6 

申请/专利权人:浙江师范大学

申请日:2020-07-17

公开(公告)日:2020-11-27

公开(公告)号:CN112001499A

主分类号:G06N20/00(20190101)

分类号:G06N20/00(20190101)

优先权:

专利状态码:在审-实质审查的生效

法律状态:2020.12.15#实质审查的生效;2020.11.27#公开

摘要:本发明涉及一种多标签解耦的双向重采样方法。通过对多标签数据集并发度较高的样本进行解耦,并在解耦阶段时对数据集样本解耦时设置解耦终止条件,使得解耦更加合理,重采样阶段对过采样和欠采样方法进行改进,并且将过采样与欠采样结合并且对样本标签进行比较,使得样本分布更加均衡的同时最大限度的保留含有弱势标签的样本,并且对数据集的原始分布情况不发生太大改变。

主权项:1.一种多标签解耦的双向重采样方法,包括解耦和重采样,其特征在于,所述重采样包括:步骤一,随机选择标签集合中的一个标签y,若标签属于弱势标签,并且标签所包含的样本数小于平均样本数以及IRMeanIR就随机产生一个抽样次数x,并满足x=Random0,MeanSamples-|y|;步骤二,从标签的样本中随机选择m个样本,对这m个样本计算Min-SCUMBLEIns值,并且复制其中m个样本中Min-SCUMBLEIns值最低的样本,放回抽取x次,添加到数据集中,将需重采样的样本数减1;步骤三:若标签属于强势标签,则抽样次数x=Random0,|y|-MeanSamples;步骤四:从标签的样本中随机选择m个样本对这m个样本计算Min-SCUMBLEIns值,将Min-SCUMBLEIns值最低的样本标签值设置为0,共抽取x次,将需重采样个数减1;Xi表示数据集的第i个样本,Y表示数据集D的标签集,Li为Xi样本的标签集;解耦后的数据集为Dd,弱势标签域为minBag,强势标签域为majBag;需重采样的样本数为数据集的数量乘以重采样率P;即samplesToResampling=|D|*P;根据公式1计算所有标签的标签不平衡数IR值,根据公式2求出初始平均不平衡数MeanIR值,根据公式3求出平均样本数MeanSamples的值;根据公式4求出弱势标签度量Min-SCUMBLEIns的值;

全文数据:

权利要求:

百度查询: 浙江师范大学 一种多标签解耦的双向重采样方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。