申请/专利权人:浙江师范大学
申请日:2020-07-17
公开(公告)日:2020-11-27
公开(公告)号:CN112001499A
主分类号:G06N20/00(20190101)
分类号:G06N20/00(20190101)
优先权:
专利状态码:在审-实质审查的生效
法律状态:2020.12.15#实质审查的生效;2020.11.27#公开
摘要:本发明涉及一种多标签解耦的双向重采样方法。通过对多标签数据集并发度较高的样本进行解耦,并在解耦阶段时对数据集样本解耦时设置解耦终止条件,使得解耦更加合理,重采样阶段对过采样和欠采样方法进行改进,并且将过采样与欠采样结合并且对样本标签进行比较,使得样本分布更加均衡的同时最大限度的保留含有弱势标签的样本,并且对数据集的原始分布情况不发生太大改变。
主权项:1.一种多标签解耦的双向重采样方法,包括解耦和重采样,其特征在于,所述重采样包括:步骤一,随机选择标签集合中的一个标签y,若标签属于弱势标签,并且标签所包含的样本数小于平均样本数以及IRMeanIR就随机产生一个抽样次数x,并满足x=Random0,MeanSamples-|y|;步骤二,从标签的样本中随机选择m个样本,对这m个样本计算Min-SCUMBLEIns值,并且复制其中m个样本中Min-SCUMBLEIns值最低的样本,放回抽取x次,添加到数据集中,将需重采样的样本数减1;步骤三:若标签属于强势标签,则抽样次数x=Random0,|y|-MeanSamples;步骤四:从标签的样本中随机选择m个样本对这m个样本计算Min-SCUMBLEIns值,将Min-SCUMBLEIns值最低的样本标签值设置为0,共抽取x次,将需重采样个数减1;Xi表示数据集的第i个样本,Y表示数据集D的标签集,Li为Xi样本的标签集;解耦后的数据集为Dd,弱势标签域为minBag,强势标签域为majBag;需重采样的样本数为数据集的数量乘以重采样率P;即samplesToResampling=|D|*P;根据公式1计算所有标签的标签不平衡数IR值,根据公式2求出初始平均不平衡数MeanIR值,根据公式3求出平均样本数MeanSamples的值;根据公式4求出弱势标签度量Min-SCUMBLEIns的值;
全文数据:
权利要求:
百度查询: 浙江师范大学 一种多标签解耦的双向重采样方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。