买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】训练集构建方法、装置、电子设备及计算机可读存储介质_中国医学科学院肿瘤医院_201911344538.3 

申请/专利权人:中国医学科学院肿瘤医院

申请日:2019-12-23

公开(公告)日:2024-04-23

公开(公告)号:CN111144473B

主分类号:G06V10/774

分类号:G06V10/774;G06V10/764;G06V10/82;G06N3/084;G06N3/09

优先权:

专利状态码:有效-授权

法律状态:2024.04.23#授权;2020.06.05#实质审查的生效;2020.05.12#公开

摘要:本发明涉及一种训练集构建方法、装置、电子设备及计算机可读存储介质,属于数据挖掘领域。该方法包括:构建多个训练集,每构建一个训练集时,计算与当前训练集对应的转移矩阵以及状态序列。后续判断是否满足迭代停止条件;在满足时从已构建的训练集中确定最优训练集;否则继续构建下一个训练集。在上述过程中,通过计算状态序列、转移矩阵,能够清晰地表征出当前所有收敛的神经网络模型对数字病理切片的识别准确率的差异性,然后基于当前得到的状态序列、转移矩阵进行蒙特卡洛重采样更新训练集时,更能拟合总训练集中样本数据的统计分布信息,因此,可以得到尽可能多地表征全部数字病理切片的特征的最优训练集。

主权项:1.一种训练集构建方法,其特征在于,所述方法包括:依次构建多个训练集,每构建一个训练集,计算与当前训练集对应的用于表征所述当前训练集与前一个训练集之间的差异度的转移矩阵以及用于表征总训练集中的各个样本相对于所述当前训练集所确定的概率分布情况的状态序列;判断是否满足迭代停止条件;在满足时,从已构建的训练集中确定出最优训练集;在不满足时,在所述当前训练集的基础上构建下一个训练集;其中,第一个训练集及第二个训练集从所述总训练集中随机采样得到,其余训练集基于前一个训练集的状态序列及所述前一个训练集的转移矩阵采用蒙特卡洛采样法从所述总训练集中采样得到;构建训练集,包括:电子设备先对数字病理切片进行随机切割,得到多个固定尺寸的小图组成正负样本总训练集,电子设备从总训练集中选取多个样本,构建多个训练集;所述计算与当前训练集对应的用于表征所述当前训练集与前一个训练集之间的差异度的转移矩阵以及用于表征总训练集中的各个样本相对于所述当前训练集所确定的概率分布情况的状态序列,包括:计算所述总训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值,所述已收敛的神经网络模型由所述当前训练集训练至收敛;将所述总训练集中的每个样本的梯度值离散化,得到所述总训练集中的样本对应于所述当前训练集的状态序列;根据所述总训练集中的样本相对于所述当前训练集的状态序列及所述总训练集中的样本相对于前一个训练集的状态序列,确定所述当前训练集的转移矩阵;所述将所述总训练集中的每个样本的梯度值离散化,得到所述总训练集中的样本对应于所述当前训练集的状态序列,包括:将区间[0,1]等分为K个子区间,每个子区间为一个状态;确定出所述总训练集中的每个样本的梯度值所属的状态;得到所述总训练集中的样本对应于所述当前训练集的状态序列,状态序列用于描述所述总训练集中的每个样本的梯度值所属的状态;其中,当某个样本的梯度值属于k状态时,该样本的梯度值的大小属于子区间,1≤k≤K;所述根据所述总训练集中的样本相对于所述当前训练集的状态序列及所述总训练集中的样本相对于前一个训练集的状态序列,确定所述当前训练集的转移矩阵,包括:比较相对于所述当前训练集的状态序列与相对于前一个训练集的状态序列两者之间的差异度;根据所述差异度构建转移矩阵,其中,用于表征总训练集中的各个样本相对于所述前一个训练集的状态序列中第i个状态的样本集合与所述总训练集中的各个样本相对于当前训练集的状态序列中第j个状态的样本集合之间的转移概率;所述计算所述总训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值,包括:针对每个样本,根据所述已收敛的神经网络模型的激活函数,计算该样本被预测为正样本的概率值、被预测为负样本的概率值;针对每个样本,根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述已收敛的神经网络模型中的反向传播过程中的梯度值;所述针对每个样本,根据所述神经网络模型的激活函数,计算该样本被预测为正样本的概率值、被预测为负样本的概率值,包括:当所述激活函数为softmax函数时,基于公式计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x0、x1分别表示所述神经网络模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值,e表示自然常数,label为0表示样本被预测为负样本,label为1表示样本被预测为正样本;当所述激活函数为sigmoid函数时,基于公式计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x1表示所述神经网络模型的输出层预测该样本为正样本的预测值,e表示自然常数。

全文数据:

权利要求:

百度查询: 中国医学科学院肿瘤医院 训练集构建方法、装置、电子设备及计算机可读存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。