买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于锆石成分预测斑岩型矿床类型和储量的机器学习方法_中国地质大学(北京)_202410024929.1 

申请/专利权人:中国地质大学(北京)

申请日:2024-01-08

公开(公告)日:2024-03-26

公开(公告)号:CN117766068A

主分类号:G16C20/70

分类号:G16C20/70;G16C20/20;G06F18/243;G06F18/15;G06F18/214;G06F18/21;G06N20/20;G06N5/01

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.12#实质审查的生效;2024.03.26#公开

摘要:本发明提供了一种基于锆石成分预测斑岩型矿床类型和储量的机器学习方法,包括:数据库建设、数据预处理、机器学习ML方法、特征重要性分析、模型内置的计算方法、SHAP值方法、LightGBM算法、五折交叉验证、XGBoost算法、数据标准化、数据不平衡处理、缺失值处理、异常值处理。通过本发明的技术方案,通过广泛的数据搜集,构建矿床类型和铜钼储量有关的锆石数据库。利用机器学习算法建立分类模型,并进行特征重要性分析,对金属在斑岩中富集的规律进行解译。最后,将会做一个乌努格吐山矿床的案例分析,验证模型可靠性的同时为模型的使用提供范本。

主权项:1.一种基于锆石成分预测斑岩型矿床类型和储量的机器学习方法,其特征在于,具体包括以下步骤:步骤S1数据库建设:在PCR中搜集了来自全球17个国家82个斑岩铜矿床中的共计6032条锆石微量元素数据在PMR中搜集了来自37个矿床的1598条锆石微量元素数据,这些数据全部来自中国;PDT数据库是PCR,PMR的锆石数据在加上贫矿斑岩中锆石的数据,一共是9649条数据;PCR中按照铜储量将这些矿床标记为Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ共5个等级;PMR中按照钼储量将这些矿床标记为A,B,C共3个等级;PDT中,铜矿斑岩的锆石数据标记为Cu,钼矿斑岩的锆石数据标记为Mo,贫矿斑岩的锆石数据标记为barren;步骤S2数据预处理:步骤S2-1异常值处理:所有数据库中的La和Pr元素被删除;采用四分位数间距法,利用数据的四分位数来测量数据的分散程度,并基于四分位数的差异来判断是否存在异常值;步骤S2-2缺失值处理:选用KNN插值法填补空缺值,对于每个包含缺失值的数据点,计算它与数据集中所有其他数据点之间的距离;根据计算出的距离(公式1),选择与缺失值数据点最接近的K个(K=3)邻居,用于估计缺失值(公式2),distanceA,B=√Σni=1Ai-Bi2(公式1)其中,A和B是两个样本,n是特征的数量; Ŷ=ΣKi=1wi‧YiΣKi=1wi(公式2) Ŷ是缺失值的估计,Yi是邻居样本的已知值,wi是与邻居的距离相关的权重;步骤S2-3数据标准化:采用Z-Score方法进行数据标准化,将数据转换为具有均值为0和标准差为1的标准正态分布(公式3),Z=X-μσ(公式3)μ和σ分别为每个特征的均质和标准差;步骤S2-4数据不平衡处理:样本数量较少的类别将获得较高的权重(公式4),从而增加其在模型训练中的影响,Weightclass=TotalSamplesNumberofSamplesinClass(公式4)“Weightclass”是类别的权重,“TotalSamples”是总样本数,“NumberofSamplesinClass”是属于该类别的样本数;步骤S3机器学习ML方法:采用监督学习算法,自动地将数据分为训练集和测试集,设置为9:1,分别用来训练数据和检验;具体包括以下步骤:步骤S3-1XGBoost算法:对于XGBoost算法,首先定义目标函数,该函数由损失函数和正则化项组成,用于衡量模型拟合能力和控制模型复杂度(公式5);然后,通过迭代进行梯度提升,每轮迭代都计算损失函数的负梯度,以确定下一个弱学习器的权重;样本会根据之前的误差进行加权,以关注误分类的样本;最终,将所有弱学习器的预测结果组合,生成最终的模型预测;Objective=Σni=1Lyi,fxi+γ‧Ωf(公式5)“Objective”是目标函数,n是样本的数量,Lyi,fxi是损失函数,用于衡量模型预测fxi与真是标签yi之间的差异,γ是正则化项的系数,Ωf是模型f的正则化项;步骤S3-2LightGBM算法:对于LightGBM算法,首先准备训练数据集,然后构建一个梯度提升树模型:在每轮迭代中,LightGBM使用直方图算法将数据分桶,然后对每个桶内的梯度信息进行累积,从而减少内存消耗和计算复杂度(公式6);通过遍历分桶,选择最佳的分割点来构建树结构,同时使用叶子中的梯度信息来更新叶子值,以最小化损失函数;最终,将多颗树的预测结果组合,生成最终的模型预测,Histogram=ΣdatainthebinGradient(公式6)“Histogram”代表直方图,“datainthebin”代表被放入直方图箱中的数据,“Gradient”代表损失函数对于当前样本的梯度;步骤S3-3五折交叉验证:最后,采用五折交叉验证是一种机器学习模型评估方法,它将数据分为五个相等的子集,依次将其中一个作为验证集,其余四个作为训练集,进行五轮训练和评估;步骤S4特征重要性分析:采用模型内置和SHAP值两种特征重要性的计算方法,来相互验证;步骤S4-1模型内置的计算方法:特征重要性得分是通过考虑所有树中每个特征的分裂次数和分裂增益的累积效果来计算的(公式7),FeatureImportanceScore=Σalltreessplitcount×splitgain(公式7)“Σalltrees”表示对所有树的贡献进行求和,“splitcount”表示分裂次数,“splitgain”表示分裂增益;步骤S4-1SHAP值方法:使用Shapley值理论进行特征重要性计算,对于树模型采用TreeSHAP算法(公式8);通过对每个特征在不同位置的贡献进行加权平均,考虑所有可能的特征组合,得到每个特征的Shapley值, Ф if=ΣMj=11M‧Фjif(公式8)M是树的叶子节点的数量,Фjif是第j个叶子节点对于特征i的贡献,可以通过遍历树结构计算得到。

全文数据:

权利要求:

百度查询: 中国地质大学(北京) 基于锆石成分预测斑岩型矿床类型和储量的机器学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。