买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于随机森林的耕地产能指数获取方法及装置_中国农业大学_201710763273.5 

申请/专利权人:中国农业大学

申请日:2017-08-30

公开(公告)日:2021-04-13

公开(公告)号:CN109426909B

主分类号:G06Q10/06(20120101)

分类号:G06Q10/06(20120101);G06Q50/02(20120101);G06K9/62(20060101)

优先权:

专利状态码:失效-未缴年费专利权终止

法律状态:2022.08.12#未缴年费专利权终止;2019.03.29#实质审查的生效;2019.03.05#公开

摘要:本发明提供一种基于随机森林的耕地产能指数获取方法及装置。该方法包括:基于耕地产能赋分规则表和目标区域的耕地产能二级指标数据,获取所述目标区域的耕地产能二级指标评分;将所述耕地产能二级指标评分归一化后,输入基于随机森林算法,由与所述目标区域采用相同赋分规则的样本区域的归一化耕地产能二级指标评分和耕地产能指数分别作为输入和输出训练而得的耕地产能指数获取模型,获取所述目标区域的耕地产能指数。本发明直接获取目标区域的耕地产能指数,而无需再通过考察设置目标区域内二级指标和一级指标的权重,节省了工作量提高了工作效率。

主权项:1.一种基于随机森林的耕地产能指数获取方法,其特征在于,包括:步骤1,基于耕地产能赋分规则表和目标区域的耕地产能二级指标数据,获取所述目标区域的耕地产能二级指标评分;步骤2,将所述耕地产能二级指标评分归一化后,基于耕地产能指数获取模型,获取所述目标区域的耕地产能指数;其中,所述耕地产能指数获取模型为基于随机森林算法,由与所述目标区域采用相同赋分规则的样本区域的归一化耕地产能二级指标评分和耕地产能指数分别作为输入和输出训练而得;所述步骤1之前还包括:获取所述样本区域内所有耕地图斑的耕地产能二级指标评分和耕地产能指数;基于所述样本区域内所有耕地图斑,获取第一预设数目个图斑集;基于所述第一预设数目个图斑集中图斑的归一化耕地产能二级指标评分和耕地产能指数,对随机森林进行训练,得到耕地产能指数获取模型;所述基于所述样本区域内所有耕地图斑,获取第一预设数目个图斑集具体包括:利用自助抽样法,重复所述第一预设数目次从所述样本区域内所有耕地图斑中有放回地抽取一定数目的图斑,获取所述第一预设数目各图斑集;所述基于所述第一预设数目个图斑集中图斑的归一化耕地产能二级指标评分和耕地产能指数,对随机森林进行训练,得到耕地产能指数获取模型具体包括:获取各所述二级指标的变量重要性数值;基于所述第一预设数目个图斑集中图斑的变量重要性数值较大的第二预设数目个耕地产能二级指标的归一化评分和耕地产能指数,对随机森林进行训练,得到耕地产能指数获取模型;所述第二预设数目小于等于所述第一预设数目。

全文数据:基于随机森林的耕地产能指数获取方法及装置技术领域本发明涉及耕地评价技术领域,更具体地,涉及一种基于随机森林的耕地产能指数获取方法及装置。背景技术耕地产能是指在一定地域、一定时期和一定的经济、社会、技术条件下所形成的耕地综合生产能力。耕地产能的评价对于国家从宏观上掌握我国耕地的生产力水平、健康程度、耕作效率以及可持续状况有重要意义。目前,最常用的耕地产能评价方法是通过在地理信息系统平台上,对目标区域内影响耕地产能的各二级指标进行评分并赋予权重;根据一级指标包括的二级指标的评分和权重,获取各一级指标的评分并对各一级指标赋予权重;根据各一级指标的评分和权重,获得目标区域的耕地产能指数。上述方法中各指标的权重均是通过对目标区域耕地的考察人为设定的,而权重的设定易受人为主观因素的影响,会导致耕地产能指数无法客观地反映耕地产能的实际情况。此外,具有相同指标类耕地但指标评分差异过大的耕地需采用不同的权重计算耕地产能指数,增加了耕地考察工作量,降低了工作效率。发明内容本发明提供一种基于随机森林的耕地产能指数获取方法及装置,以克服现有技术中,人为设定权重易受主观因素的影响,导致耕地产能指数无法客观地反映耕地产能以及具有相同指标类耕地但指标评分差异过大的耕地需采用不同的权重计算耕地产能指数,导致耕地考察工作量增加,工作效率降低的情况。根据本发明的第一方面,提供一种基于随机森林的耕地产能指数获取方法,该方法包括:步骤1,基于耕地产能赋分规则表和目标区域的耕地产能二级指标数据,获取所述目标区域的耕地产能二级指标评分;步骤2,将所述耕地产能二级指标评分归一化后,基于耕地产能指数获取模型,获取所述目标区域的耕地产能指数;其中,所述耕地产能指数获取模型为基于随机森林算法,由与所述目标区域采用相同赋分规则的样本区域的归一化耕地产能二级指标评分和耕地产能指数分别作为输入和输出训练而得。结合本发明第一方面的第一种可能实现方式,在第二种可能实现方式中,所述步骤1之前还包括:获取所述样本区域内所有耕地图斑的耕地产能二级指标评分和耕地产能指数;基于所述样本区域内所有耕地图斑,获取第一预设数目个图斑集;基于所述第一预设数目个图斑集中图斑的归一化耕地产能二级指标评分和耕地产能指数,对随机森林进行训练,得到耕地产能指数获取模型。结合本发明第一方面的第二种可能实现方式,在第三种可能实现方式中,所述基于所述样本区域内所有耕地图斑,获取第一预设数目个图斑集具体包括:利用自助抽样法,重复所述第一预设数目次从所述样本区域内所有耕地图斑中有放回地抽取一定数目的图斑,获取所述第一预设数目各图斑集。结合本发明第一方面的第二种可能实现方式,在第四种可能实现方式中,所述基于所述第一预设数目个图斑集中图斑的归一化耕地产能二级指标评分和耕地产能指数,对随机森林进行训练,得到耕地产能指数获取模型具体包括:获取各所述二级指标的变量重要性数值;基于所述第一预设数目个图斑集中图斑的变量重要性数值较大的第二预设数目个耕地产能二级指标的归一化评分和耕地产能指数,对随机森林进行训练,得到耕地产能指数获取模型;所述第二预设数目小于等于所述第一预设数目。结合本发明第一方面的第二种可能实现方式,在第五种可能实现方式中,所述获取各所述二级指标的变量重要性数值具体包括:对于每一个二级指标,获取每一所述图斑集对应回归树的袋外误差与该回归树对应袋外数据中该二级指标的随机修改值之差;基于所述一预设数目个所述差的平均值,获取该二级指标的变量重要性数值。结合本发明第一方面的第五种可能实现方式,在第六种可能实现方式中,任一所述二级指标Xj的变量重要性数值VXj获取方式为:其中,et为随机森林中第t个回归树的袋外误差,为随机改变袋外数据第j个指标Xj的值后第t个回归树产生的新的袋外误差,N为回归树的个数。结合本发明第一方面的第二种可能实现方式,在第七种可能实现方式中,所述归一化具体包括:基于所述耕地产能赋分规则表中各二级指标的最高预设分值和最低预设分值,对各所述二级指标评分进行归一化。结合本发明第一方面的第七种可能实现方式,在第八种可能实现方式中,所述归一化公式如下:其中,K为归一化后的二级指标评分,xi为一项二级指标评分,xmax为所述耕地产能赋分规则表中该项二级指标的最高预设分值,xmin为所述耕地产能赋分规则表中该项二级指标的最低预设分值。根据本发明的第二方面,提供一种基于随机森林的耕地产能指数获取装置。该装置包括:评分获取模块和耕地产能指数获取模块;所述评分获取模块,用于基于耕地产能赋分规则表和目标区域的耕地产能二级指标数据,获取所述目标区域的耕地产能二级指标评分;所述耕地产能指数获取模块,用于将所述耕地产能二级指标评分归一化后,基于耕地产能指数获取模型,获取所述目标区域的耕地产能指数;其中所述耕地产能指数获取模型为基于随机森林算法,由与所述目标区域采用相同赋分规则的样本区域的归一化耕地产能二级指标评分和耕地产能指数分别作为输入和输出训练而得。本发明提出的基于随机森林的耕地产能指数获取方法及装置,通过基于目标区域归一化的耕地产能二级指标评分,基于随机森林算法,由与所述目标区域采用相同赋分规则的样本区域的归一化耕地产能二级指标评分和耕地产能指数分别作为输入和输出训练而得的耕地产能指数获取模型,直接获取目标区域的耕地产能指数,而无需再通过考察设置目标区域内二级指标和一级指标的权重,节省了工作量提高了工作效率。此外,目标区域内的耕地产能指数的获取不再依赖于目标区域内二级指标和一级指标的权重,降低了主观因素对耕地产能指数准确性的影响。附图说明图1为根据本发明实施例的基于随机森林的耕地产能指数获取方法流程图;图2为根据本发明实施例的基于随机森林的耕地产能指数获取装置流程图。具体实施方式下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。如图1所示,根据本发明的第一方面,提供一种基于随机森林的耕地产能指数获取方法,该方法包括:步骤1,基于耕地产能赋分规则表和目标区域的耕地产能二级指标数据,获取所述目标区域的耕地产能二级指标评分;步骤2,将所述耕地产能二级指标评分归一化后,基于耕地产能指数获取模型,获取所述目标区域的耕地产能指数;其中,所述耕地产能指数获取模型为基于随机森林算法,由与所述目标区域采用相同赋分规则的样本区域的归一化耕地产能二级指标评分和耕地产能指数分别作为输入和输出训练而得。全国耕地分为12个一级区,这12个一级区又共分为42个二级区。属于同一个二级区的县域共用一份耕地产能赋分规则表,具有相同的耕地产能二级指标和指标赋分规则。在本实施例中,目标区域和样本区域可以为任意同一二级区中的两个县域或者为具有相同的耕地产能指标和指标赋分规则的区域。耕地产能赋分规则表为业内在进行耕地产能评价时进行耕地产能二级指标评分的通用表。表1示出了一级区为黄土高原区,二级区为宁南陇中青东黄土高原区的耕地产能赋分规则表的部分内容。对于耕地产能赋分规则表中任一二级指标的数据,例如:有效土层厚度,数据为70cm,可获得有效土层厚度这一二级指标的评分,评分为70分。在本实施例中,耕地产能指数获取模型是由与目标区域具有相同耕地产能二级指标的样本区域的归一化耕地产能二级指标评分和耕地产能指数训练而得,很好的拟合了归一化耕地产能二级指标评分与耕地产能指数的对应关系,因而可推广用于与样本区域具有相同耕地产能二级指标的其他区域。本发明提出的基于随机森林的耕地产能指数获取方法,通过基于目标区域归一化的耕地产能二级指标评分,基于随机森林算法,由与所述目标区域采用相同赋分规则的样本区域的归一化耕地产能二级指标评分和耕地产能指数分别作为输入和输出训练而得的耕地产能指数获表1取模型,直接获取目标区域的耕地产能指数,而无需再通过考察设置目标区域内二级指标和一级指标的权重,节省了工作量提高了工作效率。此外,目标区域内的耕地产能指数的获取不再依赖于目标区域内二级指标和一级指标的权重,降低了主观因素对耕地产能指数准确性的影响。作为一种可选实施例,所述步骤1之前还包括:获取所述样本区域内所有耕地图斑的耕地产能二级指标评分和耕地产能指数;基于所述样本区域内所有耕地图斑,获取第一预设数目个图斑集;基于所述第一预设数目个图斑集中图斑的归一化耕地产能二级指标评分和耕地产能指数,对随机森林进行训练,得到耕地产能指数获取模型。在本实施例中,训练耕地产能指数获取模型所采用的样本数据包括输入数据和输出数据的真实值。其中,输入数据为按照上述二级指标评分获取方法得到的样本区域的耕地产能二级指标评分进行归一化后的数据,在此不再复述;输出数据的真实值为根据现有技术中耕地产能指数计算方法得到的样本区域的耕地产能指数。即基于现有权重获取方法,获取耕地产能各二级指标的权重和各一级指标的权重。基于各一级指标包含的二级指标,利用图斑的耕地产能二级指标评分和对应权重,获取各一级指标的评分。根据各一级指标的评分和权重,获得图斑的耕地产能指数。为了获取精度较高的耕地产能指数获取模型,采用多组样本数据进行训练,即基于样本区域内所有耕地图斑,获取第一预设数目个图斑集,获取方法不做具体限定。每一个图斑图中包含至少一个图斑,每个图斑具有对应的耕地产能二级指标评分和耕地产能指数。第一预设数目可根据经验选取,在此不做限定。当利用随机森林算法得到的耕地产能指数和基于现有技术中耕地产能指数计算方法得到耕地产能指数的误差过大,可逐渐增加用于训练模型的图斑集的数目,直至误差满足要求。此时的随机森林算法便为耕地产能指数获取模型。所述误差可根据实际情况设定,在此不做限定。作为一种可选实施例,所述基于所述样本区域内所有耕地图斑,获取第一预设数目个图斑集具体包括:利用自助抽样法,重复所述第一预设数目次从所述样本区域内所有耕地图斑中有放回地抽取一定数目的图斑,获取所述第一预设数目各图斑集。在本实施例中,若所述样本区域内所有耕地图斑数目为N,则从N个图斑中抽取一个图斑作为第一个图斑集的元素;将该抽中的图斑放回,再次从N个图斑中抽取一个图斑作为第一个图斑集的元素,直至第一个图斑集中有所述一定数目个图斑。同样地方法,获取第二个图斑集、第三个图斑集、……、第一预设数目个图斑集。作为一种可选实施例,所述基于所述第一预设数目个图斑集中图斑的归一化耕地产能二级指标评分和耕地产能指数,对随机森林进行训练,得到耕地产能指数获取模型具体包括:获取各所述二级指标的变量重要性数值;基于所述第一预设数目个图斑集中图斑的变量重要性数值较大的第二预设数目个耕地产能二级指标的归一化评分和耕地产能指数,对随机森林进行训练,得到耕地产能指数获取模型;所述第二预设数目小于等于所述第一预设数目。在本实施例中,为减少模型训练过程中的数据运算量,从所有二级指标中选择变量重要性数值较大的若干二级指标用于进行模型训练。其中,一项二级指标的变量重要性数值为各图斑集对应的回归树的袋外误差与随机改变该回归树的袋外数据中该二级指标评分产生的新的袋外误差之差的总和的平均值。二级指标的变量重要性数值越大,表明该二级指标对于获取准确的耕地产能指数所起的决定性作用越大。在训练模型时,根据变量重要性数值选择的二级指标的数目可根据实际情况自行设定,本实施例对此不作限定。当根据选定的若干个变量重要性数值较大的二级指标训练得到的模型的准确率小于期望准确率时,可根据变量重要性数值适当增加二级指标的数目。其中,期望准确率和增加的二级指标的数目可根据实际情况确定,本实施例对此不作限定。作为一种可选实施例,所述获取各所述二级指标的变量重要性数值具体包括:对于每一个二级指标,获取每一所述图斑集对应回归树的袋外误差与该回归树对应袋外数据中该二级指标的随机修改值之差;基于所述一预设数目个所述差的平均值,获取该二级指标的变量重要性数值。作为一种可选实施例,任一所述二级指标Xj的变量重要性数值VXj获取方式为:其中,et为随机森林中第t个回归树的袋外误差,为随机改变袋外数据第j个指标Xj的值后第t个回归树产生的新的袋外误差,N为回归树的个数。在本实施例中,具体根据上式计算各二级指标的变量重要性数值。作为一种可选实施例,所述归一化具体包括:基于所述耕地产能赋分规则表中各二级指标的最高预设分值和最低预设分值,对各所述二级指标评分进行归一化。在本实施例中,以二级指标为有效土层厚度时为例,由表1可知,最高预设分值为100,最低预设分值为30。作为一种可选实施例,所述归一化公式如下:其中,K为归一化后的二级指标评分,xi为一项二级指标评分,xmax为所述耕地产能赋分规则表中该项二级指标的最高预设分值,xmin为所述耕地产能赋分规则表中该项二级指标的最低预设分值。在本实施例中,以二级指标为有效土层厚度时为例,当有效土层厚度为70cm时,评分为70分,按上式进行归一化:K=70-30100-30=47。如图2所示,根据本发明的第二方面,提供一种基于随机森林的耕地产能指数获取装置。该装置包括:评分获取模块和耕地产能指数获取模块;所述评分获取模块,用于基于耕地产能赋分规则表和目标区域的耕地产能二级指标数据,获取所述目标区域的耕地产能二级指标评分;所述耕地产能指数获取模块,用于将所述耕地产能二级指标评分归一化后,输入耕地产能指数获取模型,获取所述目标区域的耕地产能指数;所述耕地产能指数获取模型为基于随机森林算法,由与所述目标区域采用相同赋分规则的样本区域的归一化耕地产能二级指标评分和耕地产能指数分别作为输入和输出训练而得。本发明提出的基于随机森林的耕地产能指数获取装置,通过评分获取模块和耕地产能指数获取模块,基于目标区域归一化的耕地产能二级指标评分,基于随机森林算法,由与所述目标区域采用相同赋分规则的样本区域的归一化耕地产能二级指标评分和耕地产能指数分别作为输入和输出训练而得的耕地产能指数获取模型,直接获取目标区域的耕地产能指数,而无需再通过考察设置目标区域内二级指标和一级指标的权重,节省了工作量提高了工作效率。此外,目标区域内的耕地产能指数的获取不再依赖于目标区域内二级指标和一级指标的权重,降低了主观因素对耕地产能指数准确性的影响。作为一种可选实施例,所述装置还包括:第一获取单元,用于获取所述样本区域内所有耕地图斑的耕地产能二级指标评分和耕地产能指数;第二获取单元,用于基于所述样本区域内所有耕地图斑,获取第一预设数目个图斑集;训练单元,用于基于所述第一预设数目个图斑集中图斑的归一化耕地产能二级指标评分和耕地产能指数,对随机森林进行训练,得到耕地产能指数获取模型。作为一种可选实施例,所述第二获取单元,具体用于利用自助抽样法,重复所述第一预设数目次从所述样本区域内所有耕地图斑中有放回地抽取一定数目的图斑,获取所述第一预设数目各图斑集。作为一种可选实施例,所述训练单元,具体用于获取各所述二级指标的变量重要性数值;基于所述第一预设数目个图斑集中图斑的变量重要性数值较大的第二预设数目个耕地产能二级指标的归一化评分和耕地产能指数,对随机森林进行训练,得到耕地产能指数获取模型;所述第二预设数目小于等于所述第一预设数目。作为一种可选实施例,所述训练单元还具体用于对于每一个二级指标,获取每一所述图斑集对应回归树的袋外误差与该回归树对应袋外数据中该二级指标的随机修改值之差;基于所述一预设数目个所述差的平均值,获取该二级指标的变量重要性数值。作为一种可选实施例,所述耕地产能指数获取模块还具体用于基于所述耕地产能赋分规则表中各二级指标的最高预设分值和最低预设分值,对各所述二级指标评分进行归一化。最后,本发明的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

权利要求:1.一种基于随机森林的耕地产能指数获取方法,其特征在于,包括:步骤1,基于耕地产能赋分规则表和目标区域的耕地产能二级指标数据,获取所述目标区域的耕地产能二级指标评分;步骤2,将所述耕地产能二级指标评分归一化后,基于耕地产能指数获取模型,获取所述目标区域的耕地产能指数;其中,所述耕地产能指数获取模型为基于随机森林算法,由与所述目标区域采用相同赋分规则的样本区域的归一化耕地产能二级指标评分和耕地产能指数分别作为输入和输出训练而得。2.根据权利要求1所述的方法,其特征在于,所述步骤1之前还包括:获取所述样本区域内所有耕地图斑的耕地产能二级指标评分和耕地产能指数;基于所述样本区域内所有耕地图斑,获取第一预设数目个图斑集;基于所述第一预设数目个图斑集中图斑的归一化耕地产能二级指标评分和耕地产能指数,对随机森林进行训练,得到耕地产能指数获取模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述样本区域内所有耕地图斑,获取第一预设数目个图斑集具体包括:利用自助抽样法,重复所述第一预设数目次从所述样本区域内所有耕地图斑中有放回地抽取一定数目的图斑,获取所述第一预设数目各图斑集。4.根据权利要求2所述的方法,其特征在于,所述基于所述第一预设数目个图斑集中图斑的归一化耕地产能二级指标评分和耕地产能指数,对随机森林进行训练,得到耕地产能指数获取模型具体包括:获取各所述二级指标的变量重要性数值;基于所述第一预设数目个图斑集中图斑的变量重要性数值较大的第二预设数目个耕地产能二级指标的归一化评分和耕地产能指数,对随机森林进行训练,得到耕地产能指数获取模型;所述第二预设数目小于等于所述第一预设数目。5.根据权利要求4所述的方法,其特征在于,所述获取各所述二级指标的变量重要性数值具体包括:对于每一个二级指标,获取每一所述图斑集对应回归树的袋外误差与该回归树对应袋外数据中该二级指标的随机修改值之差;基于所述一预设数目个所述差的平均值,获取该二级指标的变量重要性数值。6.根据权利要求5所述的方法,其特征在于,任一所述二级指标Xj的变量重要性数值VXj获取方式为:其中,et为随机森林中第t个回归树的袋外误差,为随机改变袋外数据第j个指标Xj的值后第t个回归树产生的新的袋外误差,N为回归树的个数。7.根据权利要求2所述的方法,其特征在于,所述归一化具体包括:基于所述耕地产能赋分规则表中各二级指标的最高预设分值和最低预设分值,对各所述二级指标评分进行归一化。8.根据权利要求7所述的方法,其特征在于,所述归一化公式如下:其中,K为归一化后的二级指标评分,xi为一项二级指标评分,xmax为所述耕地产能赋分规则表中该项二级指标的最高预设分值,xmin为所述耕地产能赋分规则表中该项二级指标的最低预设分值。9.一种基于随机森林的耕地产能指数获取装置,其特征在于,包括:评分获取模块和耕地产能指数获取模块;所述评分获取模块,用于基于耕地产能赋分规则表和目标区域的耕地产能二级指标数据,获取所述目标区域的耕地产能二级指标评分;所述耕地产能指数获取模块,用于将所述耕地产能二级指标评分归一化后,基于耕地产能指数获取模型,获取所述目标区域的耕地产能指数;其中,所述耕地产能指数获取模型为基于随机森林算法,由与所述目标区域采用相同赋分规则的样本区域的归一化耕地产能二级指标评分和耕地产能指数分别作为输入和输出训练而得。

百度查询: 中国农业大学 基于随机森林的耕地产能指数获取方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。