买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种科技项目材料完整性评估决策模型训练方法_广东省科技基础条件平台中心;广东省科技基础条件平台建设促进会_201910305437.9 

申请/专利权人:广东省科技基础条件平台中心;广东省科技基础条件平台建设促进会

申请日:2019-04-16

公开(公告)日:2020-11-24

公开(公告)号:CN110046225B

主分类号:G06F16/33(20190101)

分类号:G06F16/33(20190101);G06Q10/06(20120101);G06F40/30(20200101)

优先权:

专利状态码:有效-授权

法律状态:2020.11.24#授权;2019.08.16#实质审查的生效;2019.07.23#公开

摘要:本发明涉及一种科技项目材料完整性评估决策模型训练方法,包括以下步骤:S1.制定结构化或非结构化评估规则;S2.基于结构化或非结构化评估规则建立评估规则树;S3.获取训练样本,根据评估规则树对训练样本进行训练,得到立项评估决策模型。本发明通过智能化机器训练方法生成用于自适应立项审查的决策模型,提高立项审查效率,减小人工审查压力,加快科技计划实施进度。

主权项:1.一种科技项目材料完整性评估决策模型训练方法,其特征在于,包括:S1.制定结构化或非结构化评估规则;S2.基于结构化或非结构化评估规则建立评估规则树;S3.采集训练样本,根据评估规则树对训练样本进行分析训练,得到立项评估决策模型;所述结构化评估规则包括基于特征关键字和或特征关键值的语义评估规则;基于结构化评估规则建立评估规则树,具体包括:根据立项初审指南建立基于语义的评估规则树;所述非结构化评估规则包括文字评估规则;基于非结构化规则建立评估规则树,具体包括:根据规则关键词解析非结构化评估规则,得到评估标准关键句,基于依存句法解析评估标准关键句的句义,建立基于关键词和或短语和或条件关系的评估规则树;所述步骤S3具体包括:S31.选取审核通过的科技项目立项数据作为正样本,选取审核未通过的科技项目立项数据作为负样本;S32.根据评估规则树对正样本进行分析,生成评估任务树;S33.基于评估任务树建立混合数据节点,感应和评估神经网络,在正样本分析的过程中监听节点分析状态,得到初始的立项评估决策模型;S34.根据初始的立项评估决策模型对正样本与负样本混合后的混合样本进行分析,得到最终的立项评估决策模型;所述步骤S32,具体包括:对正样本的结构化数据进行分析,提取特征关键语义词,根据评估规则树对特征关键语义词进行定向聚类分析,得到结构化数据匹配规则语料,并基于结构化数据匹配规则语料生成结构化评估任务树;对正样本的非结构化数据进行分类,得到数据类别标识字段,根据评估规则树对数据类别标识字段进行定向聚类分析,得到非结构化数据匹配规则语料,并基于非结构化数据匹配规则语料生成非结构化评估任务树;所述步骤S34,具体包括:S341.基于初始的立项评估决策模型对负样本进行分析,生成未通过原因描述语义生成器;S342.对正样本与负样本混合后的混合样本进行甄别,结合未通过原因描述语义生成器生成最终的立项评估决策模型;所述步骤S341,具体包括:基于初始的立项评估决策模型对负样本进行分析,获取节点感应数据,对节点感应数据进行分层聚类分析,对分层聚类中心与负样本的纠错语义进行相似度计算,得到纠错语料,根据纠错语料生成基于纠错语料的未通过原因描述语义生成器;所述步骤S342中,对混合样本中的负样本进行甄别时,对甄别失败的样本进行清洗,保留甄别失败的关键子数据,对关键子数据进行聚类分析得到聚类中心,根据聚类中心生成关键识别语料,并添加至最终的立项评估决策模型中。

全文数据:一种科技项目材料完整性评估决策模型训练方法技术领域本发明涉及科技项目管理技术领域,更具体地,涉及一种科技项目材料完整性评估决策模型训练方法。背景技术在科技项目立项审查中,由于科技项目申报者无法熟知立项申报条件或申报材料填写而导致项目申报的数据上传疏漏,对科技项目管理部门的立项审查工作带来较大的困难,为提高立项审查效率,加快科技计划实施进度,急需要一种智能化的审查立项信息方法。发明内容本发明旨在克服上述现有技术的至少一种缺陷不足,提供一种科技项目材料完整性评估决策模型训练方法,通过智能化机器训练方法生成用于自适应立项审查的决策模型,提高立项审查效率,减小人工审查压力,加快科技计划实施进度。本发明采取的技术方案是:一种科技项目材料完整性评估决策模型训练方法,包括:S1.制定结构化或非结构化评估规则;S2.基于结构化或非结构化评估规则建立评估规则树;S3.获取训练样本,根据评估规则树对训练样本进行训练,得到立项评估决策模型。进一步地,所述结构化评估规则包括基于特征关键字和或特征关键值的语义评估规则;基于结构化评估规则建立评估规则树,具体包括:根据立项初审指南建立基于语义的评估规则树。进一步地,所述非结构化评估规则包括文字评估规则;基于非结构化规则建立评估规则树,具体包括:根据规则关键词解析非结构化评估规则,得到评估标准关键句,基于依存句法解析评估标准关键句的句义,建立基于关键词和或短语和或条件关系的评估规则树。进一步地,所述步骤S3具体包括:S31.选取审核通过的科技项目立项数据作为正样本,选取审核未通过的科技项目立项数据作为负样本;S32.根据评估规则树对正样本进行分析,生成评估任务树;S33.基于非结构化数据评估任务树建立混合数据节点感应评估神经网络,在正样本分析的过程中监听节点分析状态,得到初始的立项评估决策模型;S34.根据初始的立项评估决策模型对正样本与负样本混合后的混合样本进行分析,得到最终的立项评估决策模型。进一步地,所述步骤S32,具体包括:对正样本的结构化数据进行分析,提取特征关键语义词,根据评估规则树对特征关键语义词进行定向聚类分析,得到结构化数据匹配规则语料,并基于结构化数据匹配规则语料生成结构化评估任务树;对正样本的非结构化数据进行分类,得到数据类别标识字段,根据评估规则树对数据类别标识字段进行定向聚类分析,得到非结构化数据匹配规则语料,并基于非结构化数据匹配规则语料生成非结构化评估任务树。进一步地,所述步骤S34,具体包括:S341.基于初始的立项评估决策模型对负样本进行分析,生成未通过原因描述语义生成器;S342.对正样本与负样本混合后的混合样本进行甄别,结合未通过原因描述语义生成器生成最终的立项评估决策模型。进一步地,所述步骤S341,具体包括:基于初始的立项评估决策模型对负样本进行分析,获取节点感应数据,对节点感应数据进行分层聚类分析,对分层聚类中心与负样本的纠错语义进行相似度计算,得到纠错语料,根据纠错语料生成基于纠错语料的未通过原因描述语义生成器。进一步地,所述步骤S342中,对混合样本中的负样本进行甄别时,对甄别失败的样本进行清洗,保留甄别失败的关键子数据,对关键子数据进行聚类分析得到聚类中心,根据聚类中心生成关键识别语料,并添加至最终的立项评估决策模型中。进一步地,所述方法还包括:S4.根据立项评估决策模型部署评估反馈网络。进一步地,所述步骤S4,具体包括反馈步骤或者包括反馈步骤和修正步骤;反馈步骤:根据立项评估决策模型实时评估节点反馈和或纠错语料反馈,定时对节点反馈和或纠错语料反馈进行聚类分析得到聚类分析结果,将聚类分析结果中聚簇密度较大的纠错语料上报至立项审查相关人员;修正步骤:根据聚类分析结果对立项评估决策模型进行人工修正。与现有技术相比,本发明的有益效果为:1通过智能化机器训练方法生成用于自适应立项审查的立项评估决策模型,提高立项审查效率,减小人工审查压力,加快科技计划实施进度;2根据立项评估决策模型部署反馈网络,在立项审查过程中可以及时地将纠错语料上报至科技管理者、立项申请者、决策模型优化者等,也可以及时地根据纠错语料对立项评估决策模型进行人工修正。附图说明图1为本发明实施例的依存句法分析示意图。具体实施方式本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。实施例本实施例提供一种科技项目材料完整性评估决策模型训练方法,包括:S1.制定结构化或非结构化评估规则;S2.基于结构化或非结构化评估规则建立评估规则树;S3.获取训练样本,根据评估规则树对训练样本进行训练,得到立项评估决策模型;S4.根据立项评估决策模型部署评估反馈网络。在本实施例中,结构化评估规则为基于特征关键字和或特征关键值的语义评估规则,非结构化评估规则为文字评估规则,各段文字评估规则均有特征语义目录作为区分标识。在本实施例中,基于结构化评估规则建立评估规则树,具体包括:根据立项初审指南建立基于语义的评估规则树。假定有一段立项初审指南如下:一、项目基本信息项目名称:XXX科技计划项目2019年度项目时间:2019.01.01~2021.12.31项目领域:新一代通信技术、柔性材料、超导材料、集成芯片制造二、立项基本条件申报人资质:申报人需为申报单位编制人员,每年不少于6个月于申报单位岗位工作,申报人职称需为正高级以上,近5年内立项或结题超过5项省部级以上项目,至少一项项目金额超过200万元;申报单位资质:参与项目人员不少于10人,并且副高级以上人员不少于5人,近3年承担过超过10项省部级以上项目,项目金额不少于1000万元,申报单位隶属科技厅、教育厅、工信厅,办公及实验场地超过1000平米,固定资产超过1000万元,资产使用率超过70%。三、佐证材料筛查参与评估的项目,项目负责人需为申报单位编制人员,且项目领域与立项领域相关,若为联合项目,本承担单位经费比例不少于30%。基于上述立项初审指南,建立结构化评估规则如下:在本实施例中,基于非结构化规则建立评估规则树,具体包括:根据规则关键词解析非结构化评估规则,得到评估标准关键句,基于依存句法解析评估标准关键句的句义,建立基于关键词和或短语和或条件关系的评估规则树。非结构化评估规则可以为原始立项审查方案文本,为项目负责人及申报单位条件的描述,主要涉及文本数据审查,实际中如,对可行性报告、项目合同、任职合同、项目申请书等的审查,基于规则对各类文本的审查均有目录词,如“申报人资质”、“申报单位资质”作为标识,用于生成纠错语料、语义规则树、自然语言描述等。对于非结构化评估规则需转化成结构化的评估规则树,如对于申报人资质描述为“申报人需为申报单位编制人员;申报人职称需为正高级以上,近5年内立项或结题不少于5项省部级以上项目,至少一项项目金额超过200万元”,首先根据标点符号识别或根据依存句法找到完整句及句子主体,例如上述申报人资质描述语料按照“;”或主体词“申报人”可分为两句,然后根据依存句法及逻辑规则建立评估规则树,对第一句可形成如图1所示的句法树,根据句法树建立结构化评估规则如下:在本实施例中,所述步骤S3具体包括:S31.选取审核通过的科技项目立项数据作为正样本,选取审核未通过的科技项目立项数据作为负样本;S32.根据评估规则树对正样本进行分析,生成评估任务树;S33.基于非结构化数据评估任务树建立混合数据节点感应评估神经网络,在正样本分析的过程中监听节点分析状态,得到初始的立项评估决策模型;S34.根据初始的立项评估决策模型对正样本与负样本混合后的混合样本进行分析,得到最终的立项评估决策模型。具体实施过程中,所述选取审核未通过的科技项目立项数据作为负样本,具体可以包括:根据审核未通过的原因分层选取审核未通过的科技项目立项数据作为负样本。在选取正样本和负样本的过程中,可以基于以下规则进行选取:1样本平衡性正样本和负样本的比例;2负样本错误类型平衡性错误类型可以包括:重复、匹配错误、缺失等。在本实施例中,所述步骤S32,具体包括:对正样本的结构化数据进行分析,提取特征关键语义词,根据评估规则树对特征关键语义词进行定向聚类分析,得到结构化数据匹配规则语料,并基于结构化数据匹配规则语料生成结构化评估任务树;对正样本的非结构化数据进行分类,得到数据类别标识字段,根据评估规则树对数据类别标识字段进行定向聚类分析,得到非结构化数据匹配规则语料,并基于非结构化数据匹配规则语料生成非结构化评估任务树。对于正样本,上传系统及在系统填报的数据均为完整无误的,包括结构化数据组成、非结构化文本数据组成。对于结构化数据,一般由系统填报字段构成,比如项目名称、参与人员、起止时间、职称等,提取关联字段对应的数据后进行。对于结构化数据,其语义匹配目的在于,将规则语义词和申报人填报语义词进行归约,例如,在审查规则描述中,对领域的描述为“项目领域为‘新一代通信技术’、‘超导材料’、‘柔性材料’、‘集成芯片’之一”,实际中,规则中的领域词来源于科技计划资助或扶持领域,一般领域名词或对应多类技术名词,如“新一代通信技术”包括“5G通信”、“超视距可见光通信”、“太赫兹通信”等,“柔性材料”包括材料类“石墨烯”、“碳纳米”、“无机半导体”等,应用类“柔性显示”、“柔性储能”等,这一类为名词语义关联,通过聚类及关联分析得到结构化数据匹配规则语料;另一类为语义标识词的关联,由于填报系统与审查制度制定部门或人员不同,即使是相同语义,却使用不同表达,如规则中限定“参与人员不少于10人”,而填报系统的关键字段可能为“项目组成员”、“团队人员”、“科研团队”等,而不是“参与人员”,审查指南可以使用同语义的任意词汇,而系统的字段不一定与之相同,另一方面,对于参与人员,系统中一般还将人员分为两组,一组为负责人成员,另一组为团队其他成员,在统计时,参与人员包含两组人员,即该情况下,参与人员要匹配两个字段成员,对此需根据字段关联语料或数据与规则进行相似度计算,以规则描述字段为聚类中心,相似度为关联向量构造规则语料聚簇,如此,可以依据特征词定位匹配分析字段作为结构化数据匹配规则语料。最终,可依据结构化数据匹配规则语料形成结构化评估任务树。对于非结构化数据,包括系统中填报的段落,如“研究目的”、“研究背景”、“应用价值”等的描述,以及人员、团队、项目、硬件条件等佐证材料。此类数据一般存于附件中,一方面可在数据库中对附件进行细分,使申报人在系统填报时即完成第一次分类,另一方面可通过语料特征,如文本标题关键字“可行性报告”“XXX项目书”“XXX任务书”等、篇章标题关键字“必要性”“研究方案”“团队介绍”“人才队伍”等、长句关键字段“经费”“XX科技计划”“国家自然基金”“XXX项目”,如此按照规则即分析目的与语料关键字的匹配进行文本分类,根据文本类型,提取语义关键字,统计项目经费、类型、起止时间、申报单位等关联词频筛取项目合同或项目任务书文本,通过聚类分析得到类语义表述语料,即为非结构化数据匹配规则语料,根据规则语料生成语义向量,与正样本中的定向关联文本进行特征匹配,同时进行聚类分析,得到关联语义簇,最终形成文本识别框架,如不同类型的项目或不同级别的项目,项目合同书、立项任务书等的格式或关键字段不同,可通过上述步骤将格式或关键字段的语义统一,形成文本识别框架将同类语义的语料归集分类。后续,可根据文本识别框架快速对文本进行分类,并定向提取规则关联语料,根据文本结构及规则树形成非结构化数据评估任务树,对于如图1所示的申报人资质评估规则,包括项目时间、经费、项目申报单位、项目负责人归属,项目领域类型等,如依据规则可得到识别框架为:优选地,可以依据规则树生成模块化的任务树,对目标文本的分析即对文本中的目标语料进行模块化分析,通常某些申报人员在上传佐证材料时可能将多个项目的项目合同书、项目任务书等合并在一个文件中,模块化的分析即首先进行文本分类,根据识别框架对目标文本存在的同类型语料进行分离以对一个项目的文本语料分析为一个流程,如此,单流程的分析结果可以作为进一步筛查依据,也便于统计总数据,总数据还可反映申报单位资质,若出现不符规则的可以反馈具体位置,便于申报人员修改。在本实施例中,所述步骤S34,具体包括:S341.基于初始的立项评估决策模型对负样本进行分析,生成未通过原因描述语义生成器;S342.对正样本与负样本混合后的混合样本进行甄别,结合未通过原因描述语义生成器生成最终的立项评估决策模型。在本实施例中,所述步骤S341,具体包括:基于初始的立项评估决策模型对负样本进行分析,获取节点感应数据,对节点感应数据进行分层聚类分析,对分层聚类中心与负样本的纠错语义进行相似度计算,得到纠错语料,根据纠错语料生成基于纠错语料的未通过原因描述语义生成器。在最终的立项评估决策模型中,包括立项完整性评估模型及基于纠错语料的未通过原因描述语义生成器。在本实施例中,所述步骤S342中,对混合样本中的负样本进行甄别时,对甄别失败的样本进行清洗,保留甄别失败的关键子数据,对关键子数据进行聚类分析得到聚类中心,根据聚类中心生成关键识别语料,并添加至最终的立项评估决策模型中。在具体实施过程中,聚类中心或聚簇变化可以作为负样本漏查优化依据,使得负样本能够被全部甄别。所述负样本包括条件规定数据的缺失、不匹配、重复等,在初始的立项评估决策模型中,只具备规则关联匹配方法,模块化的分析可识别缺失及重复性问题,如在多个文件中出现同一个项目,根据项目基本信息的检测即可甄别,如符合条件的项目数量少于规定数,遍历全局数据后未找到佐证材料等。对这类负样本的分析,可保证决策模型的有效性并可生成纠错语料,有助于原因描述自然语言构造树的形成;而对于不匹配的数据,该状态由节点感知中可得到匹配失败的基本原因,即流程中某项数据缺失,缺失的根本原因包括语义关联匹配失败、材料中未提及关键数据如项目经费、项目依托单位等,根据节点反馈定位数据分析节点,以只保留节点关联数据为前提进行样本清洗,剔除可匹配语义字段,保留甄别失败字段,并与缺少判别规则关联,如对于“项目经费”指标的识别,大多合同或任务书中,可由关键字段“项目经费”、“总经费”等进行查找匹配,但可能少数佐证材料中,可能有“由XX政府投入XX万元”,“XX自筹XX万元”,“增补XX万元”等,通常这类数据的辨识性较高,对该类数据进行聚类分析存入相异特征语料库中,同时根据节点关联将关键识别语料添加至关联语义匹配规则中,剔除字段缺少的数据,提高甄别准确率。在本实施例中,所述步骤S4,包括反馈步骤:根据立项评估决策模型实时评估节点反馈和或纠错语料反馈,定时对节点反馈和或纠错语料反馈进行聚类分析得到聚类分析结果,将聚类分析结果中聚簇密度较大的纠错语料上报至立项审查相关人员。在本实施例中,所述步骤S4,还包括修正步骤:根据聚类分析结果对立项评估决策模型进行人工修正。显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

权利要求:1.一种科技项目材料完整性评估决策模型训练方法,其特征在于,包括:S1.制定结构化或非结构化评估规则;S2.基于结构化或非结构化评估规则建立评估规则树;S3.采集训练样本,根据评估规则树对训练样本进行分析训练,得到立项评估决策模型。2.根据权利要求1所述的一种科技项目材料完整性评估决策模型训练方法,其特征在于,所述结构化评估规则包括基于特征关键字和或特征关键值的语义评估规则;基于结构化评估规则建立评估规则树,具体包括:根据立项初审指南建立基于语义的评估规则树。3.根据权利要求1所述的一种科技项目材料完整性评估决策模型训练方法,其特征在于,所述非结构化评估规则包括文字评估规则;基于非结构化规则建立评估规则树,具体包括:根据规则关键词解析非结构化评估规则,得到评估标准关键句,基于依存句法解析评估标准关键句的句义,建立基于关键词和或短语和或条件关系的评估规则树。4.根据权利要求1所述的一种科技项目材料完整性评估决策模型训练方法,其特征在于,所述步骤S3具体包括:S31.选取审核通过的科技项目立项数据作为正样本,选取审核未通过的科技项目立项数据作为负样本;S32.根据评估规则树对正样本进行分析,生成评估任务树;S33.基于非结构化数据评估任务树建立混合数据节点感应评估神经网络,在正样本分析的过程中监听节点分析状态,得到初始的立项评估决策模型;S34.根据初始的立项评估决策模型对正样本与负样本混合后的混合样本进行分析,得到最终的立项评估决策模型。5.根据权利要求4所述的一种科技项目材料完整性评估决策模型训练方法,其特征在于,所述步骤S32,具体包括:对正样本的结构化数据进行分析,提取特征关键语义词,根据评估规则树对特征关键语义词进行定向聚类分析,得到结构化数据匹配规则语料,并基于结构化数据匹配规则语料生成结构化评估任务树;对正样本的非结构化数据进行分类,得到数据类别标识字段,根据评估规则树对数据类别标识字段进行定向聚类分析,得到非结构化数据匹配规则语料,并基于非结构化数据匹配规则语料生成非结构化评估任务树。6.根据权利要求4所述的一种科技项目材料完整性评估决策模型训练方法,其特征在于,所述步骤S34,具体包括:S341.基于初始的立项评估决策模型对负样本进行分析,生成未通过原因描述语义生成器;S342.对正样本与负样本混合后的混合样本进行甄别,结合未通过原因描述语义生成器生成最终的立项评估决策模型。7.根据权利要求6所述的一种科技项目材料完整性评估决策模型训练方法,其特征在于,所述步骤S341,具体包括:基于初始的立项评估决策模型对负样本进行分析,获取节点感应数据,对节点感应数据进行分层聚类分析,对分层聚类中心与负样本的纠错语义进行相似度计算,得到纠错语料,根据纠错语料生成基于纠错语料的未通过原因描述语义生成器。8.根据权利要求6所述的一种科技项目材料完整性评估决策模型训练方法,其特征在于,所述步骤S342中,对混合样本中的负样本进行甄别时,对甄别失败的样本进行清洗,保留甄别失败的关键子数据,对关键子数据进行聚类分析得到聚类中心,根据聚类中心生成关键识别语料,并添加至最终的立项评估决策模型中。9.根据权利要求1至8任一项所述的一种科技项目材料完整性评估决策模型训练方法,其特征在于,还包括:S4.根据立项评估决策模型部署评估反馈网络。10.根据权利要求9所述的一种科技项目材料完整性评估决策模型训练方法,其特征在于,所述步骤S4,具体包括反馈步骤或者包括反馈步骤和修正步骤;反馈步骤:根据立项评估决策模型实时评估节点反馈和或纠错语料反馈,定时对节点反馈和或纠错语料反馈进行聚类分析得到聚类分析结果,将聚类分析结果中聚簇密度较大的纠错语料上报至立项审查相关人员;修正步骤:根据聚类分析结果对立项评估决策模型进行人工修正。

百度查询: 广东省科技基础条件平台中心;广东省科技基础条件平台建设促进会 一种科技项目材料完整性评估决策模型训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。