【发明公布】一种基于因果推断的本科生毕业去向预测方法与可视分析系统_北京工商大学_202311737334.2

申请/专利权人：北京工商大学

申请日：2023-12-16

公开（公告）日：2024-02-27

公开（公告）号：CN117609731A

主分类号：G06F18/20

分类号：G06F18/20;G06F18/213;G06N3/0464;G06N3/08;G06Q50/20;G06T11/20

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.03.15#实质审查的生效;2024.02.27#公开

摘要：本发明公布了一种基于因果推断的本科生毕业去向预测方法与可视分析系统。预测方法包括：数据预处理与FDAP数据集构建、对FDAP数据集进行特征增强操作得到FDAP特征集、应用基于随机森林和因果推断的特征选择方法进行特征筛选、构建基于多层感知机的本科生毕业去向预测模型、对模型的有效性进行评估。该方法可以有效地处理FDAP特征集中的高维混合型数据和复杂非线性关系，提高预测本科生毕业去向的准确度。可视分析系统包括：数据导入和过滤视图、当前在校学生毕业去向预测视图、学业表现与毕业去向之间的因果和相关关系视图和指定专业毕业生的毕业去向分布视图。该系统可为学生和老师进行就业决策和学业表现分析提供个性化指导。

主权项：1.一种基于因果推断的本科生毕业去向预测方法，其特征是，数据预处理与FDAP数据集构建、对FDAP数据集进行特征增强操作得到FDAP特征集、应用基于随机森林和因果推断的特征选择方法进行特征筛选、构建基于多层感知机的本科生毕业去向预测模型CRFDL-MLP、对模型的有效性进行评估；包括如下步骤：A.数据预处理与FDAP数据集构建；将原始数据进行数据清洗和数据转换，并将经过预处理的数据集定义为毕业去向与学业表现FDAP数据集以下内容提到的数据均为二维表形式，每行代表一名学生记录，每列代表学生具有的属性；具体方法如下：A1：使用z-score方法来检测和处理异常值；具体地，首先计算原始数据集中每个属性课程成绩的均值μ和标准差σ，然后计算该属性中每条记录相对于该属性均值的偏差值，即z-score：其中，xij是第i个学生的第j门课程的成绩，zij是对应的z-score值；根据高斯分布的性质，大约68％的数据应该位于均值加减一个标准差的范围内，而95％的数据应该位于均值加减两个标准差的范围内；因此，将超过3个标准差的课程成绩视为异常值，并将其从数据集中删除；A2:处理空缺值和删除冗余特征；在此步骤中，首先筛选并删除缺失“毕业去向”数据的学生学业数据，每行代表一个学生的学业数据；然后删除缺失学生课程成绩超过整列70％的课程特征，每列代表学生课程；最后，用0填充缺失数据；A3：将原始的“毕业去向”数据由细化的数据总结替换成5个毕业去向，包括读研、出国、就业、自由职业和待业，并使用one-hot编码进行转换，将5个毕业去向分别用5个二进制属性表示；A4：使用z-score标准化方法对学生学业表现数据集中课程成绩数据进行标准化，使得数据符合标准正态分布，即均值为0，标准差为1；具体步骤是，先计算原始数据集中每个属性的均值μ和标准差σ，然后对每个xij减去均值，再除以标准差，最后得到标准化后的zij，即z-score；由此得到FDAP数据集，包括本科生的个人信息、大学四年内的学业表现以及毕业后的首次就业去向信息；其中，1个人信息包括：学生ID、姓名、性别、专业、班级、生源地等；2学业表现信息包括：大学四年内每门课程的成绩、每门课程的学分、总学分、GPA平均绩点、CET4、CET6大学英语六级成绩等；3毕业去向包括：读研、出国、就业、自由职业和待业读研指的是在中国的研究生学习，而出国指的是在国外的研究生学习或就业，毕业年份，就业单位以及所属行业；FDAP数据集的矩阵形式如式2所示: 假设FDAP数据集中有n个学生的数据记录，每条记录有m个属性；其中，前k个属性是个人信息，中间l个属性是学业表现信息，最后5个属性是毕业去向信息；B.对FDAP数据集进行特征增强操作得到FDAP特征集；为了提高模型处理非线性关系的能力，对FDAP数据集中的学业表现成绩数据使用Yeo-Johnson转换将非高斯属性转化为更接近高斯分布的结构，经过处理得到FDAP特征集FDAPFeatureSet；Yeo-Johnson转换如公式3所示，转换后得到的FDAP特征集矩阵如公式4所示：其中，xnl代表学业表现数据式2中的Academic矩阵的第n行第l列的元素，ynl＝fxnl，λl代表转换后的元素式4中的Academic′矩阵，λl是转换参数，可以通过最大似然法估计；式3中，Academic′是经过Yeo-Johnson转换后的学业表现数据，是转换后矩阵中的第n行第l列的元素，λl是第l个属性的转换参数；C.应用基于随机森林和因果推断的特征选择方法CRFDL进行特征筛选；1第一阶段：对FDAP特征集使用随机森林计算Academic′矩阵中每个属性相对于目标属性FDAP特征集中的Destination矩阵的重要性得分，如公式5所示：其中，Ij是第j个属性的重要性得分，n是学生数量，fj是随机森林中的评估函数，是第i个学生的第j个属性的值，Di是第i个学生的目标属性值即Destination矩阵中的一行；对于每个属性，计算它与目标属性的相关性，然后取所有学生样本的平均值作为该属性的重要性得分；重要性得分越高，说明该属性对于预测目标属性毕业去向越有贡献；使用信息增益作为评估函数fj，信息增益计算方法如下：其中，HDi是第i个学生样本的目标属性毕业去向的熵，是在给定第i个学生样本的第j个属性值的条件下，目标属性的条件熵；信息增益越大，说明属性值对目标属性的影响越大；熵和条件熵的计算方法如下：其中，pk是第i个学生样本的目标属性为第k个类别的概率，Vj是第j个属性的取值集合，是第i个学生样本的第j个属性值为v的概率，是在给定第i个学生样本的第j个属性值为v的条件下，目标属性的熵；最终，将Academic′矩阵中每个属性的重要性得分降序排序，选取前90％个得分最高的属性，形成RF数据集，用于输入到第二阶段的DirectLiNGAM算法；RF数据集可以用如下矩阵表示：其中，s是筛选出的属性的个数，j1,j2,...,js是按重要性得分降序排列的属性的索引；这个矩阵的意义是，只保留了对目标属性有较大贡献的属性，从而减少了数据的维度和噪声，提高了第二阶段DirectLiNGAM算法的效率和准确性；2第二阶段：使用DirectLiNGAM算法构建RF数据集的因果结构，得到因果效应矩阵；首先，将RF数据集中的所有属性作为候选属性集；对于候选属性集中的每个属性，使用核方法计算其与其他属性的差分互信息，以获得因果顺序，并选择差分互信息最大的属性作为当前因果关系的起点；差分互信息的计算公式如下：其中，Yi和Yj表示RF数据集中的属性i≠j，表示Yi和Yj的核矩阵，|·|表示行列式；差分互信息可以衡量两个属性之间的非线性相关性，越大表示越相关；核方法是一种非参数的统计方法，可以用来估计非线性的互信息；每次选择因果顺序后，算法都会根据最大熵原则计算并更新当前因果关系之外的其他属性与起始属性的残差，以减少重复因果关系对下一次选择的影响；最大熵原则的含义是，在满足已知条件的情况下，选择熵最大的概率分布作为最优解；残差的计算公式如下：其中，表示第i个属性的残差，Pi表示已经确定的Yi的父节点集合也就是影响Yi的其他属性，表示Yj对Yi的回归系数也就是属性Yj对属性Yi的影响程度；然后，从候选属性集中删除起始属性，并更新候选属性集，直到确定所有属性的因果关系；然后，计算出一个邻接矩阵来表示属性之间的因果关系；该矩阵的每个元素都表示一个属性是否与另一个属性存在因果关系；邻接矩阵的计算公式如下： aij为邻接矩阵A的元素，根据属性的因果系数来判断属性i和属性j是否有因果关系；如果不等于0，说明属性j对属性i有因果影响，那么邻接矩阵的元素aij就为1；如果等于0，说明属性j对属性i没有因果影响，那么邻接矩阵的元素aij就为0；最后，算法返回因果效应矩阵W，并根据W绘制因果网络G；因果效应矩阵的每个元素都表示一个属性对另一个属性的因果效应的大小；因果效应矩阵的计算公式如下：W＝Z1，Z2，...，ZS＝I-A-1B13其中，I表示单位矩阵，A表示邻接矩阵，B表示回归系数矩阵；因果效应矩阵W的元素wij表示第i个属性对第j个属性的总因果效应，包括直接和间接的影响；假设RF数据集矩阵包含四个科目，那么可以得到如下类似的因果效应矩阵：这表示，科目1对其他科目都有正向影响，科目2对科目3和科目4有正向的影响，科目3对科目4有负向的影响；3在构建因果网络的过程中，进一步筛选出因果效应显著的关系中包含的属性，为下一步构建CRFDL-MLP模型提供训练集和测试集；首先，使用HSICHilbert-SchmidtIndependenceCriterion，希尔伯特-施密特独立准则检验，得出每对属性之间因果效应的显著性检验p值，表示属性之间的因果关系是否显著；HSIC检验的计算公式如下：其中，X和Y是两个误差变量，n是学生样本数，K和L是分别由X和Y的核函数计算的Gram矩阵，H是中心化矩阵，即其中I是单位矩阵，1是全1向量，tr·是矩阵的迹运算；X和Y是原始数据RF的两个属性与邻接矩阵A的乘积之差，即：X＝En，i＝RFn，i-A·RFTn，i16Y＝En，j＝RFn，j-A·RFTn，j17其中，i和j是两个不同的属性索引，n表示所有的学生样本，E是误差变量矩阵，RF是原始数据矩阵，A是公式12得到的邻接矩阵，RFT是RF的转置，En,i和RFn,i分别表示E和RF的第i列，A·RFTn,i表示A·RFT的第i列；然后，设定一个临界值，通常p-value0.05表示因果效应显著；根据p值和阈值的比较，将因果效应矩阵中p-value≥0.05的元素设为0，以排除那些不显著的因果关系；至此得到的RF*矩阵如下所示：其中，q是经过筛选出具有显著因果效应的关系中包含的属性个数；D.构建基于多层感知机的本科生毕业去向预测模型CRFDL-MLP；CRFDL-MLP模型是一种结合了因果推断与深度学习的新型预测模型；经过对FDAP特征集使用基于随机森林和因果推断的特征选择方法CRFDL进行特征筛选后，得到FDAP重要特征集，为构建CRFDL-MLP模型提供训练集和测试集；至此FDAP重要特征集FDAPFeatureSet*可以用如下矩阵表示： CRFDL-MLP的神经网络结构包括一个输入层、四个隐藏层和一个输出层；输入层输入RF*和Destination矩阵的数据，神经元数量为q+5个，使用ReLU激活函数；前三个隐藏层分别包含256、128和64个神经元，都使用ReLU激活函数，并使用批归一化和Dropout层来防止过拟合；第四个隐藏层包含32个神经元，同样使用ReLU激活函数；输出层的神经元数量为5个，代表五个毕业去向，使用Softmax激活函数；CRFDL-MLP模型使用ReLU和Softmax激活函数，缓解了梯度消失问题；Softmax用于输出层以实现概率分布；在训练过程中，使用交叉熵损失作为优化目标，并使用Adam优化器来优化神经网络的权重和偏置；为了防止过拟合，添加了批归一化和Dropout层；CRFDL-MLP模型训练的具体计算过程如下：假设输入层的数据为X∈Rn×q+5，其中n是样本数，q是RF*矩阵的列数；输出层的目标向量为Y∈Rn×5，其中每一行是一个one-hot编码的向量，表示某个学生的毕业去向；输入层到第一个隐藏层的权重矩阵为W1∈Rq+5×256，偏置向量为b1∈R256；第一个隐藏层的激活函数为ReLU，即f1x＝max0，x；则第一个隐藏层的输出为Z1＝f1XW1+b1；第一个隐藏层到第二个隐藏层的权重矩阵为W2∈R256×128，偏置向量为b2∈R128；第二个隐藏层的激活函数也为ReLU，即f2x＝max0，x；则第二个隐藏层的输出为Z2＝f2z1W2+b2；第二个隐藏层到第三个隐藏层的权重矩阵为W3∈R128×64，偏置向量为b3∈R64；第三个隐藏层的激活函数也为ReLU，即f3x＝max0，x；则第三个隐藏层的输出为Z3＝f3Z2W3+b3；第三个隐藏层到第四个隐藏层的权重矩阵为W4∈R64×32，偏置向量为b4∈R32；第四个隐藏层的激活函数也为ReLU，即f4x＝max0，x；则第四个隐藏层的输出为Z4＝f4Z3W4+b4；第四个隐藏层到输出层的权重矩阵为W5∈R32×5，偏置向量为b5∈R5；输出层的激活函数为Softmax，即则输出层的输出为为了优化模型的参数，需要定义一个损失函数来衡量模型的预测与真实标签之间的差异；由于输出层使用了Softmax激活函数，可以采用交叉熵损失函数，其定义如下：其中，Yij表示第i个样本的第j个标签，表示第i个样本的第j个预测值；交叉熵损失函数可以衡量两个概率分布之间的相似度，越小表示越相似；为了最小化损失函数，需要使用梯度下降法来更新模型的参数；梯度下降法的更新公式如下：其中，θ表示任意的模型参数，η表示学习率，表示损失函数对参数的偏导数，也就是梯度；为了计算梯度，需要使用反向传播算法，即从输出层开始，逐层计算损失函数对每个参数的偏导数，并将其传递给前一层，直到输入层；反向传播算法的具体步骤如下：a计算输出层的误差其中和Y都是n×5的矩阵；b计算输出层的梯度其中δ5i表示δ5的第i行；c计算第四个隐藏层的误差δ4＝W5δ5⊙f4′Z4W5+b5，其中⊙表示哈达玛积，即对应元素相乘，f4′表示ReLU函数的导数，即f4′x＝1，如果x＞0，否则为0；d计算第四个隐藏层的梯度e重复上述过程，计算第三个、第二个和第一个隐藏层的误差和梯度，直到得到所有参数的梯度；f使用梯度下降法更新所有参数，即其中k＝1，2，3，4，5；本方法中主要优化的参数包括：1神经元数量Neurons：即隐藏层中的神经元数量，包括每个隐藏层的神经元数量；可以考虑在不同的隐藏层中设置不同数量的神经元；2批处理大小BatchSize：训练时每个小批量的样本数；不同的批处理大小可能会影响收敛速度和模型性能；3迭代次数Epochs：训练的迭代次数，即整个数据集被传递给神经网络的次数；4学习率LearningRate：Adam优化器的学习率，它控制参数更新的步长；学习率过大可能导致震荡，而学习率过小可能导致收敛缓慢；5正则化参数Regularization：L2正则化参数，用于控制模型的复杂度，防止过拟合；E.对本科生毕业去向预测模型CRFDL-MLP的性能和可解释性进行评估；E1.使用准确度、精确度、召回率、F1分数、ROC曲线下的面积AUC，比较和评估CRFDL-MLP模型与四个现有基准预测模型朴素贝叶斯、逻辑回归、支持向量机和随机森林分类器在FDAP特征集上的性能；1Accuracy准确率：是指分类模型正确预测的样本数占总样本数的比例；计算公式为：其中，TP真正例是指实际为正例且预测为正例的样本数，TN真反例是指实际为反例且预测为反例的样本数，FP假正例是指实际为反例但预测为正例的样本数，FN假反例是指实际为正例但预测为反例的样本数；2Precision精确率：是指分类模型预测为正例的样本中实际为正例的比例；计算公式为：精确率反映了模型预测正例的准确性，越高表示越少出现假正例；3Recall召回率：是指分类模型预测出的正例占实际正例的比例；计算公式为：召回率反映了模型预测正例的完整性，越高表示越少漏掉真正例；4F1-ScoreF1值：是指精确率和召回率的调和平均数，用于综合评价模型的性能；计算公式为： F1值越高表示模型的精确率和召回率都越高，平衡了两者之间的权重；5AUCAreaUnderCurve：是指ROC曲线ReceiverOperatingCharacteristicCurve下的面积，用于评价二分类模型的性能；ROC曲线是以假正例率FalsePositiveRate，FPR为横轴，真正例率TruePositiveRate，TPR为纵轴绘制的曲线，反映了模型在不同阈值下的分类效果；计算公式为： AUC越接近1表示模型的性能越好，越接近0.5表示模型的性能越差；E2.使用SHAP值指标来评估CRFDL-MLP模型的可解释性；ShapleyAdditiveexPlanations简称SHAP是一种基于博弈论的方法，用于解释任何机器学习模型的输出；SHAP值是一种衡量每个属性对预测的贡献的指标，它是所有可能的属性子集中属性的平均边际贡献；计算公式为：其中，N是所有属性的集合，S是任意属性子集，j是某个属性，vS是模型在属性集合S上的预测值，φj是属性j的SHAP值，即对预测值的贡献。

全文数据：

权利要求：

百度查询：北京工商大学一种基于因果推断的本科生毕业去向预测方法与可视分析系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种环丁砜废液的处理方法_中国石油化工股份有限公司_202211328730.5

下一篇：一种超轻量且快速的隐写分析检测方法_福建理工大学_202410048998.6

相关技术

一种环丁砜废液的处理方法_中国石油化工股份有限公司_202211328730.5

一种超轻量且快速的隐写分析检测方法_福建理工大学_202410048998.6

天线组件和电子设备_深圳市锐尔觅移动通信有限公司_202211347912.7

一种实时监控和校正发电机活塞偏移的装置和方法_中国科学院理化技术研究所_202211325716.X

一种血液回收器_北京中科盛康科技有限公司_202211322531.3

一种显示设备及笔迹显示方法_京东方科技集团股份有限公司_202310637028.5

信道状态信息的发送方法、接收方法、装置及存储介质_中兴通讯股份有限公司_202311656720.9

自适应型膜片式EFPI传感器及局放超声信号检测系统_国网黑龙江省电力有限公司电力科学研究院_202410006373.3

魏斯氏菌及其应用_湖南农业大学_202311706432.X

针对SAR ADC的分裂电容模组及相应的开关方法_深圳大学_202311804036.0

用于装配式面层支护设计的模拟设备及其模拟方法_中建八局广西建设有限公司_202311679130.8

线圈部件_株式会社村田制作所_202311414169.7

预测相关技术

在制品数量的预测方法及预测系统_上海华力微电子有限公司_202110591292.0

一种快速量化视觉系统运动预测与矫正预测方法_四川大学华西医院_202310909125.5

一种线粒体疾病预测方法及线粒体疾病预测系统_广州凯普医学检验所有限公司_202311747751.5

离子注入机台保养时机的预测方法及预测系统_上海华虹宏力半导体制造有限公司_202410084740.1

使用回归预测机器学习模型预测声音愉悦度_罗伯特·博世有限公司_202311439659.2

燃料电池的输出电压预测系统及预测方法_丰田自动车株式会社_202111149824.1

一种矿物组成含量预测方法及预测系统_中国石油大学(华东)_202410345654.1

一种斜拉桥结构温致挠度变形预测系统及预测方法_广西大学_202410271214.6

年龄预测模型的训练方法、年龄预测方法及装置_深圳数联天下智能科技有限公司_202111121195.1

一种动态划分预测周期的风电场超短期出力预测方法_福州大学_202410062532.1

去向相关技术

船用高置燃油柜溢流去向可选择的实现方法_中国舰船研究设计中心_202311150395.9

用于历年高考生同分去向的数据分析方法及分析系统_上饶师范学院_202310162897.7

一种基于客流去向结构的轨道交通OD客流预测方法及系统_扬州大学_202310982617.7

一种排污去向预测分析方法_重庆数字城市科技有限公司_202011270851.X

一种院中使用的去向指示器_湖州市第一人民医院_202320500326.5

利用智能变电站二次设备去向可视化展示主动运检的方法_国网山东省电力公司菏泽供电公司_202010404472.9

一种基于移动信令大数据的毕业生去向动态监测方法_北京融信数联科技有限公司_202010002298.5

基于物联网的出入登记及去向追溯方法及系统_浪潮软件集团有限公司_202310103764.2

一种医抢救车去向指示板_中南大学湘雅医院_202222109680.3

一种高效追踪资金来源及去向的技术方案_中国共产党张店区纪律检查委员会机关_202211025091.5

毕业相关技术

一种本科毕业设计指导质量的评价方法_湖南大学_201910000760.5

一种基于大数据的毕业生人群就业分析方法、系统及介质_北京融信数联科技有限公司_202310539643.2

一种基于因果推断的本科生毕业去向预测方法与可视分析系统_北京工商大学_202311737334.2

一种毕业生就业企业鉴别系统_陕西青叶海棠网络科技有限责任公司_202311759073.4

基于知识图谱检索增强的语言模型毕业生就业服务系统_武汉科技大学_202311656812.7

毕业论文格式自动校正方法及装置_攀枝花学院_202311400107.0

一种基于区块链高校毕业生智能招聘信息推送方法、系统及终端设备_湖南天河国云科技有限公司_202011097805.4

一种美术毕业设计用的展示台_安阳职业技术学院_202320647034.4

一种基于大数据的毕业生人群就业分析方法、系统及介质_北京融信数联科技有限公司_202310539643.2

一种基于移动信令大数据的毕业生去向动态监测方法_北京融信数联科技有限公司_202010002298.5

龙图腾网&IPTOP

【发明公布】一种基于因果推断的本科生毕业去向预测方法与可视分析系统_北京工商大学_202311737334.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务