买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于混合分类器来识别耳聋相关基因的方法_重庆大学_202011497263.X 

申请/专利权人:重庆大学

申请日:2020-12-17

公开(公告)日:2024-04-05

公开(公告)号:CN112599190B

主分类号:G16B20/20

分类号:G16B20/20;G16B20/50;G16B30/10;G16B40/00;G06N3/084;G06F18/2411;G06N20/10

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2021.04.23#实质审查的生效;2021.04.02#公开

摘要:本发明涉及一种基于反向传播神经网络‑支持向量机BPNN‑SVM混合分类器来识别耳聋相关基因的方法,属于数据分析领域。采用反向传播神经网络分类器和支持向量机分类器形成混合分类器,达到使用计算方法结合序列特征对耳聋相关基因进行鉴定的目的。使用少量训练样本对混合分类器进行训练,并通过不断迭代循环,寻找分类效果最好的分类器进行分类,该方法将反向传播神经网络和支持向量机算法结合在一起。为检验该模型的有效性,用训练好的BPNN‑SVM集成模型分别对文献数据库中收集到的62个确定的耳聋相关基因进行分类。本发明中提出的分类模型具有从大量未知基因中筛选出高可疑耳聋相关基因方面的潜在能力。

主权项:1.一种基于混合分类器来识别耳聋相关基因的方法,其特征在于:该方法包括以下步骤:S1:数据收集与融合;S2:样本的特征提取与预处理;S3:将S2中预处理后的带有标签的样本分别对反向传播神经网络分类器、支持向量机分类器、决策树分类器和随机森林分类器进行训练;S4:选择BPNN分类器和SVM分类器;S5:将未标记的样本在S4中训练好的分类器进行预测,得到预测结果为RBPNN、RSVM;S6:判断两个分类器的预测结果,每个分类器实验A次,两个分类器的预测耳聋相关基因的次数分别为ABPNN、ASVM,设置一个候选耳聋相关基因的阈值T1,若ABPNN≥T1且ASVM≥T1,则为候选耳聋相关基因,将两个分类器预测为候选耳聋相关基因的次数加起来计为S,根据多次实验设置一个阈值T,当S≥T时,则这个基因即为可疑耳聋相关基因,最后对S的大小进行排序,选出排序最前k个基因作为高可疑耳聋相关基因;所述S1具体为:数据收集:用于模型训练、验证的耳聋相关基因数据来源于两个数据库,即耳聋变异数据库DVDv8.2和NCBI数据库;从DVD数据库中提取149个耳聋相关的基因,从NCBI上下载基因所对应的基因编码序列和蛋白质序列;数据融合:正集:将耳聋相关基因名称与基因编码序列、蛋白质序列进行匹配,删除重复的序列,构成正集数据,共463个基因编码序列和463个蛋白质序列;负集:从人类基因中去除掉耳聋相关基因对应的序列,接着随机取出1490个基因所对应的基因编码序列和蛋白质序列,共有3783个编码DNA序列和3783个蛋白质序列;每次实验从中随机选取与正集相同数量的样本构成负集,使得正集:负集=1:1;该1490个基因与耳聋基因无关;待测数据集:为验证模型的准确性和有效性,从Webofscience和EI数据库中的文献中搜集到的跟耳聋相关的基因62个,共172个基因编码序列和蛋白质序列,获取他们序列的特征,并将所得到的特征集作为待预测特征集,用训练好的模型对他们进行分类,看分类效果;将数据集按训练集:验证集:测试集=6:2:2的比例分开,正负比例1:1的训练集用来训练模型;数据集为正集P时,基因数为149,基因编码序列数为463,蛋白质序列数为463,样本数为463;数据集为负集N时,基因数为143,基因编码序列数为463,蛋白质序列数为463,样本数为463;数据集为待预测数据集时,基因数为62,基因编码序列数为172,蛋白质序列数为172,样本数为172;所述S2具体为:选择的特征集共有54个特征,具体包括:2个固有特征:基因编码片段长度、氨基酸长度;13个密码子偏性特征:第3位置出现T、C、A、G相对其同义密码子频率、密码子适应指数、密码子偏性指数、最佳密码子频率、有效密码子数、密码子第3个碱基出现G和C的频率、GC含量、同义密码子频率、亲水性、编码芳香性氨基酸的频率;22个氨基酸使用频率特征:20种氨基酸含量、稀有氨基酸的频率、结束密码子第3位突变产生密码子数;12个氨基酸理化性质特征:分子重量、等电位点、微小重量氨基酸的摩尔数、小重量氨基酸的摩尔数、脂肪族氨基酸的摩尔数、芳香氨基酸的摩尔数、非极性氨基酸的摩尔数、极性氨基酸的摩尔数、带电氨基酸的摩尔数、基础氨基酸的摩尔数、酸性氨基酸的摩尔数、平均剩余重量;3个跨膜螺旋特征:跨膜螺旋氨基酸预期数,前60个氨基酸中跨膜螺旋氨基酸预期数,采用N-best方式预测的跨膜螺旋;1个Hurst指数;1个信息理论特征:香农熵;这些特征利用生物信息学工具和编程计算得出;特征数据预处理为:待分析的序列特征数据集中,利用缺失值处理办法均值插补补全缺失值;每类特征具有不同的量纲和数量级,采用Min-max标准化处理方法对原始指标数据进行标准化处理;所述S3、S4、S5具体为:将数据集按训练集:验证集:测试集=6:2:2的比例分开,正负比例1:1的训练集用来训练模型,验证集用来调节模型的参数,测试集在模型训练前单独提取出来,使用准确性Accuracy、召回率Recall、精确度Precision、F-measure和G-mean来评估模型的预测分类能力;具体步骤如下:①选择数种机器学习算法模型,分别对他们进行训练,每个算法模型实验重复次数设置为A次,每次实验中随机取出训练集对模型进行训练,记录每次实验中验证集模型的性能评价指标值,对所选的几种模型进行调参;②根据模型分类的评价指标值选出了预测分类性能较优的BPNN分类器模型和SVM分类器模型分别作为基分类模型;使用测试集去测试训练好的两个较优的BPNN基分类器和SVM基分类器,③假设BPNN、SVM基分类器的输出分别为f1x和f2x,被预测为弱可疑耳聋相关基因的次数越多,成为耳聋相关基因的可能性就越大;所述S6具体为:判断两个分类器的预测结果,每个分类器实验A次,两个分类器的预测为耳聋相关基因的次数分别为ABPNN、ASVM;设置一个候选耳聋相关基因的阈值T1,若ABPNN≥T1且ASVM≥T1,则为候选耳聋相关基因;采用集成策略:将两个分类器预测为候选耳聋相关基因的次数加起来计为S,根据多次实验设置一个阈值T,当S≥T时,根据S的大小进行排序,选出排序最前k个基因作为高可疑耳聋相关基因;k是根据实验中测试集中的正集样本数量决定的,k小于等于正集样本数量;采用以上集成策略将BPNN分类器和SVM分类器结合起来,对待预测数据集进行分析研究,按照集成模型对未知基因进行排序,得最终预测结果。

全文数据:

权利要求:

百度查询: 重庆大学 一种基于混合分类器来识别耳聋相关基因的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。