买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于NLP的突变基因分类方法_山东未来网络研究院(紫金山实验室工业互联网创新应用基地)_202211088612.1 

申请/专利权人:山东未来网络研究院(紫金山实验室工业互联网创新应用基地)

申请日:2022-09-07

公开(公告)日:2022-11-25

公开(公告)号:CN115186769B

主分类号:G06K9/62

分类号:G06K9/62;G06F17/16;G06N3/04;G06N3/08;G06N3/12;G06N20/00;G16B20/50;G16B40/00

优先权:

专利状态码:有效-授权

法律状态:2022.11.25#授权;2022.11.01#实质审查的生效;2022.10.14#公开

摘要:本发明提供了一种基于NLP的突变基因分类方法,属于自然语言处理技术领域。包括以下步骤:对文本特征进行挖掘,将原始基因文本、突变基因文本以及文献文本组合成输入样本,提取文本的数值特征,并对每个样本赋予分类标签;将样本的特征输入数据矩阵通过PCA降维和白化,并分为测试集和训练集;搭建DWNN模型,确定机器学习模型的拓扑结构;确定机器学习模型的超参数;得到最终的机器学习模型;将测试集输入机器学习模型,得到最终的分类结果。本发明提高了突变基因分类的效率和精度,降低了分类成本。

主权项:1.一种基于NLP的突变基因分类方法,其特征在于,包括以下步骤:步骤1:对文本特征进行挖掘,将原始基因文本、突变基因文本以及文献文本组合成输入样本,提取文本的数值特征,并对每个样本赋予分类标签,所述提取文本数值特征具体步骤如下:步骤1-1:将所有样本获取的原始基因文本、突变基因文本和文献文本各自组合成原始基因数据集、突变基因数据集和文献数据集,分别采用单词提取接口,提取所有满足正则匹配规则[a-zA-Z0-9]的词并对其去重,再通过nltk模块剔除无意义词;步骤1-2:将处理后的原始基因数据集按照ASCII码正序排列组成列表长度为L1的列表T1,逐个筛查列表T1中对应位置单词在原始基因数据集中出现的次数并记录,形成列表V1,V1长度与T1相同,V1的第i个元素值代表T1的第i个元素单词在原始基因数据集中出现的次数,遍历所有样本的原始基因,构成大小为NxL1的原始基因数值提取矩阵;将处理后的突变基因数据集按照ASCII码正序排列组成列表长度为L2的列表T2,逐个筛查列表T2中对应位置单词在突变基因数据集中出现的次数并记录,形成列表V2,V2长度与T2相同,V2的第i个元素值代表T2的第i个元素单词在突变基因数据集中出现的次数,遍历所有样本,构成大小为NxL2的突变基因数值提取矩阵;将处理后的文献数据集按照ASCII码正序排列组成列表长度为L3的列表T3,逐个筛查列表T3中对应位置单词在文献数据集中出现的次数并记录,形成列表V3,V3长度与T3相同,V3的第i个元素值代表T3的第i个元素单词在文献数据集中出现的次数,遍历所有样本,构成大小为NxL3的文献数值提取矩阵;步骤1-3:将原始基因数值提取矩阵、突变基因数值提取矩阵和文献数值提取矩阵按照列方向拼接,形成样本的特征输入数据矩阵,M=L1+L2+L3;步骤2:将样本的特征输入数据矩阵通过PCA降维和白化,并分为测试集和训练集;具体步骤如下:步骤2-1:将特征输入数据的每列特征减去该列的均值得到矩阵B,矩阵B的协方差矩阵为C, 其中表示矩阵B的每列数据;表示与的协方差,将C作为实对称矩阵,进行相似对角化,即 其中为矩阵C的特征值,且满足,U为特征值对应的特征向量集合经正交及单位化的标准单位正交矩阵,UT是U的转置;若C不满秩,则将正交矩阵U右拼接M-RankC个单位正交向量,并使;步骤2-2:控制降维度后的信息量,具体公式如下: 式中:p表示容许通过信息百分比,k≤M;步骤2-3:从左往右取正交矩阵U的前k列,得到降维后的正交矩阵,则降维后的特征数据集为: 借助PCA白化思想,经白化后得到: 其中;步骤3:搭建DWNN模型,所述DWNN模型依次由6个模块序贯组成,第1个模块由Input层、Flatten层、BatchNormalization层组成;第2模块由神经元个数为500的全连接层Dense_500、BatchNormalization层组成;第3个模块由Dense_300和BatchNormalization层组成;第4个模块由Dense_200和BatchNormalization层组成;第5个模块由Dense_100和BatchNormalization层;第6个模块由Input层的输入以及Dense_500、Dense_300、Dense_200、Dense_100的输出经纵向拼接组成;模块1~6的激活函数均使用relu函数,最后使用全连接层和soft_max函数计算多分类概率;将远离输入层的结果直接短接至输出的前一层;步骤4:确定机器学习模型的拓扑结构;将DWNN模型、lightgbm、DecisionTree、NaïveBayes、randomforest、XGBoost、AdaBoosting、LogisticRegression学习算法通过Stacking集成算法集成机器学习模型的拓扑结构;步骤5:确定机器学习模型的超参数;将训练集输入Stacking集成后的机器学习模型进行训练,通过遗传算法模型计算超参数,得到最终的机器学习模型;所述通过遗传算法模型计算超参数的具体步骤如下:初始化种群以及子代数目,子代的数目就是遗传算法确定超参数迭代的次数,每个子代的种群个数相同,同时设定交叉概率、变异概率以及超参数初始值;交叉概率为模仿遗传学的子代继承父母基因的概率,变异概率为模仿子代本身受环境影响发生基因变异的概率;使用超参数初始值完成五折交叉验证得到准确度均值,超参数为类别参数或数值参数,对于数值型参数需要离散化处理,然后对类别参数以及离散化的数值参数按照设定的规则进行二进制编码;选取准确度均值作为适宜度,适宜度值越大,模型参数越接近最优解;当前子代中的所有个体都完成准确度均值计算,记录下最大的适宜度以及对应的个体超参数取值;使用轮盘赌算法赋予准确度均值更大的个体具有更大的概率遗传到下一代,反之,将适宜度小的个体去除;依照交叉概率,逐个确定个体是否参与交叉,如果确定可以交叉,就选择该个体与临近个体的二进制编码完成任意位置的互补交换;交换完毕后,再依照变异概率,逐个确定个体是否参与变异,如果确定可以变异,个体编码为1则取0,为0则取1;完成轮盘赌以及交叉和变异,则生成新一代超参数的二进制编码;最后根据编码规则进行译码获取新一代的入模参数,再判断子代数目是否达到设定值,如果未达到设定值则重复上述过程,若达到设定值则输出最佳超参数集合以及对应的适宜度;步骤6:将测试集输入步骤5得到的机器学习模型,得到最终的分类结果。

全文数据:

权利要求:

百度查询: 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 一种基于NLP的突变基因分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。