【发明授权】一种基于NLP的突变基因分类方法_山东未来网络研究院(紫金山实验室工业互联网创新应用基地)_202211088612.1

申请/专利权人：山东未来网络研究院(紫金山实验室工业互联网创新应用基地)

申请日：2022-09-07

公开（公告）日：2022-11-25

公开（公告）号：CN115186769B

主分类号：G06K9/62

分类号：G06K9/62;G06F17/16;G06N3/04;G06N3/08;G06N3/12;G06N20/00;G16B20/50;G16B40/00

优先权：

专利状态码：有效-授权

法律状态：2022.11.25#授权;2022.11.01#实质审查的生效;2022.10.14#公开

摘要：本发明提供了一种基于NLP的突变基因分类方法，属于自然语言处理技术领域。包括以下步骤：对文本特征进行挖掘，将原始基因文本、突变基因文本以及文献文本组合成输入样本，提取文本的数值特征，并对每个样本赋予分类标签；将样本的特征输入数据矩阵通过PCA降维和白化，并分为测试集和训练集；搭建DWNN模型，确定机器学习模型的拓扑结构；确定机器学习模型的超参数；得到最终的机器学习模型；将测试集输入机器学习模型，得到最终的分类结果。本发明提高了突变基因分类的效率和精度，降低了分类成本。

主权项：1.一种基于NLP的突变基因分类方法，其特征在于，包括以下步骤：步骤1：对文本特征进行挖掘，将原始基因文本、突变基因文本以及文献文本组合成输入样本，提取文本的数值特征，并对每个样本赋予分类标签，所述提取文本数值特征具体步骤如下：步骤1-1：将所有样本获取的原始基因文本、突变基因文本和文献文本各自组合成原始基因数据集、突变基因数据集和文献数据集，分别采用单词提取接口，提取所有满足正则匹配规则[a-zA-Z0-9]的词并对其去重，再通过nltk模块剔除无意义词；步骤1-2：将处理后的原始基因数据集按照ASCII码正序排列组成列表长度为L1的列表T1，逐个筛查列表T1中对应位置单词在原始基因数据集中出现的次数并记录，形成列表V1，V1长度与T1相同，V1的第i个元素值代表T1的第i个元素单词在原始基因数据集中出现的次数，遍历所有样本的原始基因，构成大小为NxL1的原始基因数值提取矩阵；将处理后的突变基因数据集按照ASCII码正序排列组成列表长度为L2的列表T2，逐个筛查列表T2中对应位置单词在突变基因数据集中出现的次数并记录，形成列表V2，V2长度与T2相同，V2的第i个元素值代表T2的第i个元素单词在突变基因数据集中出现的次数，遍历所有样本，构成大小为NxL2的突变基因数值提取矩阵；将处理后的文献数据集按照ASCII码正序排列组成列表长度为L3的列表T3，逐个筛查列表T3中对应位置单词在文献数据集中出现的次数并记录，形成列表V3，V3长度与T3相同，V3的第i个元素值代表T3的第i个元素单词在文献数据集中出现的次数，遍历所有样本，构成大小为NxL3的文献数值提取矩阵；步骤1-3：将原始基因数值提取矩阵、突变基因数值提取矩阵和文献数值提取矩阵按照列方向拼接，形成样本的特征输入数据矩阵，M=L1+L2+L3；步骤2：将样本的特征输入数据矩阵通过PCA降维和白化，并分为测试集和训练集；具体步骤如下：步骤2-1：将特征输入数据的每列特征减去该列的均值得到矩阵B，矩阵B的协方差矩阵为C，其中表示矩阵B的每列数据；表示与的协方差，将C作为实对称矩阵，进行相似对角化，即其中为矩阵C的特征值，且满足，U为特征值对应的特征向量集合经正交及单位化的标准单位正交矩阵，UT是U的转置；若C不满秩，则将正交矩阵U右拼接M-RankC个单位正交向量，并使；步骤2-2：控制降维度后的信息量，具体公式如下：式中：p表示容许通过信息百分比，k≤M；步骤2-3：从左往右取正交矩阵U的前k列，得到降维后的正交矩阵，则降维后的特征数据集为：借助PCA白化思想，经白化后得到：其中；步骤3：搭建DWNN模型，所述DWNN模型依次由6个模块序贯组成，第1个模块由Input层、Flatten层、BatchNormalization层组成；第2模块由神经元个数为500的全连接层Dense_500、BatchNormalization层组成；第3个模块由Dense_300和BatchNormalization层组成；第4个模块由Dense_200和BatchNormalization层组成；第5个模块由Dense_100和BatchNormalization层；第6个模块由Input层的输入以及Dense_500、Dense_300、Dense_200、Dense_100的输出经纵向拼接组成；模块1~6的激活函数均使用relu函数，最后使用全连接层和soft_max函数计算多分类概率；将远离输入层的结果直接短接至输出的前一层；步骤4：确定机器学习模型的拓扑结构；将DWNN模型、lightgbm、DecisionTree、NaïveBayes、randomforest、XGBoost、AdaBoosting、LogisticRegression学习算法通过Stacking集成算法集成机器学习模型的拓扑结构；步骤5：确定机器学习模型的超参数；将训练集输入Stacking集成后的机器学习模型进行训练，通过遗传算法模型计算超参数，得到最终的机器学习模型；所述通过遗传算法模型计算超参数的具体步骤如下：初始化种群以及子代数目，子代的数目就是遗传算法确定超参数迭代的次数，每个子代的种群个数相同，同时设定交叉概率、变异概率以及超参数初始值；交叉概率为模仿遗传学的子代继承父母基因的概率，变异概率为模仿子代本身受环境影响发生基因变异的概率；使用超参数初始值完成五折交叉验证得到准确度均值，超参数为类别参数或数值参数，对于数值型参数需要离散化处理，然后对类别参数以及离散化的数值参数按照设定的规则进行二进制编码；选取准确度均值作为适宜度，适宜度值越大，模型参数越接近最优解；当前子代中的所有个体都完成准确度均值计算，记录下最大的适宜度以及对应的个体超参数取值；使用轮盘赌算法赋予准确度均值更大的个体具有更大的概率遗传到下一代，反之，将适宜度小的个体去除；依照交叉概率，逐个确定个体是否参与交叉，如果确定可以交叉，就选择该个体与临近个体的二进制编码完成任意位置的互补交换；交换完毕后，再依照变异概率，逐个确定个体是否参与变异，如果确定可以变异，个体编码为1则取0，为0则取1；完成轮盘赌以及交叉和变异，则生成新一代超参数的二进制编码；最后根据编码规则进行译码获取新一代的入模参数，再判断子代数目是否达到设定值，如果未达到设定值则重复上述过程，若达到设定值则输出最佳超参数集合以及对应的适宜度；步骤6：将测试集输入步骤5得到的机器学习模型，得到最终的分类结果。

全文数据：

权利要求：

百度查询：山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 一种基于NLP的突变基因分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种可移动升降旋转变形床头置物柜_山西传媒学院_202322018692.X

下一篇：一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

相关技术

一种可移动升降旋转变形床头置物柜_山西传媒学院_202322018692.X

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

一种园林绿化便携铲_马丽丽_202322375183.2

一种防卡管测斜仪探头_中国建筑西南勘察设计研究院有限公司_202420526288.5

4G/5G+北斗+Lora机车远程控制装置_宁夏宁东铁路有限公司_202322827126.3

一种勺式高精度防堵塞药剂计量添加装置_浙江威尔博环保科技有限公司_202322743530.2

一种车载冰箱移动组件_一汽解放汽车有限公司_202322605238.4

一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

电子设备_深圳市嘉晋实业有限公司_202322601396.2

一种水泵节能增压装置_陕西海利智慧能源科技有限公司_202322218413.4

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

NLP相关技术

一种基于NLP语言模型的数据脱敏方法及系统_北京泰策科技有限公司_202310977188.4

基于NLP的诈骗短信监控告警系统_深圳市诚立业科技发展有限公司_202410275467.0

一种NLP结合知识图谱的云电脑故障知识查询方法_天翼云科技有限公司_202311722381.X

应用NLP的个性化智能家居控制策略生成方法及系统_深圳酷宅科技有限公司_202311860226.4

一种基于NLP多任务融合的恶意软件行为分析方法和装置_天翼云科技有限公司_202311700606.1

基于NLP和循环神经网络的大语言模型构建方法_卓世科技(海南)有限公司_202410006873.7

一种基于NLP的文本实体识别方法_北京深维智讯科技有限公司_202310265137.9

一种应用NLP和ML于数据标准对标的智能化系统_绵阳市商业银行股份有限公司_202310543140.2

基于RPA+NLP的多模态文字转换方法、系统及介质_深圳大数信科技术有限公司_202410008272.X

基于NLP算法的大数据研判预警方法及平台_北京数字政通科技股份有限公司_202410019816.2

突变基因相关技术

KCNH2基因突变体、突变体蛋白、试剂、试剂盒及应用_湖南家辉生物技术有限公司_202311850733.X

导致French-Canadian型Leigh综合征的LRPPRC基因复合突变体_湖南家辉生物技术有限公司_202211140345.8

WAS致病突变基因及在制备Wiskott-Aldrich综合征诊断试剂盒中的应用_湖南家辉生物技术有限公司_202211039534.6

一种3M综合征致病基因CUL7复合杂合突变位点的应用及其诊断试剂_湖南家辉生物技术有限公司_202210823132.9

一种导致视网膜营养不良的致病基因CFAP410突变位点的应用及检测试剂_湖南家辉生物技术有限公司_202211630043.9

新型人血清白蛋白突变体_JCR制药股份有限公司_202210350644.8

一种抗性基因及其应用_中国科学院青岛生物能源与过程研究所_202310609682.5

一种谷氨酰胺合成酶突变体及应用_四川天豫兴禾生物科技有限公司_202111244191.2

一种可在特定细胞中恢复Fah基因表达的Fah基因敲除小鼠及其制备方法和用途_中国科学院分子细胞科学卓越创新中心_202211289172.6

玉米ZmRAFS基因用于提高植物耐涝性的应用_西北农林科技大学_202211440380.1

方法相关技术

图像处理方法、图像处理模型和训练方法_北京百度网讯科技有限公司_202310251906.X

能力确定方法、上报方法、装置、设备及存储介质_北京小米移动软件有限公司_202280001087.7

定子及其制造方法_LG麦格纳电子动力总成有限公司_202110012057.3

通信方法及装置_华为技术有限公司_202211296381.3

通信方法及装置_华为技术有限公司_202010617172.9

信息处理方法_丰田自动车株式会社_202311358127.6

曝光方法、曝光装置、以及物品的制造方法_佳能株式会社_202311346914.9

蓄电设备的检查方法及制造方法_丰田自动车株式会社_202010574534.0

冰箱及其控制方法_LG电子株式会社_202080061858.2

冰箱及其控制方法_重庆海尔制冷电器有限公司_202211295888.7

龙图腾网&IPTOP

【发明授权】一种基于NLP的突变基因分类方法_山东未来网络研究院(紫金山实验室工业互联网创新应用基地)_202211088612.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务