【发明授权】一种双端成对的剪接位点预测方法_桂林电子科技大学_202210178009.6

导航：龙图腾网> 最新专利技术> 一种双端成对的剪接位点预测方法_桂林电子科技大学_202210178009.6

申请/专利权人：桂林电子科技大学

申请日：2022-02-25

公开（公告）日：2024-03-22

公开（公告）号：CN114566215B

主分类号：G16B20/30

分类号：G16B20/30;G16B40/00;G06N3/084;G06N3/0464

优先权：

专利状态码：有效-授权

法律状态：2024.03.22#授权;2022.06.17#实质审查的生效;2022.05.31#公开

摘要：本发明公开了一种双端成对的剪接位点预测方法，该方法通过获取双端成对的剪接位点样本序列作为基准数据集和独立数据集；将碱基序列通过基于序列本身、物理化学性质等多种特征提取方式进行编码；组合多种特征作为一个多通道多维的向量表示；训练卷积神经网络模型；最后进行评估。这种预测方法可以结合样本多种特征表示方式，帮助卷积神经网络充分学习样本内在模式，提高了双端成对的剪接位点预测的准确率。

主权项：1.一种双端成对的剪接位点预测方法，其特征在于，包括如下步骤：1以人类参考基因组序列为来源，依据参考基因组序列文件和参考基因组注释文件收集剪接位点序列数据，所述剪接位点序列数据包括经典剪接位点序列和非经典剪接位点序列，对收集到的剪接位点序列数据进行数据处理，包括对数据的长度、内含子和外显子进行区域识别处理，以及正负样本划分处理后，将剪接位点序列数据分为训练集、验证集和测试集；2对步骤1获得的训练集、验证集和测试集样本进行特征编码，样本序列由腺嘌呤A、腺嘧啶T、胞嘧啶C、鸟嘌呤G和未知N组成，N表示可能为A、T、C、G中任意一个；采用序列位置信息、顺序信息，以及物理化学性质对样本序列进行编码，将序列字符编码为数值格式，采用Mismatch、Kmer、RevKmer、IDKmer、Subsequence、DAC、DCC、DACC、TAC、TCC、TACC、MAC、GAC、NMBAC、PseDNC、PseKNC、PC-PseDNC-General、PC-PseTNC-General、SC-PseDNC-General、SC-PseTNC-General多种特征表示方式，得到样本的特征编码向量；所述Mismatch特征表示方式，设α是长度为k的子串，k,m-mismatch特征图在α上定义为：其中A表示有限的字母，包括A、C、G或T碱基；若β∈Nk,mα，其中β是与α最多不匹配的k-mer子串的集合，然后输入序列的特征图x是k-mer子串的特征向量之和为： k,m-mismatch核定义为特征空间中对应的特征映射的点积： 3构建卷积神经网络模型，模型的网络构建表达式为：Lableofclass＝ffcnfconv2fconv1Sequencenucleotidesignal其中Lableofclass表示卷积神经网络模型最终的分类，Sequencenucleotidesignal表示碱基序列所对应的输入特征编码，fconv1表示第一层卷积层，fconv2表示第二个卷积层，ffcn表示将输入特征经过卷积步骤后的中间结果传入全连接层；对于输入x，每个通道上都有一个过滤器ω1,c，第一个卷积层的第一个过滤器点积运算结果z1,i,j,k表示为：z1,i,j,k＝x*ω1,ci,j,k+b1,k,1其中i，j和c分别表示该卷积层输出的行、列和通道，k为当前层的过滤器，b1,k,1表示第一个卷积操作过滤器k的偏置值；对于通道i，有z1,i：z1,i＝xi*ω1,ci+b1,i三个通道的卷积层输出结果z1,i,j,c为：其中i，j和c分别表示最终输出的行、列和通道；l，m，n分别代表过滤器的行、列和通道，k为当前层使用的过滤器符号表示；接着进入池化层，池化层分为平均池化、最小池化和最大池化，采用最大池化，保留突出特征，最终通过softmax函数，输出该样本属于每类的预测得分，公式如下：fiz＝expzi∑jexpzj其中fiz表示样本属于第i个分类的总预测分数，zj表示属于第j个分类节点的得分，zi表示属于第i个分类节点的得分；基于预测分值和训练集中标签的实际值计算损失，通过反向传播不断缩小差距，以使得模型性能得到提高，最终获得剪接位点预测模型；每次训练从训练集中获取128个训练样本训练，直到将训练集所有样本输入并训练模型；模型以交叉熵损失函数更新反向传播，进行30次迭代，每次迭代则输入验证集样本对每次迭代训练后的模型进行性能验证，验证集的使用可以提前避免模型进入过拟合和挑选更优的超参数；交叉熵损失函数对于每个类别我们的预测得到的概率为p和1-p，此时交叉熵损失函数L的表达式为：其中，Li表示样本i的损失函数，N表示样本总数，yi表示i的label，正类为1，负类为0；pi表示样本i预测为正类的概率；4将步骤2进行特征编码后的测试集输入步骤3得到的训练好的卷积神经网络模型中，获取模型的预测分值并构建混淆矩阵，最终在准确率ACC、特异性SP、敏感性SN、F分数F-score、马修斯相关系数MCC和受试者工作特征曲线下面积AUC评估五个物种的供体剪接位点和受体剪接位点的性能，表达式如下：其中TP、TN、FP和FN分别表示真阳性、真阴性、假阳性和假阴性的样本数目。

全文数据：

权利要求：

百度查询：桂林电子科技大学一种双端成对的剪接位点预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

下一篇：一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

相关技术

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

再生废液处理系统_山东荣信集团有限公司_202322260404.1

一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

一种人参肽粉研磨设备_上海中盈经济发展(集团)有限公司_202322368406.2

一种车载冰箱移动组件_一汽解放汽车有限公司_202322605238.4

一种方便拆装的瓦楞机用瓦楞辊_浙江永暉瓦楞辊有限公司_202322675014.0

一种高速直驱转台_江苏心力量智能科技有限公司_202322229050.4

一种带防撞装置的压力机工作台_扬州蔚来机械装备制造有限责任公司_202322611255.9

一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

方法相关技术

图像处理方法、图像处理模型和训练方法_北京百度网讯科技有限公司_202310251906.X

能力确定方法、上报方法、装置、设备及存储介质_北京小米移动软件有限公司_202280001087.7

曝光方法、曝光装置、以及物品的制造方法_佳能株式会社_202311346914.9

通信方法及装置_华为技术有限公司_202010617172.9

定子及其制造方法_LG麦格纳电子动力总成有限公司_202110012057.3

通信方法及装置_华为技术有限公司_202211296381.3

信息处理方法_丰田自动车株式会社_202311358127.6

蓄电设备的检查方法及制造方法_丰田自动车株式会社_202010574534.0

冰箱及其控制方法_LG电子株式会社_202080061858.2

冰箱及其控制方法_重庆海尔制冷电器有限公司_202211295888.7

剪接相关技术

基于数据融合的玉米可变剪接异构体功能预测系统_山东大学_202210736872.9

一种剪接酿酒酵母体内真核基因内含子的方法及应用_北京化工大学_202410063581.7

基于组织特异性的玉米可变剪接异构体功能预测系统_山东大学_202210736874.8

一种内含子异常剪接的修复方法_华东师范大学_201910543865.5

一种sgRNA及其在修复内含子异常剪接中的应用_华东师范大学_202010097964.8

一种基于注意力机制的剪接位点预测及解释性方法_桂林电子科技大学_202210178010.9

一种验证mRNA剪接突变和无义介导的mRNA降解的质粒及其应用_北京海创科业生物科技有限责任公司_202410002039.0

一种双端成对的剪接位点预测方法_桂林电子科技大学_202210178009.6

一种基于可变剪接事件的胃癌预后模型的构建方法及应用_贵州医科大学_202010803241.5

用于调节剪接的方法和组合物_斯基霍克疗法公司_201880065070.1

成相关技术

金属被膜的成膜装置_丰田自动车株式会社_202311340404.0

金属被膜的成膜装置_丰田自动车株式会社_202311340307.1

一种免烧陶粒成球机_宁夏大学_201810549531.4

溶液喷射纺纳米纤维成纱装置_江苏恒辉安防股份有限公司_202322527953.0

显示用TOP型SOP24集成IC预制支架_山西高科华兴电子科技有限公司_202322375969.4

固井用延迟成胶堵漏凝胶及其制备方法和应用_中国石油大学(华东)_202410173321.5

成膜方法及成膜装置_东京毅力科创株式会社_202311286795.2

成膜系统、工厂系统和晶圆的成膜方法_TDK株式会社_202110761104.4

金属被膜的成膜装置和成膜方法_丰田自动车株式会社_202110856960.8

干法成膜方法及装置_蔚来汽车科技(安徽)有限公司_202211238560.1

龙图腾网&IPTOP

【发明授权】一种双端成对的剪接位点预测方法_桂林电子科技大学_202210178009.6

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务