买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种用于预测蛋白质功能的数据多标签分类方法_昆明理工大学_202010984625.1 

申请/专利权人:昆明理工大学

申请日:2020-09-18

公开(公告)日:2024-04-09

公开(公告)号:CN112365931B

主分类号:G16B40/20

分类号:G16B40/20;G16B5/00

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2021.03.05#实质审查的生效;2021.02.12#公开

摘要:本发明涉及一种用于预测蛋白质功能的数据多标签分类方法,属于生物信息学及数据挖掘技术领域。本发明包括步骤:把蛋白质序列生物数据由字符转换成向量的形式,对高维的向量形式进行降维处理;构建用于进行蛋白质序列生物数据标签分类模型,具体的,采用二元分类器蛋白质序列生物数据进行标签分类;利用构建好的标签分类模型进行预测标签分类。本发明能够高效解决蛋白质标签缺失情况下的功能的预测问题,同时本方法可操作性强,实用性强,不仅在基本蛋白质功能预测问题上表现出了良好性能,也在其他蛋白质功能预测上表现出了良好的性能。

主权项:1.一种用于预测蛋白质功能的数据多标签分类方法,其特征在于,所述方法包括:Step1、把蛋白质序列生物数据由字符转换成向量的形式,对高维的向量形式进行降维处理;Step2、构建用于进行蛋白质序列生物数据标签分类模型,具体的,采用二元分类器蛋白质序列生物数据进行标签分类;Step3、利用构建好的标签分类模型进行预测标签分类;所述步骤Step1包括:Step1.1、蛋白质序列生物数据用向量X表示,X=[x1,x2,…xn]T∈Rn×m,也用作蛋白质预测模型训练数据,并且训练数据对应的蛋白质标签被表示为Y=[y1,y2,…,yn]T∈{0,1}n×l,yi,j=1表示第i个蛋白质具有第j个标签yj,yi,j=0表示第i个蛋白质没有标签yj或者该值未被观测到,即丢失,对任意非零的矩阵W,其中wi和wj分别代表第i行和第j列,wi,j是矩阵中第i,j个元素;Step1.2、从蛋白质序列生物数据的向量形式中提取出来最具辨识度的低维特征,用于得到一个简洁且有效的特征子空间;所述Step2中,构建用于进行蛋白质序列生物数据标签分类模型,具体的,采用二元分类器蛋白质序列生物数据进行标签分类,此二元分类器的目标函数的优化采用如下方式进行:Step2.1、假设每个标签仅由来自给定蛋白质数据集的原始特征集的子集确定,为了防止预测蛋白质功能的多标签分类方法过拟合,将线性模型进行l1范数正则化;这些标签的功能由每个非零条目确定,即wi∈Rn,并且对相应的标签具有很强的可辨性,二元分类器的目标函数表示为: 将所有二元分类器组合在一起,目标函数写成如下: 其中任意非零的矩阵W=[w1,w2,…,wl]∈Rn×l是回归系数,λ3≥0是折中的参数;Step2.2、利用标签相关性在目标函数中加入标签相关矩阵、l1范数正则项来优化目标函数表达式;C∈Rl×l作为标签相关矩阵,Ci,j表示标签yi与yj的相关程度,在C的基础上添加l1范数正则项来学习稀疏标签依赖,目标函数写成如下所示: s.t.C≥0Step2.3、如果标签yi和标签yj强相关,则它们具有类似的标签特定特征,相应的模型系数wi和wj将非常相似,并且它们之间的欧几里德距离很小,否则wi和wj将不同,并且它们之间的欧几里德距离很大,经过数学运算后,目标函数表达式能优化成如下所示: s.t.C≥0其中,λ1、λ2、λ3、λ4是折中的参数;X为蛋白质序列生物数据的向量表示,Y为蛋白质标签表示,对任意非零的矩阵W,其中wi和wj分别代表第i行和第j列;Step2.4、利用最终优化后的目标函数表达式利用加速近端梯度法求解参数任意非零的矩阵W和标签相关矩阵C,求解出参数W、C之后,从而得到最终的目标函数。

全文数据:

权利要求:

百度查询: 昆明理工大学 一种用于预测蛋白质功能的数据多标签分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。