【发明公布】一种可缓解类重叠问题的跨版本深度缺陷预测方法_江苏工程职业技术学院_202010581583.7

申请/专利权人：江苏工程职业技术学院

申请日：2020-06-23

公开（公告）日：2020-10-13

公开（公告）号：CN111767216A

主分类号：G06F11/36(20060101)

分类号：G06F11/36(20060101);G06F8/41(20180101);G06K9/62(20060101);G06N3/04(20060101)

优先权：

专利状态码：有效-授权

法律状态：2022.08.09#授权;2020.10.30#实质审查的生效;2020.10.13#公开

摘要：本发明公开了一种可缓解类重叠问题的跨版本深度缺陷预测方法，包括如下：1、跨版本软件缺陷预测中面向深度语义学习的整体框架；2、基于卷积神经网络的语义特征学习模型；3、面向深度语义学习的混合式最近邻清理策略。本发明采用混合式最近邻清理策略来缓解深度学习学出的语义特征中存在的类重叠问题。具体来说对源代码对应的抽象语法树，采用卷积神经网络学出深度语义特征，继而采用混合式最近邻清理策略对标注数据集进行重采样与数据清理。采用混合式最近邻清理策略能够处理类不平衡问题与类重叠问题，对数据的统计分析结果表明该策略能够提升基于深度语义学习的软件缺陷预测的性能。

主权项：1.一种可缓解类重叠问题的跨版本深度缺陷预测方法，其特征在于：包括如下：1、跨版本软件缺陷预测中面向深度语义学习的整体框架；2、基于卷积神经网络的语义特征学习模型；3、面向深度语义学习的混合式最近邻清理策略；具体如下：1.跨版本软件缺陷预测中面向深度语义学习的整体框架：该方法采用混合式最近邻清理策略处理深度语义特征学习过程中的类重叠，使用该方法可以自动的从源代码中学习语义和结构特征，为分类器提供基于深度语义学习的特征向量；该方法首先从训练数据集和测试数据集出发，构建抽象语法树AbstractSyntaxTrees,具体实验中，采用软件开发过程中发布的前一个版本的历史数据作为训练数据集，下一个版本的软件开发数据作为测试数据集；构建抽象语法树过程中，选择具有代表性的语法树节点表示软件模块，每个软件模块构筑符号向量；符号向量采用one-hot编码方式进行编码，对输入向量进行词嵌入，作为卷积神经网络的输入，卷积神经网络随后从输入向量中自动学习深度语义特征，由于标注过程中的噪音的存在，类重叠不可避免，有必要对深度语义特征进行预处理；考虑在软件缺陷预测数据集中普遍存在的类不平衡问题，对训练数据进行过采样，过采样完的数据集可能会带来更多的类重叠；从近邻出发，对多数类与少数类同时进行清理，处理潜在的重叠软件模块向量；经过预处理的深度语义特征，作为传统分类器，比如LogisticRegression分类器的输入；在LogisticRegression分类器上训练分类模型，并对测试数据集进行测试；2.基于卷积神经网络的语义特征学习模型：卷积神经网络拥有深度特征提取的能力，基于源代码使用one-hot编码以后的特征向量具有内在的语义和语法结构，通过引入CNN能够创建表征语义信息的新的深度特征向量；本文提出的基于卷积神经网络的语义特征学习模型采用的是有监督的深度语义学习范式，通过对训练数据集的优化能够生成更加适合当前项目的语义；假定当前软件项目有文件数目为n，X＝{x1x2，..xn}，软件缺陷预测问题可以被形式化为学习任务，该学习任务从训练数据集中学习预测函数：F：X→Y，yi∈Y＝{1，0}1其中yi∈Y，指示软件模块是否含有软件缺陷；软件项目源文件被编码为one-hot特征向量，以one-hot特征向量输入采用预训练的word2vec模型获取词嵌入向量；对项目文件xi，其one-hot特征向量为表示为该文件中最大特征标记数目；该标记指的是具有代表性的语法树节点，同时剔除了文件中数目小于3的标记；经过word2vec模型处理完以后，得到具有固定长度的词嵌入向量，该向量为vi∈Rp×q；vi表示对应于项目文件xi的词嵌入向量；训练过的词嵌入向量作为CNN的输入，在输入方向设置多个一维卷积核，从词嵌入向量中提取单词的特征，并将输出结果输入到池化层；为了对优化过程中的参数加以约束，引入正则化，采用dropout方法在反向传播误差更新权值时候随机删除部分神经元；对池化层输出展开为全连接层，多次迭代训练得到语义特征向量；训练过程中采用minibatchstochasticgradientdescent算法，优化器选用Adamoptimizer，基于该语义特征向量来判断当前模块是否存在缺陷；3.面向深度语义学习的混合式最近邻清理策略：该策略以生成的深度语义特征向量集合为输入，根据集合中标记的不同，将样例分为Cmax和Cmin两类，算法过程大致分为三个步骤：第一个步骤是对少数类样例循环遍历，依据欧式距离选择k个最近邻，并使用随机种子数在某个样例与最近邻之间生成新的样例，迭代完成过采样，实现多数类与少数类之间的平衡，解决类不平衡问题；第二个步骤是在新生成的少数类集合C′min与多数类集合Cmax上分别进行迭代，依据欧式距离计算得到与样例最近的Nx近邻；如果该近邻的标记与当前的标记不一致，则最终删除，实现对多数类与少数类潜在类重叠模块的清理；第三个步骤是将第二个步骤的输出{C″min，C′max}作为输入，计算当前两类模块的统计分布值，使用标准K-means聚类算法划分为k簇，对每个簇进行遍历，根据当前簇两个模块的统计分布值删除对应的模块，实现对多数类与少数类潜在类重叠模块的清理。

全文数据：

权利要求：

百度查询：江苏工程职业技术学院一种可缓解类重叠问题的跨版本深度缺陷预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

下一篇：一种用于污水处理的自动化污水处理设备_江苏欧跃环保科技有限公司_202322615536.1

相关技术

一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

一种用于污水处理的自动化污水处理设备_江苏欧跃环保科技有限公司_202322615536.1

交通工具用座椅倾斜装置_丰田纺织株式会社_202080082271.X

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

一种实验室地层品质因子估算方法_中国石油化工股份有限公司_202211297976.0

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

一种水泵节能增压装置_陕西海利智慧能源科技有限公司_202322218413.4

无线遥控理疗床_泰安市迈迪医疗电子有限公司_202322303870.3

电子设备_深圳市嘉晋实业有限公司_202322601396.2

一种洗涤设备_重庆海尔洗衣机有限公司_202321535727.0

一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

版本相关技术

一种版本号标准化及基于同态加密的漏洞版本号检索方法_电子科技大学_202311872936.9

一种针对版本控制系统重命名冲突的自动处理方法_南京邮电大学_202410063642.X

一种可持久化和可扩展的轻量级多版本有序键值存储系统_中国科学院软件研究所_202311092654.7

版本发布方法、装置、设备和介质_中国工商银行股份有限公司_202410130074.0

一种版本升级方法及装置_新华三大数据技术有限公司_202111332125.0

页面版本配置方法、装置、介质及电子设备_北京有竹居网络技术有限公司_202410146599.3

面向芯片验证的版本管理方法、系统、装置、设备、介质_山东云海国创云计算装备产业创新中心有限公司_202410233782.7

一种基于Web技术的BIM模型版本比对系统与方法_中国交通信息科技集团有限公司_202311835079.5

基于关系型数据的版本化管理方法、装置、设备及介质_中国平安财产保险股份有限公司_202410050480.6

一种半导体CP测试程序的混版本兼容方法_武汉芯极客软件技术有限公司_202311758746.4

跨相关技术

用于跨载波HARQ管理的方法及用户设备_联发科技股份有限公司_202110760310.3

一种跨时钟域处理电路_华为技术有限公司_201880098603.6

晶圆跨厂流片方法及装置_深圳市昇维旭技术有限公司_202410317611.2

架桥机跨铁路架梁施工方法_中铁六局集团石家庄铁路建设有限公司_202111626767.1

一种基于跨时钟域的异步时钟选择电路及其切换方法_中国电子科技集团公司第四十七研究所_202011515673.2

训练样本处理方法、跨模态匹配方法、装置、设备和介质_北京百度网讯科技有限公司_202211668247.1

一种预应力无缝多跨弯桥临时支撑结构_中铁二局集团有限公司_202322632609.8

跨电气隔离屏障进行高速数据传输的系统和方法_直观外科手术操作公司_201980033672.3

基于图神经网络的汉越跨语言观点对象识别分析方法_昆明理工大学_202210532418.1

深井移动轨道式巡检机器人及其跨绳越障方法_中国矿业大学_202110990495.7

深度相关技术

深度神经网络的正确性保持优化_通用汽车环球科技运作有限责任公司_201910504097.2

燃煤层燃锅炉烟气再循环深度分级系统_上海工业锅炉研究所有限公司_202321119402.4

一种石化废水深度检测装置_江苏成达化工工程设计有限公司_202322343092.0

基于多域融合深度学习的毫米波雷达头部动作识别方法_电子科技大学_202210666094.0

基于深度学习的LED光源识别方法、装置、设备及介质_湖北经济学院_202410088953.1

一种高趋肤深度MRI图像增强超构表面器件_清华大学_202110183937.7

基于深度对抗网络的视频-动画风格迁移方法_北京电影学院_202010929306.0

一种基于深度神经网络与子空间原理的测向方法_西北工业大学_202210525049.3

稀疏2D点集的深度特征提取方法及装置_三星(中国)半导体有限公司_202010006265.8

一种光场图像深度估计方法、系统、电子设备及存储介质_电子科技大学_202210741558.X

龙图腾网&IPTOP

【发明公布】一种可缓解类重叠问题的跨版本深度缺陷预测方法_江苏工程职业技术学院_202010581583.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务