买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于GVG的代码注释生成方法_广东工业大学_202410056064.7 

申请/专利权人:广东工业大学

申请日:2024-01-15

公开(公告)日:2024-04-12

公开(公告)号:CN117873487A

主分类号:G06F8/41

分类号:G06F8/41;G06F18/214;G06F18/21;G06F18/243;G06F40/169;G06F40/242;G06N3/042;G06N3/044;G06N3/0455;G06N3/048;G06N3/08

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明公开了一种基于GVG的代码注释生成方法,通过代码类别分类神经网络对训练代码函数数据进行分类能够识别代码类别,对多种编程语言进行注释。对所述训练代码函数数据进行函数预处理,生成代码函数序列数据;所述代码函数序列数据包括原始单词序列、原始代码标识符序列、标点符号序列,原始代码标识符包括驼峰标识符和蛇形标识符;在本发明中通过使用多个预设目标编码器使目标代码的注释生成更丰富;对不同的编程语言的代码生成相应注释;通过构建特征向量词库,供解码器在解码输出时使用,更好地处理OOV问题。

主权项:1.一种基于GVG的代码注释生成方法,其特征在于,包括以下步骤:步骤1:构建函数注释对数据集,数据集由代码及其注释构成;步骤2:将代码函数-注释对数据集划分为训练集、验证集和测试集;步骤3:将训练集作为训练代码函数数据,通过代码类别分类神经网络对训练代码函数数据进行分类,得到代码类别;步骤4:对所述训练代码函数数据进行函数预处理,生成代码函数序列数据;所述代码函数序列数据包括原始单词序列、原始代码标识符序列、标点符号序列,原始代码标识符包括驼峰标识符和蛇形标识符;步骤5:使用训练集中的代码构建特征向量词库;具体包括:步骤5.1:通过按行读取的方式获取第一文件中的代码数据,对每一行代码使用空格进行切割,得到代码单词组列表;步骤5.2:为代码构建代码索引词典,将代码单词组列表中的单词按顺序以“单词-位置”的形式保存到代码索引词典中;步骤5.3:构建特征向量词库,使用词嵌入的方式将代码索引词典中的单词进行从单词到特征向量的映射;步骤6:基于特征向量词库,采用多个预设目标编码器、预设目标解码器与判别器构建函数注释生成网络模型;步骤7:接收并分类目标代码函数数据,采用训练代码函数数据和验证集对预设的函数注释生成网络模型进行训练,生成训练好的函数注释生成网络模型,使用测试集检验模型训练效果;步骤8:通过目标解码器对目标代码函数数据中的预设特征向量进行解码,生成对应的目标代码函数注释。

全文数据:

权利要求:

百度查询: 广东工业大学 一种基于GVG的代码注释生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。