买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于Transformer模型和深度强化学习的密码猜测系统及方法_电子科技大学_202210022416.8 

申请/专利权人:电子科技大学

申请日:2022-01-10

公开(公告)日:2023-05-30

公开(公告)号:CN114462018B

主分类号:G06F21/45

分类号:G06F21/45;G06F40/216;G06F40/284;G06F40/30;G06N3/0455;G06N3/047;G06N3/092

优先权:

专利状态码:有效-授权

法律状态:2023.05.30#授权;2022.05.27#实质审查的生效;2022.05.10#公开

摘要:本发明提供了一种基于Transformer模型和深度强化学习的密码猜测系统及方法,包括分词模块,采用文本词条化工具对密码集进行词条概率统计,按照设置生成词表,并对密码集进行词条切分操作,生成分词后的密码集;语言模型模块,负责根据分词后的密码集,训练Transformer语言模型,生成下一可能词条的概率表;强化学习解码模块,负责根据Transformer语言模型的输出结果动态调整解码时的采样“温度”,持续生成碰撞率最高的密码训练集;工具模块,负责清洗数据集,将生成的密码训练集与密码测试集进行匹配碰撞。基于本发明的技术方案,能够改善传统集束搜索解码方式耗费资源多以及解码时间长的情况,提高了密码猜测集的碰撞效率,且占用内存资源少,生成猜测集也十分方便。

主权项:1.一种基于Transformer模型和深度强化学习的密码猜测系统,其特征在于,包括:分词模块,采用文本词条化工具对密码集进行词条概率统计,按照设置生成词表,并对密码集进行词条切分操作,生成分词后的密码集;语言模型模块,负责根据分词后的密码集,训练Transformer语言模型,训练步骤包括:步骤S31、将密码训练集中的序列打乱并小批量依次输入Transformer语言模型;步骤S32、Transformer语言模型对输入的信息进行预处理操作,将其转化为one-hot向量并进行嵌入操作,然后再嵌入位置信息;步骤S33、将预处理操作的结果输入神经网络,分别与三个权重矩阵运算得到第一权重矩阵Q、第二权重矩阵K、第三权重矩阵V,第一权重矩阵Q、第二权重矩阵K、第三权重矩阵V分别经过自注意力模块得到每个字符与其他字符之间的注意力分数矩阵Zi,运算方式如下: 步骤S34、多头注意力机制模块将Z1~n拼接到一起,随后传入一个线性层得到与多头注意力机制输入矩阵X同维度的最终输出矩阵Z;步骤S35、残差连接归一化层由残差连接和归一化两部分构成,多头注意力机制模块的最终输出矩阵Z与输入矩阵X通过第一残差连接归一化层进行残差连接,然后进行归一化层操作,将每一层神经元的输入都转换成符合标准正态分布的均值方差:LayerNormX+Z;步骤S36、前馈神经网络模块使用两层全连接层对结果进行处理,前馈神经网络模块输出与输入的维度一致,前馈神经网络模块之后是第二残差连接归一化层操作,第二残差连接归一化层操作的输出作为下一次循环步骤S33~S35的输入,循环N次;步骤S37、经过线性层调整输出的形状为词表大小,最后再采用Softmax函数计算下一个字符的概率;步骤S38、选择最大概率的词条作为输出,训练采用随机梯度下降的方法,并采用交叉熵损失函数进行loss运算:l=CrossEntropyLossoutput,Y;步骤S39、重复步骤S31~S38,直到Transformer语言模型训练完成;生成下一可能词条的概率表;强化学习解码模块,负责根据Transformer语言模型的输出结果动态调整解码时的采样“温度”,持续生成碰撞率最高的密码训练集,包括以下步骤:步骤S41、设置四维的状态向量,四个维度分别为当前温度、当前所有生成序列的碰撞率、当前时间步生成序列的碰撞率以及当前时间步生成序列的单位碰撞率,设定初始状态s0为[1.0,0,0,0];步骤S42、初始化环境,包括读取测试集数据、设定阶段性终止符、设置状态记忆池;步骤S43、将状态向量输入深度Q网络中,深度Q网络根据状态向量依一定的概率输出行为值函数最大的行为值或随机行为值;步骤S44、环境依靠当前状态和行为值做出反应,并在调整后的概率分布上进行采样;步骤S45、采样得到的猜测密码序列交由环境碰撞测试集,计算碰撞率、单位碰撞率以及新增碰撞率作为状态;环境会根据当前状态给出输出下一状态、奖励或惩罚反馈以及任务是否结束指令;步骤S46、Transformer语言模型会将状态、行为值、奖励、下一状态这四个维度的信息储存下来,并在达到预定的数量后随机选择一部分训练深度Q网络;步骤S47、在每次学习的时候,遵从Q-learning的训练方式更新状态行为值函数,即更新evaluatenetwork的参数: Qs,a的值来自评估网络,Qs′,a′来自目标网络,目标网络的更新频率慢于评估网络;步骤S48、如果达到终止条件,则重置环境,重复步骤S43~S47,直至训练结束;工具模块,负责清洗数据集,将生成的密码训练集与密码测试集进行匹配碰撞。

全文数据:

权利要求:

百度查询: 电子科技大学 一种基于Transformer模型和深度强化学习的密码猜测系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。