首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于Transformer的对比多视图下庞氏骗局检测方法_桂林电子科技大学_202311361188.8 

申请/专利权人:桂林电子科技大学

申请日:2023-10-20

公开(公告)日:2024-01-16

公开(公告)号:CN117408698A

主分类号:G06Q20/40

分类号:G06Q20/40;G06V10/40;G06V10/80;G06V10/82;G06N3/0455;G06N3/0499;G06N3/0895

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.02.02#实质审查的生效;2024.01.16#公开

摘要:本发明公开了一种基于Transformer的对比多视图下庞氏骗局检测方法,包括:1)数据预处理;2)特征提取;3)对比学习;4)模型评估。这种方法能够半监督训练,能准确识别庞氏骗局,同时检测庞氏骗局合约具有实时性。

主权项:1.一种基于Transformer的对比多视图下庞氏骗局检测方法,其特征在于,所述方法为:首先采用VisionTransformer即ViT、Transformer、BidirectionalEncoderRepresentationfromTransformer即BERT模型学习合约代码视图特征和账户交易视图特征的特征嵌入,获得视图特征的全局结构和语义特征,捕获视图特征Token之间的远程依赖关系,然后采用对比学习的方法,将视图特征进行映射,如果视图特征都在相同的类别非庞氏骗局或者庞氏骗局,特征嵌入分别都映射附件相邻的点即欧几里德距离测量,而不同类别的视图特征映射到较远的点,具体包括如下步骤:1数据预处理:给定一组多视图的智能合约特征,通过在嵌入空间中将同一类别下庞氏骗局或者非庞氏骗局的视图特征聚集在一起,同时将不同类别的视图特征远离,每个视图的编码被连接以形成相同类别的完整特征表示,用I0、T0和J0表示非庞氏骗局的智能合约视图,I1、T1和J1表示庞氏骗局的智能合约视图,建立一个有效的庞氏骗局检测模型,采用Farrugia等人提供的智能合约数据集、该数据集包含庞氏骗局合约2179份,非庞氏骗局合约7662份,其中,账户交易视图特征中庞氏骗局的账户交易特征包含以下三个特点:第一:账户活跃期长、交易量大、合同余额低;第二:极少部分的账户回报数大于投资数;第三:庞氏骗局账户的第一笔交易时间和最后一笔交易时间间隔短,因此在该数据集中每个账户共包含42个特征,其中大部分特征跟Chen和Hirshman等人提出的类似,完成上述数据预处理,包括:1-1字节码视图:从以太坊上直接获取公开的智能合约源代码,同时采用编译器编译获取字节码,智能合约的字节码视图是由一串十六进制数表示,按照字节码的排序将字节码转换成二进制数字、并将二进制数字转换成像素,生成224×224的灰度图像;1-2操作码视图:根据从以太坊上获得的智能合约的操作码,为每一个不同的操作码建立一个英文字典序列,字典中的英文序列与操作码一一对应,每个单词序列用[SOS]和[EOS]的Token括起来;2特征提取:在TranMulti-ViewNet中,利用VisionTransformer即ViT、Transformer、BidirectionalEncoderRepresentationfromTransformer即BERT模型将预处理后的操作码视图、账户交易视图特征和字节码视图分别传入操作码编码器、账户交易特征编码器和字节码编码器进行编码,并进行多视图的特征映射,其中:操作码编码器:将操作码视图传入操作码编码器中,操作码编码器采用BERT模型,BERT模型中采用的是具有8个关注头以及12层的宽度为512的Transformer模型,在Transformer模型中账户交易视图特征都会经过归一化处理,再建立Token之间具有长距离依赖关系的特征图,并线性投射到多视图的嵌入空间,在操作码编码器的Transformer中,叠加采用TokenEmbeddings和PositionEmbeddings,TokenEmbeddings采用词嵌入模型,TokenEmbeddings是将经过字典处理后的单词序列进行词嵌入学习,每个序列中的词即Tokens将转换为固定维度的词向量,PositionalEmbeddings表示句子中单词的位置信息,从而学习操作码视图的文本结构信息,另外,在操作码编码器中对操作码视图增加Mask自注意力机制,并辅助BERT提取视图中的关键特征;字节码编码器:将字节码视图传入字节码编码器进行线性映射,在字节码编码器中采用ViT模型,在ViT模型中采用和BERT模型相同的Transformer参数,在Transformer模型接受的1D序列的嵌入输入,处理2维的字节码图像采用PatchEmbedding将图像x∈RH×W×C扁平为一系列其中H,W表示原始图像的分辨率,P,P表示每个图像Token的分辨率,N=HWP2为ViT中Transformer输入的有效序列长度,另外ViT中也包含PositionEmbedding,PositionEmbedding给Patch加上相对位置;账户交易特征编码器:对账户交易特征信息编码时,采用Transformer模型,该模型的Transformer参数和ViT中的Transformer参数一样,另外没有在账户编码器中加入PositionEmbedding;Transformer:若智能合约中存在源码偏长,则可能导致在模型特征提取过程中特征信息丢失的情况,使模型不能完全理解语义的上下文信息,在TranMulti-ViewNet采用Transformer,Transformer以并行的方式处理输入的数据,Transformer模型由PositionEmbedding模块、多头注意力机制和前馈网络组成,在多头主力机制中自注意力机制占据主要作用,自注意力机制通过K、Q、V向量来学习特征信息,其中K和V向量记录已经学到的信息,并通过查询Q来得到注意力权重,自注意力机制输出向量的计算方式如公式1所示: 其中利用K、Q进行视图特征之间的相似度计算,并获得相似度权重矩阵,V表示对相似度权重矩阵进行缩放调节,k表示维度,softmax函数是对相似度权重进行归一化,归一化的权重和相应的V进行加权求和得到注意力输出,自注意力机制“动态”地生成不同连接的权重,多头注意力机制是将k个自注意力机制进行组合,每个自注意力模块都关注相同的K、Q、V,每个模块对应最终输出序列的子空间,并且输出序列互相独立,多头注意力机制模块能同时关注表征子空间的不同位置的不同信息,多头注意力机制计算方式如公式2、公式3所示:Headi=attentionQWiQ,KWiK,VWiV2,MutiHeadQ,K,V=concathead1,…,headhW3,其中k表示有k组K、Q、V向量,k表示K、Q、V的权重参数,每组k都不相同,concat表示将自注意力机制的结果连接起来,连接起来的权重乘上一个权重向量Wo得到多头注意力机制的输出结果;前馈网络:Transformer中的前馈网络是由1个MultilayerPerceptron即MLP层、GRU层和1个Relu激活函数组成,其中GRU使模型更容易学习到视图特征的长依赖;3对比学习:定义对比学习损失函数,对比学习损失函数衡量同一类别的多视图特征之间的相似性和不同类别的多视图特征之间的差异性,采用对比学习损失函数对模型进行训练,使模型从多视图特征中学习到判别庞氏骗局的特征,将同一类别的视图分布与相同的特征空间合并到模型最后一层,然后接入全连接层,再利用余弦相似度处理后的视图特征进行预测,最后得到庞氏骗局的分类结果,具体地:用I表示字节码视图,T表示操作码视图,J表示账户交易视图特征,分别提取视图特征如下所示:If=ViTEncoderI4,Tf=BERTEncoderT5,Jf=TransformerEncoderJ6,Ie=WV2σWV1If7,Te=WB2σWB1Tf8,Je=WT2σWT1Jf9,其中If、Tf和Jf分别是字节码视图、操作码视图和账户交易视图特征经过ViT、BERT和Transformer的输出,W1和W2分别为可训练参数,Ie、Te和Je为视图的特征表达,按照如下对比损失训练模型: 其中simu,v=uTv||u||||v||,B代表训练批次样本数目,τ取值为0.5,对模型进行半监督训练的时,不仅采用对比学习中的损失函数训练,还将If、Tf和Jf进行特征融合,将融合后的特征输入进一个全连接,训练分类损失函数,采用FocalLoss,FocalLoss通过在交叉熵损失函数中设定权重,从而控制总的损失函数,计算方式如公式12所示: 其中α∈[0,1]表示当庞氏骗局合约较少,α的数值越大,庞氏骗局合约贡献的损失值会越大,γ表示调节因子降低非庞氏骗局的权重,集中训练庞氏骗局样本,p∈[0,1]表示预测样本的类别概率,y表示样本为庞氏骗局和非庞氏骗局的样本标签,若y=1,则表示庞氏骗局样本;若y=0,则表示非庞氏骗局样本,最终,本模型的损失函数如公式13所示:loss=η*lossI,T+γ*lossI,J+λFocal_lossp,y13,在公式13中采用半监督训练时,W1和W2分别等于0.1时,则Ie等于1;4模型评估:模型评估指标选取查准率Precision、查全率Recall和F-score3个指标对模型的性能进行度量,3个指标的具体定义如下: 其中TP表示实际为正样本、且被判别为正样本的样本数量,FP表示实际为负样本,但被判别为正样本的样本数量,FN表示实际为正样本,但被判别为负样本的样本数量。

全文数据:

权利要求:

百度查询: 桂林电子科技大学 一种基于Transformer的对比多视图下庞氏骗局检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。