首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于三支置信度引导的随机游走机制的Transformer可解释性方法_南通大学_202410162283.3 

申请/专利权人:南通大学

申请日:2024-02-05

公开(公告)日:2024-05-17

公开(公告)号:CN118053023A

主分类号:G06V10/764

分类号:G06V10/764;G06V10/82;G06V10/77;G06V10/28;G06N3/0455;G06N3/082

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.06.04#实质审查的生效;2024.05.17#公开

摘要:本发明提供了一种基于三支置信度引导的随机游走机制的Transformer可解释性方法,属于人工智能可解释性技术领域。解决了Transformer模型难以解释得不到使用者信任的技术问题,其技术方案为:首先从图像数据集中读取RGB图像,然后将其切块映射为线性张量,并引入分类张量;接下来进入Transformer模块,将注意力矩阵保存,同时获取分类结果;接着利用适当阈值将注意力矩阵划分前景和背景,将结果输入到三支模块;当原图与前景分类一致且与背景不一致时,本发明根据预测得分获取图像块的置信度得分;当原图与前景、背景分类一致。本发明的有益效果为:可解释性好,在自然图像和医学图像上均有较好的实验结果。

主权项:1.基于三支置信度引导的随机游走机制的Transformer可解释性方法,其特征在于,包括以下步骤:S1:读取图像数据集得到图像x,对图像进行预处理修改图像尺寸为预设像素,将RGB图像划分为多个图像块,经过线性映射成集合X0=x1,x2,...,xi,...,xN,其中xi=R,G,B表示图像数据集每一小块图像的像素点的非空有限集合,其中i=1,2,...,N,N表示切分的块数,R,G,B表示每个样本的R,G,B三个通道依次拼接成的一个线性张量,R、G、B分别表示图像的红、绿、蓝颜色通道;S2:将分类张量xclass加入集合X0,并为xclass及每个xi都加上位置信息编码Epos,其中class表示分类,pos表示位置,然后将X0输入Transformer模块,进行L次循环,则第j次循环得到的结果为Xj,重复L轮得到输出XL;S3:在每一轮计算过程中,记录下每一个Transformer模块中的注意力矩阵Ak,k=1,2,...,L,通过从自注意力层的头的维度上取平均进行头聚合,即其中m为每一块自注意力层内头的数量,为块k下m个头的注意力矩阵,将经过头聚合后的结果加上单位矩阵I,得到块k下的平均头部注意力映射矩阵然后再对L个平均头部注意力映射矩阵进行聚合操作,得到最终的注意力映射矩阵用于前景背景区域划分;S4:将XL中第一个维度上的分类张量xclass取出,xclass是一个学习了全局语义信息的线性张量,将xclass传入多层感知机,最终输出为图像数据集各类别的置信度分数,置信度分数通过softmax激活函数映射成概率分布,选取概率最大的分类作为预测的类别,预测的类别将输入到三支决策模块中;S5:选择合适的阈值将注意力映射矩阵划分为前景区域与背景区域,采用均值和标准差作为阈值选择的置信区间,公式如下: 其中T为训练集中的样本总数,t表示对应的阈值,Yid表示图像i被预测为d类的概率,表示当图像i采用t作为阈值时,注意力矩阵的标记区域被预测为d类的概率,It对应于每个阈值t的误差之和,同一数据集中的所有图像将采用与最低It相对应的相同阈值来对注意力映射图进行划分;S6:将按阈值划分后得到的前景区域与背景区域分别与原始图像进行逐元素相乘,得到前景图像f与背景图像b,将前景图像与背景图像送到模型中,即可得到前景图像预测类别与背景图像预测类别,根据前景图像和背景图像的预测类别和原始图像的预测类别的不同,进入三支决策模块,获取三支置信度分数Score,将Score与注意力映射矩阵进行哈达玛乘积得到最终重要性图,通过热图将归一化的重要性图覆盖在原始图像上,即可获得最终的可解释的热图结果。

全文数据:

权利要求:

百度查询: 南通大学 基于三支置信度引导的随机游走机制的Transformer可解释性方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。