【发明公布】一种Self-Attention算子的量化方法_合肥君正科技有限公司_202211287706.1

导航：龙图腾网> 最新专利技术> 一种Self-Attention算子的量化方法_合肥君正科技有限公司_202211287706.1

申请/专利权人：合肥君正科技有限公司

申请日：2022-10-20

公开（公告）日：2024-04-23

公开（公告）号：CN117917673A

主分类号：G06N3/0495

分类号：G06N3/0495

优先权：

专利状态码：在审-公开

法律状态：2024.04.23#公开

摘要：本发明提供一种Self‑Attention算子的量化方法，包括：S1，对第一matmulmatmul1进行量化:根据量化原理公式2对第一matmulmatmul1进行量化；S2,对第二matmulmatmul2进行反量化Dequantize，以便做softmax操作：由于softmax的数据流是float数据，而matmulInt8qint8,kint8的输出是整型数据，所以插入Dequantize操作；S3,对softmax进行量化：softmax的输出数据类型为float，将作为matmulInt8的输入，为保证matmul操作的数据流为整型数据，需要量化softmax的输出；S4,对第三matmulmatmul3进行量化。本方法中Attention内部的matmul操作已全部量化，即matmul的数据流为整型数据。本申请方法简单，AttentionInt8算子的scale计算都在线下完成，且其内部matmul操作的数据流为整型，在保证精度的同时，大大减少了终端推理时AttentionInt8的计算量和搬运数据所用的时间。

主权项：1.一种Self-Attention算子的量化方法，其特征在于，所述方法包括以下步骤：S1，对第一matmulmatmul1进行量化:量化公式推导：量化实际上是一个放射变换，通常分为对称量化和非对称量化：r＝s×q-z公式1，其中r为量化前数值，s为缩放因子，q为量化后数值，z表示零点，映射的常用形式可分为非对称量化和对称量化两种，两者的区别在于量化值区间是否限制了量化前后零点对应，对称量化中z＝0，故r＝s×q公式2；根据量化原理公式2对第一matmulmatmul1进行量化:表示为下面公式3：qkv＝input_scale*w_scalematmulinputInt,weightInt+biasinput_scale*w_scale，其中，qkv为qkv的拼接input_scale为Attention算子的输入scale；w_scale为qkv权重拼接的scale，即的scaleinputInt为量化后的Attention算子的输入，是整型数据；weightInt为量化后的即亦为整型数据；bias为q_bias、k_bias和v_bias的拼接，即表示为下面公式4：qkvmatmul_op_float_scale＝input_scale*w_scale，表示为下面公式5：其中，q_matmul_op_float_scale与k_matmul_op_float_scale的含义详见公式：S2,对第二matmulmatmul2进行反量化Dequantize，以便做softmax操作：由于softmax的数据流是float数据，而matmulInt8qint8,kint8的输出是整型数据，所以插入Dequantize操作；S3,对softmax进行量化：softmax的输出数据类型为float，将作为matmulInt8的输入，为保证matmul操作的数据流为整型数据，需要量化softmax的输出；S4,对第三matmulmatmul3进行量化：表示为下面公式10：output＝matmulvInt*vmatmul_op_float_scale,softmax_outputInt*softmax_output_scale；其中，output是Attention算子的输出；vInt是v量化后的值，为整型数据；vmatmul_op_float_scale来自公式4v_matmul_op_float_scale；softmax_outputInt为softmax操作的输出softmax_output的量化值，为整型数据；softmax_output_scale为softmax输出的scale；表示为下面公式11：outputUint_＝cliproundoutputoutput_scale,min,max；对于一个量化后的模型，AttentionInt8算子的输出将是一个量化后的算子的输入，所以得到output后，需要对其进行量化，如公式11所示，其中，min＝-2bit-1，max＝2bit-1-1，其中bit为量化位宽；表示为下面公式12：output＝matmulvInt,softmax_outputInt*vmatmul_op_float_scale*softmax_output_scale；公式12与公式11等价；表示为下面公式13：outputUint_＝cliproundmatmulvInt,softmax_outputInt*vmatmul_op_float_scale*softmax_output_scaleoutput_scale,min,max；结合公式12和公式11可得公式13。

全文数据：

权利要求：

百度查询：合肥君正科技有限公司一种Self-Attention算子的量化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种可移动升降旋转变形床头置物柜_山西传媒学院_202322018692.X

下一篇：一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

相关技术

一种可移动升降旋转变形床头置物柜_山西传媒学院_202322018692.X

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

配备可拆固定式导纸嘴的打印装置_长城信息股份有限公司_202322616485.4

一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

一种水泵节能增压装置_陕西海利智慧能源科技有限公司_202322218413.4

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

一种机床零件用抛光装置_杭州盈动达精密机械有限公司_202322717477.9

无线遥控理疗床_泰安市迈迪医疗电子有限公司_202322303870.3

一种无人机使用高清摄像模组_陕西泰沃云科技有限公司_202322392870.5

一种洗涤设备_重庆海尔洗衣机有限公司_202321535727.0

无功补偿柜柜体_广东澳江电气有限公司_202322547060.2

方法相关技术

定子及其制造方法_LG麦格纳电子动力总成有限公司_202110012057.3

通信方法及装置_华为技术有限公司_202211296381.3

模型剪枝方法、人脸识别模型训练方法及人脸识别方法_苏州元脑智能科技有限公司_202311803044.3

通信方法及装置_华为技术有限公司_202010617172.9

信息处理方法_丰田自动车株式会社_202311358127.6

通信方法及装置_华为技术有限公司_202311024020.8

曝光方法、曝光装置、以及物品的制造方法_佳能株式会社_202311346914.9

蓄电设备的检查方法及制造方法_丰田自动车株式会社_202010574534.0

能力确定方法、上报方法、装置、设备及存储介质_北京小米移动软件有限公司_202280001087.7

冰箱及其控制方法_LG电子株式会社_202080061858.2

算子相关技术

基于Koopman算子的软体机器人控制方法、装置、设备及介质_武汉理工大学_202210969229.0

基于数据融合和算子增强的不可压缩NS方程求解方法_太原理工大学_202410106508.3

一种算子检测方法、装置以及计算机设备_北京大学_202310451059.1

运算器芯片设置方法、计算子系统以及智能计算平台_广东琴智科技研究院有限公司_202410295284.5

一种基于多语言的算子测试用例生成和优化方法_测点大数据(苏州)有限公司_202011487254.2

稀疏数据识别方法、智能计算子系统以及智能计算平台_广东琴智科技研究院有限公司_202410295400.3

基于算子链的数据同步方法、装置、设备及存储介质_天翼云科技有限公司_202311697732.6

面向向量加速器的算子设计优化方法、装置、设备及介质_中国人民解放军国防科技大学_202410070438.0

处理器Cache结构的缓存方法、计算子系统以及智能计算平台_广东琴智科技研究院有限公司_202410286833.2

一种芯片的算子配置方法、装置、电子设备及存储介质_上海人工智能创新中心_202410064138.1

Self-Attention相关技术

基于BiGRU-Attention的Stacking梅雨季光伏功率预测方法及系统_广西电网有限责任公司_202311764842.X

一种基于LSTM网络和Attention机制的城市需水预测方法_河海大学_202110815711.4

一种基于ConvBiLSTM-Attention深度神经网络的微量元素含量预测方法_电子科技大学_202410074944.7

一种基于attention的双向表示模型的RNA修饰位点预测方法_徐州工业职业技术学院_202211259709.4

一种基于SMBO-BiGRU-Attention的短期电力负荷预测方法_兰州理工大学_202410087126.0

一种基于Lasso和Attention-GRU的区域交通碳排放预测方法及系统_江苏大学_202410113395.X

一种基于VGG-Attention模型的SAR图像部件解译方法_南京航空航天大学_202010978115.3

基于Multi-head Attention机制的知识蒸馏的ResNext图像数据分析方法_太原理工大学_202311795597.9

一种基于SSA-CG-Attention模型的多因素采煤工作面涌水量预测方法_华北科技学院(中国煤矿安全技术培训中心)_202311754711.3

一种增量协同Attention卷积的电力终端多标签识别与拒识方法_广西大学_202311221090.2

龙图腾网&IPTOP

【发明公布】一种Self-Attention算子的量化方法_合肥君正科技有限公司_202211287706.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务