【发明公布】一种基于可解释模型的文本歧视性样本检测生成系统与方法_西安交通大学_202111584810.2

申请/专利权人：西安交通大学

申请日：2021-12-22

公开（公告）日：2022-03-25

公开（公告）号：CN114238661A

主分类号：G06F16/36(20190101)

分类号：G06F16/36(20190101);G06F16/335(20190101);G06F16/33(20190101);G06N3/12(20060101)

优先权：

专利状态码：在审-实质审查的生效

法律状态：2022.04.12#实质审查的生效;2022.03.25#公开

摘要：本发明公开了一种基于可解释模型的文本歧视性样本检测生成系统与方法，该方法分三步对文本分类集中包含潜在的歧视性的种子样本进行定位，并检测和生成大量生成歧视性样本：首先通过知识图谱构建给定敏感特征集中所有敏感特征的对应词库和扰动词库；其次，从文本数据集中随机选择一部分样本通过可解释模型得到其Top‑k的重要特征，通过匹配敏感词库选择种子样本；最后通过遗传算法从种子样本中检测出歧视性样本，并生成大量的歧视性样本来重新训练模型，消除模型的歧视性。

主权项：1.一种基于可解释模型的文本歧视性样本检测生成方法，其特征在于，包括以下步骤：步骤1，已知文本数据集D，确定针对D的待检测敏感属性集A，根据知识图谱H构造A中所有敏感属性的对应词库W1以及变异词库W2；将文本数据集D中每一条文本x转化为词向量，建立词向量和对应单词的查询字典，所述对应单词属于文本x；步骤2，任意选取文本数据集D中的一个子集D1，将D1中的每一条文本x转化为词向量z，将词向量z输入待检测分类器M中获得x的预测标签p；通过词向量z、待检测分类器M和预测标签p输入可解释模型中，获得文本x的重要程度排名大于k的top-k单词，所述k为设置阈值；将文本x中的top-k单词通过知识图谱H进行词性查询，获得词性返回结果，将词性返回结果与对应词库W1匹配，若匹配成功，则将文本x视为一个种子样本；遍历子集D1中的每一条样本，得到种子样本集S；步骤3，设定种子样本集S中的每一个文本x为原始文本xs，对每一个原始文本xs复制N个相同样本，获得搜索群体P0；步骤4，取出搜索群体P0中的一条文本pi，随机选择其中一个非敏感单词，将其替换为近义词，获得变异后的群体P′0；从变异后的群体P′0中随机抽取两个文本进行单词的交叉，将变异后的群体P′0中的所有文本进行交叉后，获得全部文本交叉后的群体P″0；从全部文本交叉后的群体P″0中取出一个样本p，从变异词库W2中检索出与样本p的敏感单词相反的单词，生成测试样本p′，所述测试样本p′包括样本p和与p的敏感单词相反的单词；将一对测试样本输入至待检测分类器M中，若返回的预测标签不同，则视为一对歧视性样本，否则不是一对歧视性样本；步骤5，对群体P″0中的所有样本通过适应度函数计算适应度值，以适应度值的概率分布选择下一代迭代的群体P1，重复步骤4，直至达到最大迭代次数，获得由原始文本x生成的所有歧视性样本对；步骤6，重复步骤4和步骤5，直至遍历种子样本集S生成对应的歧视性样本集。

全文数据：

权利要求：

百度查询：西安交通大学一种基于可解释模型的文本歧视性样本检测生成系统与方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种结构紧凑的测斜仪骨架_青岛智腾科技有限公司_201910663221.X

下一篇：一种用于开槽埋管的冷冻施工辅助设备及方法_长江生态环保集团有限公司_202310118173.2

相关技术

一种结构紧凑的测斜仪骨架_青岛智腾科技有限公司_201910663221.X

一种用于开槽埋管的冷冻施工辅助设备及方法_长江生态环保集团有限公司_202310118173.2

基于模糊控制的电力设备智能调控方法_太原理工大学_202410258512.1

一种基于计算机视觉的肺区区域分割系统_东莞理工学院_202210022595.5

一种农产品供应链信息管理系统_河南建设产业投资有限公司_202311393351.9

消息的发送方法、装置、电子设备和存储介质_北京字跳网络技术有限公司_202210060996.X

一种特殊螺纹上扣扭矩的分类识别方法及识别设备_中国石油天然气股份有限公司_202110576266.0

一种电石渣煅烧氧化钙粉体循环压球系统及工艺_江苏中圣园科技股份有限公司_202011333705.7

用于控制空调的方法及装置、空调_青岛海尔空调电子有限公司_202210048335.5

一种风机通风量检测方法及装置_北京农业信息技术研究中心_202110665511.5

一种防止带钢在精轧卷取中发生追尾的方法_首钢京唐钢铁联合有限责任公司_202210031884.1

一种全自动样品混合缩分装置及方法_青岛海关技术中心_201910859073.9

龙图腾网&IPTOP

【发明公布】一种基于可解释模型的文本歧视性样本检测生成系统与方法_西安交通大学_202111584810.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务