【发明公布】用于开发者聊天室毒性对话的分类体系和自动检测方法_浙江大学_202311832000.3

导航：龙图腾网> 最新专利技术> 用于开发者聊天室毒性对话的分类体系和自动检测方法_浙江大学_202311832000.3

申请/专利权人：浙江大学

申请日：2023-12-28

公开（公告）日：2024-03-29

公开（公告）号：CN117786111A

主分类号：G06F16/35

分类号：G06F16/35;G06F40/35;G06N3/0442;G06N3/0499;G06N3/048;G06N3/047;G06N3/045;G06N3/084;H04L51/04;H04L51/52

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.04.16#实质审查的生效;2024.03.29#公开

摘要：本发明公开了一种用于开发者聊天室毒性对话的分类体系和自动检测方法，该方法基于Gitter平台收集多个有代表性的活跃聊天室的聊天消息，在讨论线程级别对这些消息进行深入分析，检查它们的意图和情绪，并采用卡片分类方法，构建了包含七个毒性类别的细粒度毒性分类体系，手动标注得到了一个包含5158条线程样本的数据集。此外，本发明提出了一种综合文本特征、非文本特征和从大语言模型中获得的负面情绪特征的自动二元毒性检测方法，该方法可以确定对话线程是否为毒性。实验结果表明，本发明实现了平均F1‑Score为0.546。

主权项：1.一种用于开发者聊天室毒性对话的分类体系和自动检测方法，其特征在于，包括以下步骤：S1、基于Gitter平台进行数据收集，收集多个不同项目类型的开发者聊天室的历史聊天消息数据，并根据消息数量对聊天室的规模进行类别划分；S2、使用现有的毒性检测方法对所述步骤S1收集的历史聊天消息数据进行预检测，以确定潜在毒性消息，并结合聊天室的规模及聊天室项目类型根据聊天室的筛选规则对聊天室进行筛选，选出N个代表性聊天室；S3、对N个代表性聊天室中的历史聊天消息数据进行预处理；S4、使用卡片分类法构建分类体系，具体包括：基于所述步骤S3预处理后获得的消息样本，为每个消息样本分配一张卡片，分别在每个代表性聊天室中按比例随机选取部分消息样本进行第一阶段的标注，由多个标注者共同合作完成标注过程，首先判断消息样本是否为毒性，对判断为毒性的消息样本进一步判断其毒性类别，以构建分类体系；S5、根据构建的分类体系对每个代表性聊天室中剩余的所有消息样本进行第二阶段的标注，完成毒性类别标注，并对标注完成的消息样本进行预处理，以将同一开发者用户发送的连续消息合并为一条，对代码片段、网址和文件的特殊内容用特殊标记进行替换，获取用于毒性对话检测的数据集；S6、构建毒性对话检测模型，该毒性对话检测模块包括文本语义编码器、负面情感编码器、非文本特征编码器和分类器，其中，所述文本语义编码器用于提取文本特征，所述负面情感编码器用于提取负面情绪特征，所述非文本特征编码器用于提取非文本特征，所述文本特征、所述负面情绪特征和所述非文本特征进行拼接合并后作为所述分类器的输入，由所述分类器输出毒性或非毒性的分类结果；S7、对毒性对话检测模型进行5折交叉验证，将所述步骤S5构建的数据集划分为训练集、验证集和测试集，使用训练集对毒性对话检测模型进行训练，采用交叉熵作为损失函数对毒性对话检测模型的参数进行调整，使用验证集控制训练停止，以获取训练好的毒性对话检测模型；使用精确率、召回率、F1-分数和准确率作为指标评估实验结果，在测试集上进行评估。

全文数据：

权利要求：

百度查询：浙江大学用于开发者聊天室毒性对话的分类体系和自动检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种具有除臭机构的集成中央气体处理装置_龙岩忠友环境科技有限公司_202322062347.6

下一篇：一种煤矿井下局部通风机远程开停装置_贵州贵能投资股份有限公司_202322392209.4

相关技术

一种具有除臭机构的集成中央气体处理装置_龙岩忠友环境科技有限公司_202322062347.6

一种煤矿井下局部通风机远程开停装置_贵州贵能投资股份有限公司_202322392209.4

一种基于区块链技术的危险废物监管装置_上海博优环境科技发展有限公司_202322288382.X

一种环形导轨间歇循环通电装置_东莞市臻域自动化设备有限公司_202322566793.0

一种高效型苗种植机_海南勤璞园农业科技有限公司_202322496666.8

一种用于汽车保险杠加工的旋转喷漆装置_重庆渝湘智成汽车配件有限公司_202322547178.5

一种籽晶自动熔接结构_四川永祥光伏科技有限公司_202322431204.8

一种醋酸酐含量检测装置_山东嘉驰新材料股份有限公司_202322220520.0

一种叠瓦电池片检测用工装_江苏龙恒新能源有限公司_202322351795.8

一种打印机线路板加工用吸附输送轨道_威海光大光电有限公司_202322481598.8

一种矮轴gasket结构的机械键盘_渴创技术(深圳)有限公司_202322395230.X

电池包和用电装置_蔚来电池科技(安徽)有限公司_202322200695.5

龙图腾网&IPTOP

【发明公布】用于开发者聊天室毒性对话的分类体系和自动检测方法_浙江大学_202311832000.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务