买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】用于开发者聊天室毒性对话的分类体系和自动检测方法_浙江大学_202311832000.3 

申请/专利权人:浙江大学

申请日:2023-12-28

公开(公告)日:2024-03-29

公开(公告)号:CN117786111A

主分类号:G06F16/35

分类号:G06F16/35;G06F40/35;G06N3/0442;G06N3/0499;G06N3/048;G06N3/047;G06N3/045;G06N3/084;H04L51/04;H04L51/52

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.16#实质审查的生效;2024.03.29#公开

摘要:本发明公开了一种用于开发者聊天室毒性对话的分类体系和自动检测方法,该方法基于Gitter平台收集多个有代表性的活跃聊天室的聊天消息,在讨论线程级别对这些消息进行深入分析,检查它们的意图和情绪,并采用卡片分类方法,构建了包含七个毒性类别的细粒度毒性分类体系,手动标注得到了一个包含5158条线程样本的数据集。此外,本发明提出了一种综合文本特征、非文本特征和从大语言模型中获得的负面情绪特征的自动二元毒性检测方法,该方法可以确定对话线程是否为毒性。实验结果表明,本发明实现了平均F1‑Score为0.546。

主权项:1.一种用于开发者聊天室毒性对话的分类体系和自动检测方法,其特征在于,包括以下步骤:S1、基于Gitter平台进行数据收集,收集多个不同项目类型的开发者聊天室的历史聊天消息数据,并根据消息数量对聊天室的规模进行类别划分;S2、使用现有的毒性检测方法对所述步骤S1收集的历史聊天消息数据进行预检测,以确定潜在毒性消息,并结合聊天室的规模及聊天室项目类型根据聊天室的筛选规则对聊天室进行筛选,选出N个代表性聊天室;S3、对N个代表性聊天室中的历史聊天消息数据进行预处理;S4、使用卡片分类法构建分类体系,具体包括:基于所述步骤S3预处理后获得的消息样本,为每个消息样本分配一张卡片,分别在每个代表性聊天室中按比例随机选取部分消息样本进行第一阶段的标注,由多个标注者共同合作完成标注过程,首先判断消息样本是否为毒性,对判断为毒性的消息样本进一步判断其毒性类别,以构建分类体系;S5、根据构建的分类体系对每个代表性聊天室中剩余的所有消息样本进行第二阶段的标注,完成毒性类别标注,并对标注完成的消息样本进行预处理,以将同一开发者用户发送的连续消息合并为一条,对代码片段、网址和文件的特殊内容用特殊标记进行替换,获取用于毒性对话检测的数据集;S6、构建毒性对话检测模型,该毒性对话检测模块包括文本语义编码器、负面情感编码器、非文本特征编码器和分类器,其中,所述文本语义编码器用于提取文本特征,所述负面情感编码器用于提取负面情绪特征,所述非文本特征编码器用于提取非文本特征,所述文本特征、所述负面情绪特征和所述非文本特征进行拼接合并后作为所述分类器的输入,由所述分类器输出毒性或非毒性的分类结果;S7、对毒性对话检测模型进行5折交叉验证,将所述步骤S5构建的数据集划分为训练集、验证集和测试集,使用训练集对毒性对话检测模型进行训练,采用交叉熵作为损失函数对毒性对话检测模型的参数进行调整,使用验证集控制训练停止,以获取训练好的毒性对话检测模型;使用精确率、召回率、F1-分数和准确率作为指标评估实验结果,在测试集上进行评估。

全文数据:

权利要求:

百度查询: 浙江大学 用于开发者聊天室毒性对话的分类体系和自动检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。