买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】用于解决多轮对话中训练数据蕴含实体标注冲突的方法_神思电子技术股份有限公司_202311740183.6 

申请/专利权人:神思电子技术股份有限公司

申请日:2023-12-18

公开(公告)日:2024-03-22

公开(公告)号:CN117744608A

主分类号:G06F40/169

分类号:G06F40/169;G06F40/216;G06F18/22;G06F18/214

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.09#实质审查的生效;2024.03.22#公开

摘要:一种用于解决多轮对话中训练数据蕴含实体标注冲突的方法,涉及语言分析技术领域,获取不同标注人员标注的待检测数据,抽样检测评估不同标注人员标注数据的质量即标注正确率,将不同标注人员标注的任意两条数据输入至相似度检测模型,计算出两条数据的相似度,当相似度大于设置的阈值时,判断上述两条数据标注的标签是否一致;当标签不一致时,则判定上述两条数据标注的标签存在冲突,根据不同标注人员标注正确率计算标注数据中每个标签的重要程度,当标注数据中的某个标签的重要程度大于设置阈值时,则判定该标签标注正确,极大地提高了训练数据标注的质量,提高工作效率,降低了人工反复核查的成本,充分综合了不同标注人员的建议。

主权项:1.一种用于解决多轮对话中训练数据蕴含实体标注冲突的方法,其特征在于,包括如下步骤:S01.获取n个不同标注人员标注的m个语句的待检测数据集D,D={D1,D2,...,Di,...,Dn},Di为第i名标注人员的待检测数据,i∈{1,...,n},Di={Di_1,Di_2,...,Di_r,...,Di_m},Di_r为第i名标注人员的标注的第r个语句的标注数据及该数据所标注标签,r∈{1,...,m};S02.统计第i名标注人员标注的准确率Pi;S03.将第i名标注人员的标注的第r个语句的标注数据及该数据所标注标签Di_r及第i+1名标注人员的标注的第r个语句的标注数据及该数据所标注标签Di+1_r输入到相似度检测模型中,输出得到相似度值Sr;S04.根据相似度值S判断第i名标注人员的标注的第r个语句的标注数据及该数据所标注标签Di_r与第i+1名标注人员的标注的第r个语句的标注数据及该数据所标注标签Di+1_r是否一致,当不一致时执行步骤S05;S05.对比第i名标注人员的标注的第r个语句的标注标签与第i+1名标注人员的标注的第r个语句的标注标签是否完全一致,如果不完全一致则将第i名标注人员的标注的第r个语句的标注数据及该数据所标注标签Di_r与第i+1名标注人员的标注的第r个语句的标注数据及该数据所标注标签Di+1_r作为冲突数据组;S06.计算第i名标注人员的标注的第r个语句的各个标注标签的重要程度Wx;S07.根据重要程度Wx判定第i名标注人员的标注的第r个语句的标注标签是否正确;S08.重复步骤S03至步骤S07直至检测完成所有标注人员的标注数据。

全文数据:

权利要求:

百度查询: 神思电子技术股份有限公司 用于解决多轮对话中训练数据蕴含实体标注冲突的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。