买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种争议焦点体系构建与识别方法_中国司法大数据研究院有限公司_202310028014.3 

申请/专利权人:中国司法大数据研究院有限公司

申请日:2023-01-09

公开(公告)日:2023-09-12

公开(公告)号:CN116304019B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/211;G06F40/289;G06Q50/18

优先权:

专利状态码:有效-授权

法律状态:2023.09.12#授权;2023.07.11#实质审查的生效;2023.06.23#公开

摘要:本发明公开了一种争议焦点体系构建与识别方法。本方法步骤包括:1对裁判文书集中的每一裁判文书进行分段处理,得到裁判文书的事实认定段和裁判说理段集合D;2从集合D中筛选出蕴含争议焦点的事实认定段和裁判说理段,得到蕴含争议焦点的数据集D1;从数据集D1中提取争议焦点语句,得到争议焦点数据集D2;3对数据集D2进行聚类,形成争议焦点语句聚类簇;4结合相关法律知识对聚类结果进行归纳总结,形成多层级争议焦点知识体系;5结合知识体系对裁判文书集中的裁判文书进行标注,得到争议焦点知识体系识别模型;6当给定一篇裁判文书A,提取裁判文书A中的争议焦点语句并将其输入该模型,识别出裁判文书A的争议焦点。

主权项:1.一种争议焦点体系构建与识别方法,其步骤包括:1对裁判文书集中的每一裁判文书进行分段处理,得到裁判文书的事实认定段和裁判说理段集合D;2从所述事实认定段和裁判说理段集合D中筛选出蕴含争议焦点的事实认定段和裁判说理段,得到蕴含争议焦点的数据集D1;从所述数据集D1中提取争议焦点语句,得到争议焦点数据集D2;3对所述争议焦点数据集D2进行聚类,形成争议焦点语句聚类簇;4结合相关法律知识对聚类结果进行归纳总结,形成多层级争议焦点知识体系;5结合所述多层级争议焦点知识体系对裁判文书集中的裁判文书进行标注,得到争议焦点知识体系识别模型;构建所述争议焦点知识体系识别模型的方法为:51结合所述多层级争议焦点知识体系对裁判文书集中的一部分裁判文书进行标注,标注的数据集记为Ak;其中k代表案由编号;52根据数据集Ak及Ernie预训练模型生成争议焦点中心向量:对第l个标签,获取数据集Ak中具有该第l个标签的pkl个争议焦点标注数据,对应的争议焦点内容集合记为L为标签总数;利用Ernie预训练模型对Ckl数据集中的样本生成表示向量并求均值,获得第l个标签的中心点向量计算中心向量到第l个标签下各争议焦点向量的距离,取最大值作为第l个标签的阈值λkl;53对未标注的争议焦点数据集进行标注,分为粗标注和精标注:首先通过Ernie预训练模型将未标注文本转化为向量,争议焦点文本数据对应的向量记为然后计算向量和案由k下所有标签的中心向量的余弦距离,按距离进行排序,筛选距离最小的前n个中心向量对应的标签作为第一轮标签识别,距离记作d1,…,dn,对应的标签记为l1,…,ln,此过程记作粗标注;然后基于粗标注的结果进行精标注,对于选中的n个标签,通过计算n个标签对应的阈值与粗标注中计算得到的距离d1,…,dn做差并除以阈值,得到若θj均小于0,则认为当前争议焦点文本数据不蕴含标签lj,若存在θj大于或等于0,则选取θj最大值所对应的标签作为当前争议焦点文本数据的标签;最终争议焦点数据集Fk中的文本被打上0个或者1个标签;其中nk表示未标注的争议焦点总数;54通过对步骤53得到的标注数据进行校验,重新生成各个标签的中心点向量及其阈值,采用53中粗标注和精标注方式,对新增争议焦点文本进行标注,得到争议焦点知识体系识别模型;6当给定一篇裁判文书A,提取该裁判文书A中的争议焦点语句并将其输入所述争议焦点知识体系识别模型,识别出该裁判文书A的争议焦点。

全文数据:

权利要求:

百度查询: 中国司法大数据研究院有限公司 一种争议焦点体系构建与识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。