买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于大数据的司法领域类案推送方法_火眼金睛数据服务(雄安)有限公司_202310464853.X 

申请/专利权人:火眼金睛数据服务(雄安)有限公司

申请日:2023-04-26

公开(公告)日:2024-02-27

公开(公告)号:CN116610770B

主分类号:G06F16/33

分类号:G06F16/33;G06F40/30;G06F40/284;G06F18/22;G06F18/214

优先权:

专利状态码:有效-授权

法律状态:2024.02.27#授权;2024.02.20#专利申请权的转移;2024.02.20#专利申请权的转移;2023.09.05#实质审查的生效;2023.08.18#公开

摘要:本发明涉及自然语言处理技术领域,具体涉及一种基于大数据的司法领域类案推送方法;包括将司法领域文书上传到数据库进行匹配;将司法领域文书及其匹配数据输入到训练好的类案相似度计算模型,输出该司法领域文书与每一个匹配数据的相似度;将所有相似度按照大小降序排列,并选取前k个相似度所对应的匹配数据进行推送;本发明解决了文书文本在预训练模型表征中文本特征趋同的难题,并通过数据扰动的方法进行数据增强,克服了司法领域文书类案推送情景下构建有监督样本时间、人工成本高的困难,可以高效、低成本和自动化地完成精准司法领域类案推送,帮助司法领域从业人员快速地获取与他们正在处理的案件相关的信息和先前的裁决结果。

主权项:1.一种基于大数据的司法领域类案推送方法,其特征在于,包括:将司法领域文书上传到数据库进行匹配;将司法领域文书及其匹配数据输入到训练好的类案相似度计算模型,输出该司法领域文书与每一个匹配数据的相似度;将所有相似度按照大小降序排列,并选取前k个相似度所对应的匹配数据进行推送;其中,类案相似度计算模型的训练过程包括:S1.在获取的司法领域文书数据集D中采样,得到一个Batch_size大小为N的原始样本集;S2.将原始样本集输入文本嵌入层和数据扰动层得到增强样本集;且增强样本集中的增强样本与原始样本集中的原始样本一一对应;S3.将经过文本嵌入层的原始样本集进行embedding后输入Bert预训练模型得到N个原始样本的文本向量表示,将增强样本集输入Bert预训练模型得到N个增强样本的文本向量表示;S4.基于步骤S3获取的数据,分别通过Simloss函数和Rewardloss函数计算对比学习损失和奖励损失并反向传播训练参数;S5.重复步骤S1-S4,迭代训练直至模型收敛。

全文数据:

权利要求:

百度查询: 火眼金睛数据服务(雄安)有限公司 一种基于大数据的司法领域类案推送方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。