买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统_武汉大学_202011140053.5 

申请/专利权人:武汉大学

申请日:2020-10-22

公开(公告)日:2024-03-08

公开(公告)号:CN112287066B

主分类号:G06F16/31

分类号:G06F16/31;G06F16/335;G06N3/0455;G06N3/084;G06Q50/18

优先权:

专利状态码:有效-授权

法律状态:2024.03.08#授权;2021.02.23#实质审查的生效;2021.01.29#公开

摘要:本发明涉及一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统,属于推荐系统的研究范畴,涉及倒排索引、RNN神经网络、Seq2Seq模型等领域,主要针对审计中涉及的法律法规、案例等数据构建倒排索引以及Seq2Seq神经网络模型,利用已经训练好的模型实现法律法规及相关案例的智能推荐任务。本发明的优点:可以自动根据场景、关键词智能推荐相关的法律法规以及案例,降低从业者的劳动负荷,提高劳动效率。

主权项:1.一种基于倒排索引与Seq2Seq模型的法律法规推荐方法,其特征在于,包括:S1:构建相关法律法规及案例文档的全文倒排索引;S2:构建Seq2Seq神经网络模型,并对Seq2Seq神经网络模型进行训练,其中,Seq2Seq神经网络模型包括编码器和解码器,编码器用于根据检索词或违规行为经分词后的序列得到网络节点的状态,解码器用于根据编码器的输出生成检索词或违规行为名称对应的关键词序列,检索词或违规行为名称对应的关键词序列为针对法律法规及案例文档全文生成的倒排索引词典中的词序列;S3:利用训练好的Seq2Seq神经网络模型进行法律法规推荐;其中,步骤S1包括:S1.1:基于Python读取法律法规及案例文档全文,以法条或案例为基本单位对其中的文字信息,利用正则表达式进行中文分词操作;S1.2:对中文分词操作产生的词条结果进行归一化,形成词项词典;S1.3:根据词项词典对所有文档按照其中出现的词项建立倒排索引;S2包括:S2.1:构建中文常用词汇的one-hot编码;S2.2:构建基于词汇的one-hot编码的编码器,其中,编码器的输入是检索词或违规行为经分词后的序列,Si=xi1,xi2,…,xiMT,i∈1,2,3…N其中,Si表示第i条记录的数据,xij表示其中的第j个词,M是Si的长度,N为数据条数;编码器的输出ci:ci=hiM,i∈1,2,3…N为序列全部输入后网络节点hiM的状态,其中:hi1=xi1hi,k+1=hik|xi,k+1hik为第i条记录的第k个神经元的隐藏状态,即每个神经元的状态等于其前一个神经元的隐藏状态与当前输入按位做逻辑或运算的结果;S2.3:构建基于词汇的one-hot编码的解码器,其中,解码器的输入为编码器的输出ci,输出为检索词或违规行为名称对应的关键词序列,即针对法律法规及案例文档全文生成的倒排索引词典中的词序列,计算公式如下:h′t=σUc+Wh′t-1+Vy′t-1-θy′t=σVh′t+c其中,h′t为神经元的第t个隐藏状态,h′t-1为神经元的第t-1个隐藏状态,y′t-1为神经元的第t-1个输出,y′t为神经元的第t个输出,σ为激活函数sigmoid函数,c为编码器的输出;U,W,V均为神经网络中隐藏层到输出层的权重向量,θ为每个神经元的阈值向量,U,W,V与θ均为待定参数,其结果通过对模型训练后得出;S2.4:采用教师强化训练方式,将一定比例的上一个神经元的输出y′替换为正确的值作为输入的方式对模型进行训练,具体包括:运用经典BP算法更新RNN网络中的参数,即隐藏层到输出层的权重值与输出层神经元的阈值,其中,BP算法得出更新规则如下:输出层更新规则: 其中,为中间变量,作用是把形如对应等号后边的式子记作g,没有实际含义,η是学习率,η∈0,1,控制算法的每一轮迭代中的更新步长,Uij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量U的权重,Vij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量V的权重,Wij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量W的权重,θj表示输出层第j个神经元的阈值,所有被Δ修饰的变量如ΔV均表示对该变量的修改值,被^修饰的变量与均表示神经网络给出的对该变量的预测值,其中可由与计算得到,Et为y′t的均方误差,E′t为h′t的均方误差,角标i和j表示某一维的分量,为的第j个分量,y′tj表示的第j个分量,βj表示y′t=σVh′t+c中σ函数的输入,β′j表示h′t=σUc+Wh′t-1+Vy′t-1-θ中σ函数的输入,为的第j个分量,h′ti表示h′t的第i个分量,h′t-1i表示h′t-1的第i个分量。

全文数据:

权利要求:

百度查询: 武汉大学 一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术