【发明授权】一种在线自学习的法院电子卷宗文本分类方法_太极计算机股份有限公司_202110188680.4

导航：龙图腾网> 最新专利技术> 一种在线自学习的法院电子卷宗文本分类方法_太极计算机股份有限公司_202110188680.4

申请/专利权人：太极计算机股份有限公司

申请日：2021-02-19

公开（公告）日：2024-03-26

公开（公告）号：CN112836051B

主分类号：G06F16/35

分类号：G06F16/35;G06F40/242;G06F40/279;G06F40/30;G06Q50/18

优先权：

专利状态码：有效-授权

法律状态：2024.03.26#授权;2021.06.11#实质审查的生效;2021.05.25#公开

摘要：本发明公开了一种在线自学习的法院电子卷宗文本分类方法，包括采集文本数据，基于所采集的法律文书语料集，采用Word2vec的Skip‑gram模型，训练得到司法领域词向量模型，基于所采集的卷宗语料集，采用Doc2vec的PV‑DM模型进行训练，进行训练LDA模型；使用多维度语义表示方法获取卷宗文件特征向量；在应用系统中集成基于高斯核函数的KELM离线学习案卷文本分类器；利用基于RLS的在线序列优化模型KOS‑ELM对当前案卷文本分类器进行在线优化。本发明通过基于人工标注的卷宗语料集，提出多维度语义表示方法获取卷宗文件特征向量，通过使用基于RLS的在线序列优化模型KOS‑ELM对当前案卷文本分类器进行在线优化，经过迭代更新，模型分类正确率得到了逐步优化。

主权项：1.一种在线自学习的法院电子卷宗文本分类方法，其特征在于，包括以下步骤：S1:采集文本数据，从案卷中选取常见案件卷宗，从所述案件卷宗中选取文本文件进行人工标注作为卷宗语料集，从网上采集裁判文书作为法律文书语料集；S2:基于所采集的法律文书语料集，采用Word2vec的Skip-gram模型，训练得到司法领域词向量模型，向量维度为300维；S3:基于所采集的卷宗语料集，采用Doc2vec的PV-DM模型进行训练，得到文件特征向量，向量维度为300维；S4:基于所采集的卷宗语料集，进行训练LDA模型；首先构建基于词的主题模型，基于LDA对文件主题和词的概率分布的设定得到联合概率关系式其中：K为主题数；M为卷宗语料集中的文件数；N为文件中的词数，W表示文件中词的概率分布，Z、θ及φ代表三种分布的中间隐含变量，α、β是需要确定的Dirichlet分布超参数；采用算法得到卷宗文件主题的概率分布θ和主题中词的概率分布φ，从而确定一个K*V矩阵，所述矩阵中每一列作为对应词的主题信息向量，其中V表示卷宗语料集的词典长度；S5:使用训练好的Skip-gram模型、PV-DM模型、LDA模型获取卷宗文件特征向量；S6:在应用系统中集成基于高斯核函数的KELM离线学习案卷文本分类器；S7:系统在线使用过程，采集用户修正后的文件作为新标注样本，利用基于RLS的在线序列优化模型KOS-ELM对当前案卷文本分类器进行在线优化；S7的具体步骤如下：S71ELM算法采用离线方式计算得到KELM输出权重矩阵；当输入的特征矩阵无法确保为可逆方阵时，转为基于广义逆求解范数最小二乘解；S72在迭代优化阶段，每次增加一批新样本，基于递推最小二乘算法对输出权重矩阵进行序列迭代，同时采用sherman-Morrison-Woodbury公式进行改写；S73经过改写，每次仅使用一个样本进行迭代，求逆运算成为求倒数。

全文数据：

权利要求：

百度查询：太极计算机股份有限公司一种在线自学习的法院电子卷宗文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种设备锁定方法、装置及电子设备_联想(北京)有限公司_202410116925.6

下一篇：用药患者血浆中抗人胸腺/淋巴细胞兔免疫球蛋白总IgG抗体浓度检测试剂盒及应用_武汉中生毓晋生物医药有限责任公司_202410128193.2

相关技术

一种设备锁定方法、装置及电子设备_联想(北京)有限公司_202410116925.6

用药患者血浆中抗人胸腺/淋巴细胞兔免疫球蛋白总IgG抗体浓度检测试剂盒及应用_武汉中生毓晋生物医药有限责任公司_202410128193.2

无机人造石脱模剂及其制备方法和无机人造石的制备方法_深圳市润丰新材料科技有限公司_202410151462.7

POCT血细胞分析仪_深圳市帝迈生物技术有限公司_202410426762.1

重组人白介素2（I）的应用_山东泉港药业有限公司_202410417266.X

热解油提质为BTEX的两级催化方法_沙特阿拉伯石油公司_202280065181.9

一种海底设施多关节柔性智能体的控制方法及系统_同济大学_202410164319.1

供电系统、功率变换器以及功率变换电路的控制方法_华为数字能源技术有限公司_202410139301.6

保护开关设备和方法_西门子股份公司_202280065501.0

一种中心静脉压手动测量装置_中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所)_202410152192.1

一种燃料电池用喷雾汽化加湿装置、系统与控制方法_武汉理工大学_202311803784.7

一种汽车配件的外圆磨削装置_江苏坦途专用汽车制造有限公司_202410150674.3

龙图腾网&IPTOP

【发明授权】一种在线自学习的法院电子卷宗文本分类方法_太极计算机股份有限公司_202110188680.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务