买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于词性和语序分析的法律知识图谱自动构建方法_唐明伟_202110849444.2 

申请/专利权人:唐明伟

申请日:2021-07-27

公开(公告)日:2021-11-23

公开(公告)号:CN113688250A

主分类号:G06F16/36(20190101)

分类号:G06F16/36(20190101);G06F40/211(20200101);G06F40/268(20200101);G06F16/31(20190101);G06F16/28(20190101);G06F16/901(20190101)

优先权:

专利状态码:失效-发明专利申请公布后的撤回

法律状态:2022.11.25#发明专利申请公布后的撤回;2021.12.10#实质审查的生效;2021.11.23#公开

摘要:本发明公开一种基于词性和语序分析的知识图谱自动构建方法。该方法首先应用基于LexNLP的自然语言处理方法,以句子为单位对法律判例文本进行词性分析,以得到其中的名词和动词,再应用spaCy对同一句中的名词和动词,进行语序的判断,若一个名词判断为主语或宾语,则标注为实体,若一个动词判断为宾语则标注为关系,同时提出了基于频次的三元组权重判断规则,以判断生成三元组的有效性,最终所有有效的三元组自动合并成知识图谱。最后以美国CaselawAccessProject项目所含的判例为原始数据,进行方法有效性的验证。实验表明该方法可以有效地生成法律知识图谱。

主权项:1.一种基于词性和语序分析的法律知识图谱自动构建方法,其特征在于,包括以下步骤:一文本预处理。将收集到的法律文本上传至MySQL数据库中,并使用LexNLP进行分句处理,并记录每个句子的编号以及所在文本的编号;二词性标注。以句子为单位,应用LexNLP进行词性分析,得到句子中的动词和名词,将这两类词连同文本编号和句子编号一起存入MySQL数据库中,以确定该词在哪个文本的哪句句子中。这一步骤即完成所有法律文本的预处理,得到对应文本、对应句子的动词和名词的集合;三三元组抽取。依次读取MySQL存储的动、名词记录,根据其中事先存储的文本编号和句子编号,来确定该动名词对应的句子。应用spaCy加载该句子,并对其进行语序分析,按照三元组抽取算法原理,确定哪两个名词是主体,哪个动词是关系,以此确定三元组关系,并将该关系按照neo4j的格式规范,存入至neo4j中;四基于三元组频数过滤的知识图谱构建。应用上述方法对整个法律文本集合进行计算,会出现多个相同的三元组,参考TF公式,使用三元组频数公式:三元组频数=该三元组出现次数出现该三元组的文章数量;应用该公式计算各三元组的频数,设置一个阈值,以此来决定该三元组是否有效,有效则加入到neo4j中。该阈值的确定,需要通过对生成的知识图谱的效果进行评估来确定;五知识图谱的查询。通过上述步骤,所有法律文本均被转换成三元组,这些三元组共同组成了法律知识图谱,通过neo4j的知识查询功能,可以得到完整的知识图谱。

全文数据:

权利要求:

百度查询: 唐明伟 一种基于词性和语序分析的法律知识图谱自动构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。