买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种建立数字乡村知识图谱的方法_中国标准化研究院_202311452912.8 

申请/专利权人:中国标准化研究院

申请日:2023-11-03

公开(公告)日:2024-03-12

公开(公告)号:CN117172322B

主分类号:G06N5/022

分类号:G06N5/022;G06F40/30;G06F40/295;G06F16/951;G06F40/216

优先权:

专利状态码:有效-授权

法律状态:2024.03.12#授权;2023.12.22#实质审查的生效;2023.12.05#公开

摘要:本发明提供一种建立数字乡村知识图谱的方法,通过基于规则和字典的方法分别抽取数字乡村和数字城市的知识元素,根据预设的语义模型提取通用命名实体集;计算各元素的词频和逆文档频率,确定数字乡村的专属命名实体集;建立知识元素间关联度矩阵,基于矩阵完全一致性条件调整知识元素间的关联度,最终构建出数字乡村知识图谱,该方法对数字乡村的建设具有参考价值。

主权项:1.一种建立数字乡村知识图谱的方法,其特征在于,所述方法包括以下步骤:步骤S1,基于规则和字典的方法分别抽取数字乡村和数字城市的知识元素,然后基于预设的语义模型从知识元素中提取通用命名实体集;所述步骤S1具体包括:通过规则和字典的方法分别抽取数字乡村和数字城市的知识元素,其中,数字乡村的知识元素集合,数字城市的知识元素集合;基于预先设定的语义分析模型,对集合R和Q分别进行预处理,得到预处理后的集合和;比较集合和集合,将两个集合中的相同知识元素提取出来形成共同集,计算共同集中每一个知识元素分别在集合中和集合中出现的频次F1和F2;判断F1和F2是否满足预设阈值条件,当F1和F2都满足预设阈值条件时,表示该知识元素为数字城市和数字乡村的通用命名实体,进而得到通用命名实体集;所述预设阈值条件为F1≥0.3,且F2≥0.3;步骤S2,计算抽取的数字乡村知识元素中各元素的词频和逆文档频率,确定数字乡村的专属命名实体集;所述步骤S2具体包括:将集合减去集合,得到集合;利用Chrome浏览器,使用插件Web-Scraper,爬取互联网上涉及数字乡村的文章,形成语料库;使用中文分词包jieba对爬取的文章进行分词处理,对分词结果进行停用词和过滤词处理;根据分词处理后的文本T和集合中的知识元素,通过TF-IDF算法来计算集合中的知识元素的词频TF和逆文档频率IDF: ; ;其中,为文本T中的特征词出现的次数,为特征词综述;为语料库中的全部文档数目,为含有的文档个数;计算每个元素的TF-IDF值:;根据TF-IDF值由高到低对集合中的知识元素进行排序,选取前15-50项形成专属命名实体集;将通用命名实体集和专属命名实体集合并,得到最终的命名实体集合: ,;步骤S3,根据获取的命名实体集建立知识元素间关联度矩阵,基于矩阵完全一致性条件调整知识元素间的关联度,最终构建出数字乡村知识图谱。

全文数据:

权利要求:

百度查询: 中国标准化研究院 一种建立数字乡村知识图谱的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。