买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于知识图谱的古代诗词语义检索方法_淮阴工学院_202010842031.7 

申请/专利权人:淮阴工学院

申请日:2020-08-20

公开(公告)日:2024-03-29

公开(公告)号:CN112101040B

主分类号:G06F40/30

分类号:G06F40/30;G06F40/58;G06F40/295;G06F40/242;G06F40/216;G06F40/211;G06F16/35;G06N3/0464;G06N3/045;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.03.29#授权;2021.01.05#实质审查的生效;2020.12.18#公开

摘要:发明公开了一种基于知识图谱的古代诗词语义检索方法,包括:首先对爬取数据进行SPACY处理,获得符合规范数据集,再使用BERT分类算法比较相似问题的相似度及实体识别THULAC对数据集进行古诗词系统的问句相似度比较和全句中关键字的提取,通过逆向最大匹配算法切分用户输入语料,与系统自定义字典匹配,构造Cypher查询语句,将查询实体数据返还WEB应用程序,从Neo4j库中查询到与关键字有关的实体。用户输入问题是根据白话文翻译古诗词的问题,先使用Seq2Seq对用户输入的白话文内容进行古诗词的翻译,再使用聚类算法Doc2vec和距离度量算法计算古诗词内容实体间相似度,返回出内容相似度最佳的前10个选项。通过ECharts渲染古诗词实体属性数据和实体间关系数据,实现古诗词实体可视化。

主权项:1.一种基于知识图谱的古代诗词语义检索方法,其特征在于,具体步骤如下:(1)对古诗文网、诗词大全和诗词名句网等网站的数据爬取,进行SPACY处理,获得符合规范的能用于数据挖掘任务的古诗词数据集PoemData;(2)搭建BERT-TextCNN神经网络算法,输入CLASSIFY_DATA进行关系抽取实验,训练神经网络,保存模型CLASSIFY_MODEL;其中,采用BERT问答分类算法对问题库进行预训练,将Bert问答分类用作多分类的模式,分别对用户目的进行分类,分为5类,分别是搜索诗题目、搜索朝代、搜索作者、搜索诗内容和根据白话文搜索文言文;(3)使用BERT分类算法比较相似问题的相似度及实体识别THULAC对问答数据集进行古诗词系统的问句相似度比较和全句中关键字的提取;(4)用户输入问题是根据白话文翻译古诗词的问题,先使用Seq2Seq对用户输入的白话文内容进行古诗词的翻译,再使用聚类算法Doc2vec算法对有关古诗词进行聚类,从Neo4j库中查询到与关键字有关的实体,返回出最佳的前10个选项;(5)开放Neo4j图数据库接口API和古诗词语义检索系统接口API,对用户输入古诗词相关关键字或语句调用算法获取相关实体数据和相似回答,将查询数据返还WEB应用程序;通过ECharts渲染古诗词实体属性数据和实体间关系数据,提供用户古诗词实体数据可视化,实现古诗词自动问答系统。

全文数据:

权利要求:

百度查询: 淮阴工学院 一种基于知识图谱的古代诗词语义检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。