买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于模型融合的海量旅游网络文本语义分析方法_郑州信大先进技术研究院_202210772206.0 

申请/专利权人:郑州信大先进技术研究院

申请日:2022-06-30

公开(公告)日:2024-04-12

公开(公告)号:CN115099241B

主分类号:G06F40/30

分类号:G06F40/30;G06F40/289;G06F40/216

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2022.10.14#实质审查的生效;2022.09.23#公开

摘要:本发明公开了一种基于模型融合的海量旅游网络文本语义分析方法,获取评论数据集,并对数据集中的数据进行预处理;对数据集中的数据进行可视化分析;对评论数据集采用DBSCAN密度聚类,获得数据集D1;利用Word2Vec模型,得到数据集D2;利用Simhash算法,得到数据集D3;利用N‑Gram语言模型得到数据集D4;将数据集D1‑D4中的数据结果综合得到数据集D5;将预处理之后的数据集D5导入TF‑IDF模型和LDA模型,提取得到关键词和主题词;词向量化计算每条评论的关键词向量与主题词向量之间的距离,并根据距离输出结果高的词;根据特色词、酒店名称、酒店类型相互组合构建三元组,得到知识图谱。

主权项:1.一种基于模型融合的海量旅游网络文本语义分析方法,其特征在于:步骤1,获取评论数据集,并对数据集中的数据进行预处理;其中,评论数据集是csv文件,包含酒店名称、酒店类别、评论时间、酒店评论内容;步骤2,对数据集中的数据进行可视化分析;步骤3,对评论数据集采用DBSCAN密度聚类,获得数据集D1={x_1,x_2,…,x_m};步骤4,利用Word2Vec模型对酒店评论内容进行向量化处理后计算相似度,得到数据集D2;步骤5,利用Simhash算法在评论数据集上进行相似去重,得到数据集D3;步骤6,利用N-Gram语言模型计算评论数据集中文本的成句概率,再把每个句子困惑度PPL计算出来,按照从小到大的顺序排列,取四分位数为75%以下数据即得到数据集D4;步骤7,模型融合根据少数服从多数来定最终结果,将数据集D1-D4中的数据结果综合得到数据集D5;步骤8,对数据集D5进行预处理;步骤9,将预处理之后的数据集D5导入TF-IDF模型提取得到按权重顺序排列的关键词;步骤10,将预处理之后的数据集D5导入LDA模型提取得到按权重顺序排列的主题词;步骤11,将步骤9和步骤10得到的结果关键词和主题词,词向量化计算每条评论的关键词向量与主题词向量之间的距离,并根据距离输出结果高的词;步骤12,根据特色词、酒店名称、酒店类型相互组合构建三元组,利用py2neo库,对neo4j数据库进行三元组数据转换为sql语句上传到neo4j数据中,最终得到一个简单的知识图谱。

全文数据:

权利要求:

百度查询: 郑州信大先进技术研究院 一种基于模型融合的海量旅游网络文本语义分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。