申请/专利权人:郑州信大先进技术研究院
申请日:2022-06-30
公开(公告)日:2024-04-12
公开(公告)号:CN115099241B
主分类号:G06F40/30
分类号:G06F40/30;G06F40/289;G06F40/216
优先权:
专利状态码:有效-授权
法律状态:2024.04.12#授权;2022.10.14#实质审查的生效;2022.09.23#公开
摘要:本发明公开了一种基于模型融合的海量旅游网络文本语义分析方法,获取评论数据集,并对数据集中的数据进行预处理;对数据集中的数据进行可视化分析;对评论数据集采用DBSCAN密度聚类,获得数据集D1;利用Word2Vec模型,得到数据集D2;利用Simhash算法,得到数据集D3;利用N‑Gram语言模型得到数据集D4;将数据集D1‑D4中的数据结果综合得到数据集D5;将预处理之后的数据集D5导入TF‑IDF模型和LDA模型,提取得到关键词和主题词;词向量化计算每条评论的关键词向量与主题词向量之间的距离,并根据距离输出结果高的词;根据特色词、酒店名称、酒店类型相互组合构建三元组,得到知识图谱。
主权项:1.一种基于模型融合的海量旅游网络文本语义分析方法,其特征在于:步骤1,获取评论数据集,并对数据集中的数据进行预处理;其中,评论数据集是csv文件,包含酒店名称、酒店类别、评论时间、酒店评论内容;步骤2,对数据集中的数据进行可视化分析;步骤3,对评论数据集采用DBSCAN密度聚类,获得数据集D1={x_1,x_2,…,x_m};步骤4,利用Word2Vec模型对酒店评论内容进行向量化处理后计算相似度,得到数据集D2;步骤5,利用Simhash算法在评论数据集上进行相似去重,得到数据集D3;步骤6,利用N-Gram语言模型计算评论数据集中文本的成句概率,再把每个句子困惑度PPL计算出来,按照从小到大的顺序排列,取四分位数为75%以下数据即得到数据集D4;步骤7,模型融合根据少数服从多数来定最终结果,将数据集D1-D4中的数据结果综合得到数据集D5;步骤8,对数据集D5进行预处理;步骤9,将预处理之后的数据集D5导入TF-IDF模型提取得到按权重顺序排列的关键词;步骤10,将预处理之后的数据集D5导入LDA模型提取得到按权重顺序排列的主题词;步骤11,将步骤9和步骤10得到的结果关键词和主题词,词向量化计算每条评论的关键词向量与主题词向量之间的距离,并根据距离输出结果高的词;步骤12,根据特色词、酒店名称、酒店类型相互组合构建三元组,利用py2neo库,对neo4j数据库进行三元组数据转换为sql语句上传到neo4j数据中,最终得到一个简单的知识图谱。
全文数据:
权利要求:
百度查询: 郑州信大先进技术研究院 一种基于模型融合的海量旅游网络文本语义分析方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。