【发明授权】一种基于模型融合的海量旅游网络文本语义分析方法_郑州信大先进技术研究院_202210772206.0

申请/专利权人：郑州信大先进技术研究院

申请日：2022-06-30

公开（公告）日：2024-04-12

公开（公告）号：CN115099241B

主分类号：G06F40/30

分类号：G06F40/30;G06F40/289;G06F40/216

优先权：

专利状态码：有效-授权

法律状态：2024.04.12#授权;2022.10.14#实质审查的生效;2022.09.23#公开

摘要：本发明公开了一种基于模型融合的海量旅游网络文本语义分析方法，获取评论数据集，并对数据集中的数据进行预处理；对数据集中的数据进行可视化分析；对评论数据集采用DBSCAN密度聚类，获得数据集D1；利用Word2Vec模型，得到数据集D2；利用Simhash算法，得到数据集D3；利用N‑Gram语言模型得到数据集D4；将数据集D1‑D4中的数据结果综合得到数据集D5；将预处理之后的数据集D5导入TF‑IDF模型和LDA模型，提取得到关键词和主题词；词向量化计算每条评论的关键词向量与主题词向量之间的距离，并根据距离输出结果高的词；根据特色词、酒店名称、酒店类型相互组合构建三元组，得到知识图谱。

主权项：1.一种基于模型融合的海量旅游网络文本语义分析方法，其特征在于：步骤1，获取评论数据集，并对数据集中的数据进行预处理；其中，评论数据集是csv文件，包含酒店名称、酒店类别、评论时间、酒店评论内容；步骤2，对数据集中的数据进行可视化分析；步骤3，对评论数据集采用DBSCAN密度聚类，获得数据集D1＝{x_1,x_2,…,x_m}；步骤4，利用Word2Vec模型对酒店评论内容进行向量化处理后计算相似度，得到数据集D2；步骤5，利用Simhash算法在评论数据集上进行相似去重，得到数据集D3；步骤6，利用N-Gram语言模型计算评论数据集中文本的成句概率，再把每个句子困惑度PPL计算出来，按照从小到大的顺序排列，取四分位数为75％以下数据即得到数据集D4；步骤7，模型融合根据少数服从多数来定最终结果，将数据集D1-D4中的数据结果综合得到数据集D5；步骤8，对数据集D5进行预处理；步骤9，将预处理之后的数据集D5导入TF-IDF模型提取得到按权重顺序排列的关键词；步骤10，将预处理之后的数据集D5导入LDA模型提取得到按权重顺序排列的主题词；步骤11，将步骤9和步骤10得到的结果关键词和主题词，词向量化计算每条评论的关键词向量与主题词向量之间的距离，并根据距离输出结果高的词；步骤12，根据特色词、酒店名称、酒店类型相互组合构建三元组，利用py2neo库，对neo4j数据库进行三元组数据转换为sql语句上传到neo4j数据中，最终得到一个简单的知识图谱。

全文数据：

权利要求：

百度查询：郑州信大先进技术研究院一种基于模型融合的海量旅游网络文本语义分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种尺寸可调节的中药材切片装置_安徽盛林国药饮片有限公司_202322230535.5

下一篇：一种高效散热电源_广州市力为电子有限公司_202322175013.X

相关技术

一种尺寸可调节的中药材切片装置_安徽盛林国药饮片有限公司_202322230535.5

一种高效散热电源_广州市力为电子有限公司_202322175013.X

用于高压柜体的固定防护装置_江苏贯中电气有限公司_202322341188.3

夹具_新疆蓝晶新材料科技有限公司_202322100063.1

一种矿热炉扎眼机自动卸杆装置_乌海三美国际矿业有限公司_202322492884.4

一种叠瓦电池片检测用工装_江苏龙恒新能源有限公司_202322351795.8

一种用于汽车保险杠加工的旋转喷漆装置_重庆渝湘智成汽车配件有限公司_202322547178.5

一种煤矿井下局部通风机远程开停装置_贵州贵能投资股份有限公司_202322392209.4

一种具有服药求助警报功能的药丸储存项链_杨洁_202322091839.8

一种用于土地规划用测量装置_西安市城市发展资源信息有限公司_202322290527.X

一种环形导轨间歇循环通电装置_东莞市臻域自动化设备有限公司_202322566793.0

一种现调机用消毒装置_中粮可口可乐饮料(山西)有限公司_202322565837.8

龙图腾网&IPTOP

【发明授权】一种基于模型融合的海量旅游网络文本语义分析方法_郑州信大先进技术研究院_202210772206.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务