【发明公布】一种基于大语言模型和主题模型的网民观点分析方法_广东数源智汇科技有限公司_202311719713.9

申请/专利权人：广东数源智汇科技有限公司

申请日：2023-12-14

公开（公告）日：2024-03-12

公开（公告）号：CN117688182A

主分类号：G06F16/35

分类号：G06F16/35;G06F40/216;G06F40/295;G06F40/30;G06N3/0455;G06Q50/00

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.03.29#实质审查的生效;2024.03.12#公开

摘要：本发明涉及一种基于大语言模型和主题模型的网民观点分析方法。本发明通过综合考虑不同维度的信息，如TF‑IDF、关键词、主题模型和命名实体识别等，能够准确地分析和总结网民观点，并生成准确的观点情感结果。它能够从多个角度分析观点，发现不同维度的共性和差异，为决策提供更全面的参考。利用大语言模型处理和分析大量的文本数据，减少了人工干预的需求，提高了效率和可扩展性。该方法能够节省时间和人力成本，并能够处理大规模的数据，从而更全面地了解和总结观点。另外，可以根据具体需求进行定制和调整，包括设置TF‑IDF阈值、预定义关键词码表、调整主题模型参数、更替大语言模型prompt等，这使得技术能够适应不同领域和应用场景的需求。

主权项：1.一种基于大语言模型和主题模型的网民观点分析方法，其特征在于，包括步骤如下：步骤一、社交媒体数据抓取与清洗：包括步骤如下，步骤1、社媒数据抓取：使用网络爬虫技术从网页上抓取数据，解析HTML和JavaScript生成的内容，利用开源API来访问其数据；步骤2、数据清洗：对抓取的数据进行清洗，包括去除无关内容、格式化文本、删除重复信息、进行情感分析和实体识别；步骤3、数据存储：清洗后的社交媒体舆情数据可使用关系型或非关系型数据库进行存储数据，清洗后的数据存储在适合进一步分析的格式和系统中；步骤二、TF-IDF词频过滤：根据TF-IDF值对词语进行筛选和过滤，只保留重要性词语；步骤三、关键词过滤：在文本处理中，根据特定的规则或标准，筛选和过滤掉不相关或无用的关键词，以提取出更具有信息量和重要性的关键词；步骤四、使用主题模型对观点聚类分析：主题模型可以自主发现文本中的主题，并为每个观点分配一个主题分布，利用主题模型得到的主题分布，使用聚类算法将具有相似主题的观点聚类到一起；步骤五、NER及码表过滤：NER可以帮助提取和理解文本中的重要信息，并支持各种文本分析任务；使用预定义的码表规则进行词语过滤和筛选，通过应用码表过滤，保留符合码表中的词语，同时过滤掉不符合码表的词语，提高文本处理的准确性和效率；步骤六、对网民观点分类、情感分析：通过SocialGPT语言模型，准确地识别和分类网民的观点，并进行情感分析；步骤七、结果展示：根据每个话题的关键词和评论原文，使用SocialGPT语言模型生成一句总结观点和观点情感的句子。

全文数据：

权利要求：

百度查询：广东数源智汇科技有限公司一种基于大语言模型和主题模型的网民观点分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种便携式放线架_高炜精密电子(东莞)有限公司_202322772571.4

下一篇：一种抑菌保暖女式羊绒大衣_安庆初颖数字科技有限公司_202322077610.9

相关技术

一种便携式放线架_高炜精密电子(东莞)有限公司_202322772571.4

一种抑菌保暖女式羊绒大衣_安庆初颖数字科技有限公司_202322077610.9

一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

无线遥控理疗床_泰安市迈迪医疗电子有限公司_202322303870.3

一种滑套式HDMI数据线_深圳市海鑫达连接线有限公司_202322633970.2

磨豆压力咖啡机自动压粉机构_浙江比依电器股份有限公司_202322521989.8

一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

一种防卡管测斜仪探头_中国建筑西南勘察设计研究院有限公司_202420526288.5

一种危废行业可快速更换的水封出渣系统_渤瑞环保股份有限公司_202322016372.0

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

再生废液处理系统_山东荣信集团有限公司_202322260404.1

一种水泵节能增压装置_陕西海利智慧能源科技有限公司_202322218413.4

龙图腾网&IPTOP

【发明公布】一种基于大语言模型和主题模型的网民观点分析方法_广东数源智汇科技有限公司_202311719713.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务