买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于大语言模型和主题模型的网民观点分析方法_广东数源智汇科技有限公司_202311719713.9 

申请/专利权人:广东数源智汇科技有限公司

申请日:2023-12-14

公开(公告)日:2024-03-12

公开(公告)号:CN117688182A

主分类号:G06F16/35

分类号:G06F16/35;G06F40/216;G06F40/295;G06F40/30;G06N3/0455;G06Q50/00

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.03.29#实质审查的生效;2024.03.12#公开

摘要:本发明涉及一种基于大语言模型和主题模型的网民观点分析方法。本发明通过综合考虑不同维度的信息,如TF‑IDF、关键词、主题模型和命名实体识别等,能够准确地分析和总结网民观点,并生成准确的观点情感结果。它能够从多个角度分析观点,发现不同维度的共性和差异,为决策提供更全面的参考。利用大语言模型处理和分析大量的文本数据,减少了人工干预的需求,提高了效率和可扩展性。该方法能够节省时间和人力成本,并能够处理大规模的数据,从而更全面地了解和总结观点。另外,可以根据具体需求进行定制和调整,包括设置TF‑IDF阈值、预定义关键词码表、调整主题模型参数、更替大语言模型prompt等,这使得技术能够适应不同领域和应用场景的需求。

主权项:1.一种基于大语言模型和主题模型的网民观点分析方法,其特征在于,包括步骤如下:步骤一、社交媒体数据抓取与清洗:包括步骤如下,步骤1、社媒数据抓取:使用网络爬虫技术从网页上抓取数据,解析HTML和JavaScript生成的内容,利用开源API来访问其数据;步骤2、数据清洗:对抓取的数据进行清洗,包括去除无关内容、格式化文本、删除重复信息、进行情感分析和实体识别;步骤3、数据存储:清洗后的社交媒体舆情数据可使用关系型或非关系型数据库进行存储数据,清洗后的数据存储在适合进一步分析的格式和系统中;步骤二、TF-IDF词频过滤:根据TF-IDF值对词语进行筛选和过滤,只保留重要性词语;步骤三、关键词过滤:在文本处理中,根据特定的规则或标准,筛选和过滤掉不相关或无用的关键词,以提取出更具有信息量和重要性的关键词;步骤四、使用主题模型对观点聚类分析:主题模型可以自主发现文本中的主题,并为每个观点分配一个主题分布,利用主题模型得到的主题分布,使用聚类算法将具有相似主题的观点聚类到一起;步骤五、NER及码表过滤:NER可以帮助提取和理解文本中的重要信息,并支持各种文本分析任务;使用预定义的码表规则进行词语过滤和筛选,通过应用码表过滤,保留符合码表中的词语,同时过滤掉不符合码表的词语,提高文本处理的准确性和效率;步骤六、对网民观点分类、情感分析:通过SocialGPT语言模型,准确地识别和分类网民的观点,并进行情感分析;步骤七、结果展示:根据每个话题的关键词和评论原文,使用SocialGPT语言模型生成一句总结观点和观点情感的句子。

全文数据:

权利要求:

百度查询: 广东数源智汇科技有限公司 一种基于大语言模型和主题模型的网民观点分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。