买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】主题聚类排序及高频关键词提取系统及方法_上海交通大学_202211278931.9 

申请/专利权人:上海交通大学

申请日:2022-10-19

公开(公告)日:2024-04-30

公开(公告)号:CN117951292A

主分类号:G06F16/35

分类号:G06F16/35;G06F16/215;G06F40/289;G06F40/268;G06F40/216;G06F16/335

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.17#实质审查的生效;2024.04.30#公开

摘要:一种主题聚类排序及高频关键词提取系统及方法,通过数据清洗模块去除中文短文本原始数据中部分噪音以提高后续处理流程的效率以及效果;通过数据预处理模块筛选清洗完成的中文短文本数据,得到分词筛选结果集合,即词语集合;通过主题模型模块根据词语集合,通过LDA主题模型得到主题聚类结果及每个主题聚类的高权重词语集合;通过主题模型结果处理模块结合词语集合、事件描述短语集合以及主题模型的高权重词语集合计算关键性排序指标并得出主题聚类排序列表及其对应的重要高频词语集合;本发明针对中文短文本集的特点进行数据清洗,引入包括中文分词、词性标注筛选等技术并使用狄利克雷分配LDA主题模型对文本预处理结果进行计算,配合使用Flink大数据处理平台以提高系统处理能力及可扩展性,显著了提高计算流程的效率。

主权项:1.一种主题聚类排序及高频关键词提取系统,其特征在于,包括:数据清洗模块、数据预处理模块、主题模型模块、主题模型结果处理模块和Flink任务模块,其中:数据清洗模块去除中文短文本原始数据中部分噪音以提高后续处理流程的效率以及效果;数据预处理模块通过中文分词、词性标注等技术筛选清洗完成的中文短文本数据,得到分词筛选结果集合,并根据短文本集合,处理得到事件描述短语集合;主题模型模块根据词语集合,通过LDA主题模型得到主题聚类结果及每个主题聚类的高权重词语集合;主题模型结果处理模块结合词语集合、事件描述短语集合以及主题模型的高权重词语集合计算关键性排序指标并得出主题聚类排序列表及其对应的重要高频词语集合;Flink任务模块通过Flink平台,对数据预处理模块进行并行化集群计算处理,从而提高算法流程的处理速度。

全文数据:

权利要求:

百度查询: 上海交通大学 主题聚类排序及高频关键词提取系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。