买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于层次狄利克雷多项分配模型的多源文本聚类方法_贵州大学_202010570969.8 

申请/专利权人:贵州大学

申请日:2020-06-22

公开(公告)日:2024-04-30

公开(公告)号:CN111813935B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/284

优先权:

专利状态码:有效-授权

法律状态:2024.04.30#授权;2020.11.10#实质审查的生效;2020.10.23#公开

摘要:本发明公开了一种基于层次狄利克雷多项分配模型的多源文本聚类方法,所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于层次狄利克雷多项分配模型构建主题模型;四、进行BlockedGibbs采样并更新参数;五、根据采样结果进行文本聚类。本发明通过更新多源文本的主题‑词分布的先验参数,改善多源文本聚类效果;所建立的模型能够自动判别每个数据源文本中簇的数目,而不需要人为提前给定,能够较大程度地提高多源文本聚类效果。

主权项:1.一种基于层次狄利克雷多项分配模型的多源文本聚类方法,其特征在于:所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于层次狄利克雷多项分配模型构建主题模型;四、进行BlockedGibbs采样方并更新参数β;五、根据采样结果进行文本聚类;所述步骤二中,预处理方法是进行分词,去停用词、低频词及标点数字;所述步骤三中,构建的多源主题模型的文本生成步骤为:1对于每个主题k:A.选择B.对于每个数据源s:选择2对于每一个数据源s:C.选择D.对于数据源s中的文档d:选择E.对于文档d中的单词w:选择wi~Multinomialwi|zd,φs所述步骤四中,基于步骤三所构建的主题模型,利用BlockedGibbs采样算法,采样多源数据集中每个数据源的特征词分布、噪音词分布以及主题分布,当采样结果趋于稳定后,更新产生主题-词分布参数的狄利克雷参数β,并重复BlockedGibbs采样过程;所述BlockedGibbs采样的推断过程如下:对多源数据集中每一个数据源s:1更新主题-词分布对于k={1,2,...K},如果k不在中,从具有参数βk的狄利克雷分布采用φk,否则,从具有如下参数的狄利克雷分布中采样φk: 2更新主题分布θs;从具有如下参数的狄利克雷参数中采样主题分布: 其中Izl=k是一个标识函数。当zl=k时,Izl=k=13更新每篇文本的主题其中d={1,2,...,Ms};其中: 在步骤四中,需要进行对参数β的更新操作;当采样结果趋于稳定后,本发明通过优化生成整个数据集的后验概率来更新β;的更新公式如下: 其中表示在主题k下第m篇文档中单词w出现的次数,且

全文数据:

权利要求:

百度查询: 贵州大学 一种基于层次狄利克雷多项分配模型的多源文本聚类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。