【发明授权】一种基于层次狄利克雷多项分配模型的多源文本聚类方法_贵州大学_202010570969.8

导航：龙图腾网> 最新专利技术> 一种基于层次狄利克雷多项分配模型的多源文本聚类方法_贵州大学_202010570969.8

申请/专利权人：贵州大学

申请日：2020-06-22

公开（公告）日：2024-04-30

公开（公告）号：CN111813935B

主分类号：G06F16/35

分类号：G06F16/35;G06F40/284

优先权：

专利状态码：有效-授权

法律状态：2024.04.30#授权;2020.11.10#实质审查的生效;2020.10.23#公开

摘要：本发明公开了一种基于层次狄利克雷多项分配模型的多源文本聚类方法，所述方法包含有如下步骤：一、从多个来源收集文本集；二、将来自多个数据源的文本信息进行文本预处理；三、基于层次狄利克雷多项分配模型构建主题模型；四、进行BlockedGibbs采样并更新参数；五、根据采样结果进行文本聚类。本发明通过更新多源文本的主题‑词分布的先验参数，改善多源文本聚类效果；所建立的模型能够自动判别每个数据源文本中簇的数目，而不需要人为提前给定，能够较大程度地提高多源文本聚类效果。

主权项：1.一种基于层次狄利克雷多项分配模型的多源文本聚类方法，其特征在于：所述方法包含有如下步骤：一、从多个来源收集文本集；二、将来自多个数据源的文本信息进行文本预处理；三、基于层次狄利克雷多项分配模型构建主题模型；四、进行BlockedGibbs采样方并更新参数β；五、根据采样结果进行文本聚类；所述步骤二中，预处理方法是进行分词，去停用词、低频词及标点数字;所述步骤三中，构建的多源主题模型的文本生成步骤为：1对于每个主题k：A.选择B.对于每个数据源s:选择2对于每一个数据源s：C.选择D.对于数据源s中的文档d:选择E.对于文档d中的单词w：选择wi～Multinomialwi|zd,φs所述步骤四中，基于步骤三所构建的主题模型，利用BlockedGibbs采样算法，采样多源数据集中每个数据源的特征词分布、噪音词分布以及主题分布，当采样结果趋于稳定后，更新产生主题-词分布参数的狄利克雷参数β，并重复BlockedGibbs采样过程；所述BlockedGibbs采样的推断过程如下：对多源数据集中每一个数据源s：1更新主题-词分布对于k＝{1,2,...K}，如果k不在中，从具有参数βk的狄利克雷分布采用φk，否则，从具有如下参数的狄利克雷分布中采样φk： 2更新主题分布θs；从具有如下参数的狄利克雷参数中采样主题分布：其中Izl＝k是一个标识函数。当zl＝k时，Izl＝k＝13更新每篇文本的主题其中d＝{1,2,...,Ms}；其中：在步骤四中，需要进行对参数β的更新操作；当采样结果趋于稳定后，本发明通过优化生成整个数据集的后验概率来更新β;的更新公式如下：其中表示在主题k下第m篇文档中单词w出现的次数，且

全文数据：

权利要求：

百度查询：贵州大学一种基于层次狄利克雷多项分配模型的多源文本聚类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一体集成微同轴气密封装结构及其制造方法_中国电子科技集团公司第十三研究所_202410148673.5

下一篇：一种转向管柱固定工装_芜湖普威技研有限公司_202311573386.0

相关技术

一体集成微同轴气密封装结构及其制造方法_中国电子科技集团公司第十三研究所_202410148673.5

一种转向管柱固定工装_芜湖普威技研有限公司_202311573386.0

一种吊具点测方法、装置、系统和存储介质_一汽丰田汽车有限公司_202410173152.5

一种燃气-蒸汽联合循环发电供热系统_西安热工研究院有限公司_202410130737.9

一种中心静脉压手动测量装置_中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所)_202410152192.1

一种处理安全漏洞的方法及装置、系统、计算机程序产品_上海商米科技集团股份有限公司_202410155802.3

一种化合物及其制备方法和在卷烟中的应用_湖北中烟工业有限责任公司_202410162764.4

一种差分解耦双螺线气敏间隙传感元件及其制备方法_中南大学_202410106028.7

混合动力自动手动变速器_伊顿康明斯自动传输技术有限责任公司_202280063792.X

一种预制叠合板浇筑模具的组合防松动装置_江西中煤建设集团有限公司_202410324859.1

一种肾病透析用体外固定装置_河北北方学院附属第一医院_202410336854.0

一种电能表故障数据监测系统及数据存储介质_中电装备山东电子有限公司_202410411878.8

龙图腾网&IPTOP

【发明授权】一种基于层次狄利克雷多项分配模型的多源文本聚类方法_贵州大学_202010570969.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务