【发明授权】基于LDA主题模型和kmeans聚类算法的主播画像分类方法_哈尔滨工业大学_202310157141.3

导航：龙图腾网> 最新专利技术> 基于LDA主题模型和kmeans聚类算法的主播画像分类方法_哈尔滨工业大学_202310157141.3

申请/专利权人：哈尔滨工业大学

申请日：2023-02-23

公开（公告）日：2024-03-01

公开（公告）号：CN116127074B

主分类号：G06F16/35

分类号：G06F16/35;G06F40/242;G06F40/279;G06F40/30;G06F18/23213;G06F18/24

优先权：

专利状态码：有效-授权

法律状态：2024.03.01#授权;2023.06.02#实质审查的生效;2023.05.16#公开

摘要：基于LDA主题模型和kmeans聚类算法的主播画像分类方法，属于数据分析技术领域。步骤：S1、在指示终端设备中获取主播信息，得到原始数据集，并对获取的主播信息进行数据预处理，得到初始数据集；S2、根据初始数据集，构建LDA主题模型，从初始数据集中挖掘出主题词和每位主播文本信息的主题概率分布；S3、数据转换，将每位主播的数据信息进行对数处理和标准化；S4、确定聚类的类别数量，依据轮廓系数和簇内误差平方和确定聚类的类别数量；S5、依据kmeans聚类算法主播相关数值数据进行聚类，得到主播所属的不同类别，并依据结果分析主播特质，建立主播画像。本发明可将主播的文本数据与结构化数据同时进行聚类，建立主播画像，精细化营销。

主权项：1.一种基于LDA主题模型和kmeans聚类算法的主播画像分类方法，其特征在于：利用LDA主题模型将主播的文本数据转化为数值数据，利用kmeans聚类算法将主播的相关数值数据进行聚类，建立主播画像；所述方法包括以下步骤：S1、在指示终端设备中获取主播信息，得到原始数据集，并对信息进行数据预处理，得到初始数据集，所述主播信息包括文本数据和非文本数据；所述主播信息包括主播数值数据和主播文本数据，所述主播文本数据包括主播介绍、每场直播的弹幕信息，所述主播数值数据包括粉丝数、直播时间段分布、带货的平均商品种类数、平均直播时长、平均作品数、商品的平均价格；S2、根据初始数据集，构建LDA主题模型，从初始数据集中挖掘出主题词和每位主播文本数据的不同主题概率分布；S3、数据转换，将每位主播的数值数据进行对数处理和标准化；S4、确定聚类的类别数量，依据轮廓系数和簇内误差平方和确定聚类的类别数量；S5、依据kmeans聚类算法将主播的相关数值数据进行聚类，得到主播所属的不同类别，并依据结果分析主播特质，建立主播画像；所述步骤S3中数据转换的具体步骤如下：S31、将需要聚类的主播的数值数据标准化，用公式表示为：z＝x-μσ其中，x为该数值数据的某一具体数，μ为该数值数据的平均数，σ为该数值数据的标准差；Z值的量代表着原始分数和母体平均值之间的距离，是以标准差为单位计算；在原始分数低于平均值时Z则为负数，反之则为正数；步骤S4的具体步骤如下：S41、依据轮廓系数和簇内误差平方和确定聚类的类别数量，轮廓系数计算公式如下：其中，ai表示第i个样本与其同一簇群中所有其他数据之间的平均距离，即为量化簇内的凝聚度；bi表示第i个样本与最近一个聚簇的平均距离，用于量化簇内的分离度；n表示主播总数，数量上等于主播文本信息的个数M；f为全部样本的轮廓系数；若f小于0，说明f与其簇内元素的平均距离大于最近的其他簇，表示聚类效果不好；如果ai趋于0，或者bi大于ai，那么f趋近于1，说明聚类效果最好；误差平方和SSE计算如下：其中，Cq为第q个簇；mq为Cq的簇质心；p为Cq中的样本点；SSE为所有样本的聚类误差，代表着聚类效果的好坏；随着聚类数目l值的增多，每个簇的聚合程度也会逐渐增加，而SSE则会逐渐减小；并且当l值在小于最优聚类数目范围内增加时，SSE的下降幅度会比较大；当l值增加到最佳聚类数目L时，SSE的下降幅度则会骤减，然后随着l值的继续增大SSE会慢慢趋于平缓；基于轮廓系数1-9的最大的三个点，结合SSE的拐点确定最佳聚类数目L；S42、从步骤S31中标准化的数值数据中随机选取L个指标向量作为初始中心点，其中，L1；S43、选定初始中心点后，计算每一个所述指标向量到L个初始中心点的距离，所述指标向量到哪一个所述初始中心点的距离最小，则将所述指标向量划分至所述初始中心点对应的分类；S44、所述指标向量被分成L个分类，计算每个所述分类的中心点；S45、迭代进行步骤S43和步骤S44和的计算，直至所述L个分类的中心点与上一次计算的所述L个分类的中心点相等或者距离小于规定的阂值，则结束迭代运算，最终运算得到的所述L个分类的中心点，也即所述指标向量的中心点，所述中心点为L个分类的所述特征向量；所述步骤S1中，在指示终端设备中获取主播信息，得到原始数据集，并对信息进行数据预处理，得到初始数据集的具体步骤如下：S11、获取主播的文本数据和数值数据，并筛选掉含有缺失值的直播，得到原始数据集；S12、在步骤S11基础上，对原始数据集进行文本分词，得到分词词汇集；S13、根据停用词表收集停用词，构建相关词典，去除分词词汇的停用词，得到初始数据集；所述步骤S2中，构建LDA主题模型的具体步骤如下：S21、根据初始数据集，确定LDA主题模型的主题数K，采用困惑度评价法求得最优主题数K，困惑度计算公式为：其中，M为主播文本数据的个数；Ni为第i位主播的文本数据中出现的词语总数；wi为构成第i位主播相关文本数据的词语；pwi为wi产生的概率；为了保证聚类效果，得出主题数K为10以内的所有主题数K的困惑度，并依据手肘法，选择困惑度的拐点作为最佳主题数K；S22、在先验参数为α和β的狄利克雷分布中，抽样生成每位主播在主题数K条件下文本数据的主题分布θ和所有主播文本数据的主题词分布φ；α具体表示为每位主播主播介绍在主题上的分布的狄利克雷先验参数；β具体表示为所有主播主播介绍的主题词分布的狄利克雷先验参数；S23、从每位主播文本数据的主题分布θ中，抽样生成每位主播文本数据的主题Z，LDA主题模型假设每位主播文本数据都是由不同比例的词语组合组成的，反映了每位主播文本数据的独特的主题，组合比例服从多项式分布，表示为：Z|θ＝Multinomialθ从所有主播文本数据的主题词分布φ中，抽样生成主题词W，每个主题都是由主播文本数据中的词语组成的，组合比例也服从多项式分布，表示为：W|Z,φ＝Multinomialφ其中，wi为构成第i位主播相关文本数据的词语，其概率分布的计算公式为：其中，Pwi|z＝s表示词语wi属于第s个主题的概率；Pz＝s|i表示第i位主播主播介绍中第s个主题的概率，K为最佳主题数；S24、LDA主题模型结果含有每个主题k下的高频词，以及每位主播文本数据的主题分布，分析最佳主题数K下，每个主题k的前20个高频词，同时对每个主题k进行定义与解释；S25、LDA主题模型结果也含有每个主题在每个主播文本数据中的概率分布，后续以此为主播文本数据的数据变量，纳入聚类分析中。

全文数据：

权利要求：

百度查询：哈尔滨工业大学基于LDA主题模型和kmeans聚类算法的主播画像分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种铸造铝合金中第二相空间分布均匀性的表征方法_华南理工大学_202210274792.6

下一篇：一种滚筒式壁纸自动切割的设备_金华市海洋包装有限公司_202111415330.3

相关技术

一种铸造铝合金中第二相空间分布均匀性的表征方法_华南理工大学_202210274792.6

一种滚筒式壁纸自动切割的设备_金华市海洋包装有限公司_202111415330.3

一种基于图像的指针式仪表智能识别方法及设备_西安安森智能仪器股份有限公司_202110998891.4

不依赖智能设备特征信息的远程屏幕状态自动检测方法_华泰财产保险有限公司_202111018581.8

一种立式镗铣床加工用除杂装置_蚌埠市富瑞达机床机械制造有限公司_202011602435.5

一种制备β-氨基砜类化合物的方法_中山大学_202211389942.4

轴对称应力条件下顶管泥浆套减阻性能测定装置及方法_西安理工大学_202110840090.5

一种液压冲击装置及其控制系统_广东三水合肥工业大学研究院_202110623149.5

一种适应智能化测斜的测斜管装置及其施工方法_中国建筑第二工程局有限公司_202211243629.X

一种基于RRT算法的双机械臂解耦运动规划方法及系统_国网上海市电力公司_202110430722.0

一种五轴坐标设备快速定制后处理模块的方法_中国航发沈阳黎明航空发动机有限责任公司_202211397667.0

非激活态UE进行状态转换方法和用户终端及网络侧设备_大唐移动通信设备有限公司_202010256391.9

算法相关技术

一种基于相关滤波Staple算法的抗遮挡目标跟踪算法_中国科学院光电技术研究所_202410046328.0

一种基于聚类算法与粒子群算法的定制公交线路设计方法_贵州智诚科技有限公司_202311537303.2

一种自适应算法运算系统及方法_佛山市法卫士法务科技有限公司_202410089183.2

基于视觉算法的视频处理方法和AI盒子_深圳市奔迈科技有限公司_202311757168.2

一种视觉检测的拼接算法_拓多科技(苏州)有限公司_202311679984.6

一种主动减振器压力损失补偿算法_中国第一汽车股份有限公司_202311695873.4

基于遗传算法的前端资源打包方法_西南科技大学_202410102474.0

一种基于AI算法的图像处理方法_共幸科技(深圳)有限公司_202410323369.X

一种钢丝绳图像的分割算法_徐州市三森威尔矿山科技有限公司_202410119484.5

一种密码学算法快速部署方法_中国科学院软件研究所_202311624380.1

聚相关技术

反义低聚物的组合_日本新药株式会社_202280044513.5

六碳聚羧酸减水剂反应生产装置_云南建投高分子材料有限公司_202322715992.3

一种油田用聚合助剂注聚泵_无锡市东亚泵业有限公司_202322602454.3

选择性聚氨酯预聚物合成_波利有限公司_202080065973.7

一种聚维酮生产用干燥装置_上海泓昌新材料科技有限公司_202322311829.0

用于制备均一低聚物的手性试剂_卫材R&D管理有限公司_202410065464.4

环状聚硅氧烷的制造方法_信越化学工业株式会社_202180015329.3

聚(亚苯基醚)组合物及制品_高新特殊工程塑料全球技术有限公司_202280062457.8

丙烯腈二聚体的制备方法_株式会社LG化学_202080006198.8

一种聚羧酸减水剂反应釜_山东鲁碧环保科技有限公司_202410338401.1

kmeans相关技术

一种基于PSOTVCF-Kmeans算法的意见领袖群识别方法_湖北第二师范学院_202011548691.0

一种基于Kmeans的融合模型光伏发电短期预测方法_电子科技大学_202210540910.3

一种基于bi-kmeans-LDA-KELM的水厂变电站电气设备故障诊断方法_无锡市水务集团有限公司_202311737230.1

基于LDA主题模型和kmeans聚类算法的主播画像分类方法_哈尔滨工业大学_202310157141.3

一种基于核PCA和KMeans算法进行金融数据异常值检测的方法_康旭科技有限公司_202311547461.6

一种基于Kmeans和CEEMD-PE-LSTM的短期光伏发电功率预测方法_湖南工业大学_202011424687.3

基于IPSO-Kmeans的电力系统精细运行方式可视化提取方法_东北电力大学_202310688887.7

一种基于kmeans的防护器件电磁脉冲响应自动识别方法_西北核技术研究所_202311076964.X

基于Kmeans的无人机集群通信组网重建方法及装置_中国人民解放军国防科技大学_202311140518.0

一种基于Kmeans和RGB均值快速测定污染物浓度的方法_华南理工大学_202311110954.3

龙图腾网&IPTOP

【发明授权】基于LDA主题模型和kmeans聚类算法的主播画像分类方法_哈尔滨工业大学_202310157141.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务