买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于LDA主题模型和kmeans聚类算法的主播画像分类方法_哈尔滨工业大学_202310157141.3 

申请/专利权人:哈尔滨工业大学

申请日:2023-02-23

公开(公告)日:2024-03-01

公开(公告)号:CN116127074B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/242;G06F40/279;G06F40/30;G06F18/23213;G06F18/24

优先权:

专利状态码:有效-授权

法律状态:2024.03.01#授权;2023.06.02#实质审查的生效;2023.05.16#公开

摘要:基于LDA主题模型和kmeans聚类算法的主播画像分类方法,属于数据分析技术领域。步骤:S1、在指示终端设备中获取主播信息,得到原始数据集,并对获取的主播信息进行数据预处理,得到初始数据集;S2、根据初始数据集,构建LDA主题模型,从初始数据集中挖掘出主题词和每位主播文本信息的主题概率分布;S3、数据转换,将每位主播的数据信息进行对数处理和标准化;S4、确定聚类的类别数量,依据轮廓系数和簇内误差平方和确定聚类的类别数量;S5、依据kmeans聚类算法主播相关数值数据进行聚类,得到主播所属的不同类别,并依据结果分析主播特质,建立主播画像。本发明可将主播的文本数据与结构化数据同时进行聚类,建立主播画像,精细化营销。

主权项:1.一种基于LDA主题模型和kmeans聚类算法的主播画像分类方法,其特征在于:利用LDA主题模型将主播的文本数据转化为数值数据,利用kmeans聚类算法将主播的相关数值数据进行聚类,建立主播画像;所述方法包括以下步骤:S1、在指示终端设备中获取主播信息,得到原始数据集,并对信息进行数据预处理,得到初始数据集,所述主播信息包括文本数据和非文本数据;所述主播信息包括主播数值数据和主播文本数据,所述主播文本数据包括主播介绍、每场直播的弹幕信息,所述主播数值数据包括粉丝数、直播时间段分布、带货的平均商品种类数、平均直播时长、平均作品数、商品的平均价格;S2、根据初始数据集,构建LDA主题模型,从初始数据集中挖掘出主题词和每位主播文本数据的不同主题概率分布;S3、数据转换,将每位主播的数值数据进行对数处理和标准化;S4、确定聚类的类别数量,依据轮廓系数和簇内误差平方和确定聚类的类别数量;S5、依据kmeans聚类算法将主播的相关数值数据进行聚类,得到主播所属的不同类别,并依据结果分析主播特质,建立主播画像;所述步骤S3中数据转换的具体步骤如下:S31、将需要聚类的主播的数值数据标准化,用公式表示为:z=x-μσ其中,x为该数值数据的某一具体数,μ为该数值数据的平均数,σ为该数值数据的标准差;Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算;在原始分数低于平均值时Z则为负数,反之则为正数;步骤S4的具体步骤如下:S41、依据轮廓系数和簇内误差平方和确定聚类的类别数量,轮廓系数计算公式如下: 其中,ai表示第i个样本与其同一簇群中所有其他数据之间的平均距离,即为量化簇内的凝聚度;bi表示第i个样本与最近一个聚簇的平均距离,用于量化簇内的分离度;n表示主播总数,数量上等于主播文本信息的个数M;f为全部样本的轮廓系数;若f小于0,说明f与其簇内元素的平均距离大于最近的其他簇,表示聚类效果不好;如果ai趋于0,或者bi大于ai,那么f趋近于1,说明聚类效果最好;误差平方和SSE计算如下: 其中,Cq为第q个簇;mq为Cq的簇质心;p为Cq中的样本点;SSE为所有样本的聚类误差,代表着聚类效果的好坏;随着聚类数目l值的增多,每个簇的聚合程度也会逐渐增加,而SSE则会逐渐减小;并且当l值在小于最优聚类数目范围内增加时,SSE的下降幅度会比较大;当l值增加到最佳聚类数目L时,SSE的下降幅度则会骤减,然后随着l值的继续增大SSE会慢慢趋于平缓;基于轮廓系数1-9的最大的三个点,结合SSE的拐点确定最佳聚类数目L;S42、从步骤S31中标准化的数值数据中随机选取L个指标向量作为初始中心点,其中,L1;S43、选定初始中心点后,计算每一个所述指标向量到L个初始中心点的距离,所述指标向量到哪一个所述初始中心点的距离最小,则将所述指标向量划分至所述初始中心点对应的分类;S44、所述指标向量被分成L个分类,计算每个所述分类的中心点;S45、迭代进行步骤S43和步骤S44和的计算,直至所述L个分类的中心点与上一次计算的所述L个分类的中心点相等或者距离小于规定的阂值,则结束迭代运算,最终运算得到的所述L个分类的中心点,也即所述指标向量的中心点,所述中心点为L个分类的所述特征向量;所述步骤S1中,在指示终端设备中获取主播信息,得到原始数据集,并对信息进行数据预处理,得到初始数据集的具体步骤如下:S11、获取主播的文本数据和数值数据,并筛选掉含有缺失值的直播,得到原始数据集;S12、在步骤S11基础上,对原始数据集进行文本分词,得到分词词汇集;S13、根据停用词表收集停用词,构建相关词典,去除分词词汇的停用词,得到初始数据集;所述步骤S2中,构建LDA主题模型的具体步骤如下:S21、根据初始数据集,确定LDA主题模型的主题数K,采用困惑度评价法求得最优主题数K,困惑度计算公式为: 其中,M为主播文本数据的个数;Ni为第i位主播的文本数据中出现的词语总数;wi为构成第i位主播相关文本数据的词语;pwi为wi产生的概率;为了保证聚类效果,得出主题数K为10以内的所有主题数K的困惑度,并依据手肘法,选择困惑度的拐点作为最佳主题数K;S22、在先验参数为α和β的狄利克雷分布中,抽样生成每位主播在主题数K条件下文本数据的主题分布θ和所有主播文本数据的主题词分布φ;α具体表示为每位主播主播介绍在主题上的分布的狄利克雷先验参数;β具体表示为所有主播主播介绍的主题词分布的狄利克雷先验参数;S23、从每位主播文本数据的主题分布θ中,抽样生成每位主播文本数据的主题Z,LDA主题模型假设每位主播文本数据都是由不同比例的词语组合组成的,反映了每位主播文本数据的独特的主题,组合比例服从多项式分布,表示为:Z|θ=Multinomialθ从所有主播文本数据的主题词分布φ中,抽样生成主题词W,每个主题都是由主播文本数据中的词语组成的,组合比例也服从多项式分布,表示为:W|Z,φ=Multinomialφ其中,wi为构成第i位主播相关文本数据的词语,其概率分布的计算公式为: 其中,Pwi|z=s表示词语wi属于第s个主题的概率;Pz=s|i表示第i位主播主播介绍中第s个主题的概率,K为最佳主题数;S24、LDA主题模型结果含有每个主题k下的高频词,以及每位主播文本数据的主题分布,分析最佳主题数K下,每个主题k的前20个高频词,同时对每个主题k进行定义与解释;S25、LDA主题模型结果也含有每个主题在每个主播文本数据中的概率分布,后续以此为主播文本数据的数据变量,纳入聚类分析中。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学 基于LDA主题模型和kmeans聚类算法的主播画像分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。