买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种多维度快速识别网络水军的方法_北京工商大学;中科大数据研究院_202311312641.6 

申请/专利权人:北京工商大学;中科大数据研究院

申请日:2023-10-11

公开(公告)日:2024-01-23

公开(公告)号:CN117435982A

主分类号:G06F18/2411

分类号:G06F18/2411;G06F18/213;G06F18/22;G06F18/214

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.02.09#实质审查的生效;2024.01.23#公开

摘要:本发明提供一种多维度快速识别网络水军的方法,分别从时间维度、数量维度、内容维度对水军用户进行特征提取得到数据集,通过构建支持向量机分类器,分别从各个维度对获取的账号用支持向量机进行分类,获得该维度下的疑似水军账号,同一用户账号信息至少在两个维度下被识别为疑似水军账号,以确认其为水军账号,将获得的三个维度的水军账号进行汇总,获得最终的水军账号数据。本发明所述多维度快速识别网络水军的方法,结合网络水军行为,从多个维度,采取更全面更准确的特征,层层递进对账号进行识别,确率更高,同时本方法对在识别过程中,不断缩小计算范围,具有计算量小,计算速度快的特点,可以更快更有效地对网络水军进行识别。

主权项:1.一种多维度快速识别网络水军的方法,其特征在于,包括以下步骤:步骤一、获取平台用户的基本账户信息,以及用户的行为数据和内容数据;步骤二、分别从时间维度、数量维度和内容维度对水军用户进行特征提取,获得不同维度的水军用户数据集;其中,时间维度的特征为用户发文及评论的时间、评论时间间隔;数量维度的特征为用户日发文及评论量、凌晨发文及评论量;内容维度的特征是评论内容的相似度;分别按照每个维度不同的特征标准,从用户数据中初步筛选符合各维度特征的水军用户,获取不同维度水军用户数据集;步骤三、对不同维度下的水军用户数据集分别进行标记和清洗,进一步识别出其中的正常用户和水军用户,其中正常用户数据标记为0,水军用户数据标记为1;其中,设U为步骤而获取的水军用户数据集,Uy为网络水军集合,Un为非网络水军集合,则U={Uy,Un},设x为用户特征向量,则x={x1,x2,…,xi,…,xn},其中xi表示各个用户特征属性,建立目标函数Fx=wTx+b,Fx∈{+1,-1},其中,x为输入向量,w为法向量,w决定了超平面方向,b是位移量,b决定超平面与原点之间的距离,wT是w的转置,当wTx+b0时,Fx=+1,表示该特征向量标志的用户属于水军用户集合,反之,当wTx+b0时,Fx=-1,表示属于正常用户集合;步骤四、构建支持向量机分类器;建立用于分类的超平面方程为wTx+b=0,其中,x为输入向量,w为法向量,决定了超平面方向,b是位移量,决定超平面与原点之间的距离,wT是w的转置,建立函数Fx=wTx+b,Fx∈{+1,-1},其中,x为输入向量,根据样本点在超平面wTx+b=0的位置进行分类,当wTx+b0时,Fx=+1,表示该特征向量标志的用户属于水军用户集合,反之,当wTx+b0时,Fx=-1,表示属于正常用户集合;超平面与最近的样本点之间的间隔为分离边缘,获取最优超平面,确定分离边缘最大时w和b的值;在dwTx+b≥1的约束下,得到最小化代价函数:φw=0.5||w||2=12wTw根据用户数据集的特征属性特点,支持向量机分类器SVM采用适当的核函数构建分类算法,实现水军用户数据集的分类;步骤五、分别在不同维度下将标记和清洗的水军用户数据集拆分成训练集、测试集与验证集,作为支持向量机SVM的输入,并利用不同维度下拆分获得的训练集、测试集与验证集对支持向量机进行分别训练;步骤六、分别从各个维度用支持向量机对用户账号进行分类,获得该维度下的疑似水军用户账号;步骤七、依次将某一维度下的疑似水军用户账号分别在其他维度用支持向量机进行分类;步骤八、在其他至少一个维度仍识别为水军用户账号的疑似水军用户账号,确定为水军用户账号;步骤九、将获得的三组水军用户账号进行汇总,获得最终的水军用户账号数据。

全文数据:

权利要求:

百度查询: 北京工商大学;中科大数据研究院 一种多维度快速识别网络水军的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。