买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于知识图谱的网络犯罪智能分析检测方法_广州数智网络科技有限公司_202210507491.3 

申请/专利权人:广州数智网络科技有限公司

申请日:2022-05-10

公开(公告)日:2024-02-02

公开(公告)号:CN114915468B

主分类号:H04L9/40

分类号:H04L9/40;G06F16/36;G06N3/0464;G06N5/022;G06F16/951;H04L61/4511

优先权:

专利状态码:有效-授权

法律状态:2024.02.02#授权;2022.09.02#实质审查的生效;2022.08.16#公开

摘要:本发明公开了基于知识图谱的网络犯罪智能分析检测方法,包括以下检测步骤:收集黑灰产网站数据及其相关数据,对网站群体进行标签区分;对已标签的黑灰产网站,获取网站用户数据,构建对应用户信息;构建知识图谱,将多维度数据信息在同一层面展开;知识图谱特征学习;构建推荐模块,将知识图谱特征学习应用到推荐系统。本技术提升关联分析的有效性,解决网络犯罪平台不断规避检测的问题,辅助公安刑侦打击网络违法犯罪活动。

主权项:1.基于知识图谱的网络犯罪智能分析检测方法,其特征在于,包括以下检测步骤:步骤S101,收集黑灰产网站数据及其相关数据,对网站群体进行标签区分:从数据中心机房的网络流量获取首批黑灰产数据,解析并提取网站信息,使用新词发现模型,对获得的黑灰产类别数据做新词发现,并人工筛选得到多个黑灰产类别关键词,将这些关键词输入搜索引擎,通过爬虫程度获取相关网站,对提取的数据信息,用正则提取相关合作伙伴网站及其域名,判断是否为黑白名单,再构建全面、多维的标签体系,剔除数据中的异常值并将数据标准化,为网站数据创建标签,并对数据进行修正优化调整;步骤S102,对已标签的黑灰产网站,获取网站用户数据,构建对应用户信息:使用授权工具对域名网站抓取注册用户个人信息、网站相关信息、行为信息,构建全面、多维的标签体系,对数据清洗,剔除异常值和去重,为用户数据创建标签,并对数据进行优化调整;步骤S103,构建知识图谱,将多维度数据信息在同一层面展开:明确现有的网站数据、用户数据、网站黑名单、网站白名单信息,对图谱设计,定义五种实体、实体属性及实体关系,用正则和模板提取网站信息相关合作网站的知识数据,再存放在非关系类型数据库Neo4j中,利用Dedupe工具根据网站的标题和域名信息进行融合、去重,最后通过编写的Python接口程度将数据导入Neo4j中;对图谱设计,定义的五种实体包括网站实体、网站类型标签实体、用户实体、网站黑名单实体和网站白名单实体,定义的实体属性包括网站数据表中的数据字段为网站实体属性、用户数据表中的数据字段为用户实体属性、网站黑名单中的数据字段为黑名单实体属性和网站白名单中的数据字段为白名单实体属性,定义的实体关系包括网站实体,类型,类型实体、网站实体,注册,网站实体、网站实体,合作,网站实体、网站白名单实体,白名单,网站实体和网站黑名单实体,黑名单,网站实体;步骤S104,知识图谱特征学习:从网页中发现相关网站并提取域名,并与知识图谱中的网站实体进行匹配,根据所有匹配到的实体,在原始的知识图谱中抽取子图,使用基于距离的翻译模型学习特征,得到实体和关系向量,再通过上下文实体特征的平均值获取实体的上下文实体特征;步骤S105,构建推荐模块,将知识图谱特征学习应用到推荐系统:先使用卷积神经网络KCNN的方法学习候选网站向量,并用AttentionNetwork来判断该类型网站数据对候选网站的重要程度,AttentionNetworkwork通过将向量拼接并经过DNN来计算最后的权重,利用AttentionNetwork的权重加权用户历史数据可以得到用户的向量,最后将该类型数据向量和候选网站向量拼接并通过DNN得到候选网站对该类型的偏爱概率,模型效果根据找出最大的偏爱概率的类型为该网站的候选标签,通过下载应用网站类型调取其合作网站。

全文数据:

权利要求:

百度查询: 广州数智网络科技有限公司 基于知识图谱的网络犯罪智能分析检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。