买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于双重布隆过滤的高效URL去重方法_国网福建省电力有限公司;国网福建省电力有限公司漳州供电公司_202311814136.1 

申请/专利权人:国网福建省电力有限公司;国网福建省电力有限公司漳州供电公司

申请日:2023-12-27

公开(公告)日:2024-04-12

公开(公告)号:CN117874373A

主分类号:G06F16/955

分类号:G06F16/955

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明提供了一种基于双重布隆过滤的高效URL去重方法,Web应用漏洞扫描系统收集目标信息,利用网络爬虫对目标系统中存在的URL进行爬取;保存已发现的URL,并将新发现的URL与已有URL库进行比较,去除重复项;利用布隆过滤器通过k个Hash函数将待查询的元素映射到二进制位数组中的k位,检查这k个位置上的值,如果值都为1,则说明该元素存在于集合中,否则说明该元素不存在于集合中;相较标准布隆过滤器降低了Hash函数存在的碰撞可能性,提高了对于URL去重的准确性,对于实现网络信息的快速获取和资产高效识别具有关键意义,是高性能的Web应用漏洞扫描系统中的重要功能之一。

主权项:1.一种基于双重布隆过滤的高效URL去重方法,其特征在于包括以下步骤:步骤1:Web应用漏洞扫描系统收集目标信息,利用网络爬虫对目标系统中存在的URL进行爬取;步骤2:保存已发现的URL,并将新发现的URL与已有URL库进行比较,去除重复项;步骤3:利用布隆过滤器通过k个Hash函数将待查询的元素映射到二进制位数组中的k位,检查这k个位置上的值,如果值都为1,则说明该元素存在于集合中,否则说明该元素不存在于集合中;步骤4:布隆过滤器存在误判率,即不同的URL经过k个Hash函数映射到k位数组上后存在相同的位置,误判率为: 其中m是二进制位数组的长度,k是Hash函数数量,n是需要添加的元素数量,即URL的数量;由公式可知,当布隆过滤器二进制位数组的长度m增大时,误判率p减小,当待插入的元素个数n增大时,误判率p增大;当固定参数m和n时,误判率p的大小仅与Hash函数的个数k有关;步骤5:改进后的双重布隆过滤器,使用两个二进制位数组合和Hash函数都相同的布隆过滤器,第一个布隆过滤器存储元素即原始URL,第二个布隆过滤器存储元素经过Hash函数计算后的Hash值,由于Hash值有k个,第二个布隆过滤器存储的数据是k个Hash值的和;步骤6:当查询一个新的URL是否存在于双重布隆过滤器时,首先检查URL经过第一个布隆过滤器的Hash函数组映射之后,V1对应的二进制位数组中的位置是否为1,如果相关位置均为1,再检查Hash函数得到的Hash值的和经过第二个布隆过滤器的Hash函数组映射之后,V2对应的索引位置的值是否为1,如果均为1,则说明该元素存在于布隆过滤器中,否则该URL不存在于布隆过滤器中,视为新的URL;步骤7:对于双重布隆过滤器的误判率,定义F1X为当集合X中所有元素都添加到布隆过滤器后,对于任意x∈U,满足V1h=1的元素x的集合,F1X-X为第一个布隆过滤器误判的元素集合,同理,第二个布隆过滤器误判的元素集合为F2Sh-X,因此双重布隆过滤器的误判率为:p′=PFx-X∩FSh-x1-2p′=P2=1-e-knm2k1-3由公式1-3和公式1-1对比可知,双重布隆过滤器的误判率小于标准布隆过滤器。

全文数据:

权利要求:

百度查询: 国网福建省电力有限公司;国网福建省电力有限公司漳州供电公司 一种基于双重布隆过滤的高效URL去重方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。