买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种电商平台中利用自动结构化爬虫搜索的方法_广东赛博威信息科技有限公司_202010931165.6 

申请/专利权人:广东赛博威信息科技有限公司

申请日:2020-09-07

公开(公告)日:2024-03-19

公开(公告)号:CN112084390B

主分类号:G06F16/951

分类号:G06F16/951;G06F16/953;G06F16/955

优先权:

专利状态码:有效-授权

法律状态:2024.03.19#授权;2021.01.01#实质审查的生效;2020.12.15#公开

摘要:本发明公开了一种电商平台中利用自动结构化爬虫搜索的方法,包括如下步骤:S1.确定搜索主题A,确定链接集合B,储存链接集合B,并将链接集合B放入缓存队列;S2.分别确定链接集合B中每个链接打开网页的类型C,如果是静态网页将该链接标记C=0,如果是动态网页将该链接标记C=1;S3.采用特定的策略抓取链接bk,获取链接bk包含的网页信息;S4.保存抓取的链接bk及链接bk包含的网页信息;本发明基于互联网对电商平台大数据进行整理收集,实现数据的快速搜索,解决现有技术中电商平台搜索、采集数据不方便的技术问题。

主权项:1.一种电商平台中利用自动结构化爬虫搜索的方法,其特征在于,包括如下步骤:S1.确定搜索主题A,确定链接集合B,B={b1,b2……bn},b1,b2……bn表示不同的链接,且b1,b2……bn均与搜索主题A相关,n>0,n为自然数,储存链接集合B,并将链接集合B放入缓存队列;S2.分别确定链接集合B中每个链接打开网页的类型C,如果是静态网页将该链接标记C=0,如果是动态网页将该链接标记C=1;S3.采用特定的策略抓取链接bk,获取链接bk包含的网页信息;S4.保存抓取的链接bk及链接bk包含的网页信息;所述步骤S3具体包括如下步骤:S31.如果标记bk的C=0,抓取链接bk的策略为根据SharkSearch算法和HITS算法抓取链接bk;S32.如果标记bk的C=1,抓取链接bk的策略为异步加载;所述步骤S32具体包括如下步骤:S321.判断链接bk是否加密,如果加密将链接bk标记为D=1,如果没有加密将链接bk标记为D=0;S322.根据链接bk是否加密对链接bk进行解析,获取链接bk包含的网页信息;所述步骤S322具体包括如下步骤:S3221.如果链接bk的标记为D=0,则直接通过解析器解析链接bk,获取链接bk包含的网页信息;S3222.如果链接bk的标记为D=1,则对链接bk进行模拟人工操作,模拟人工操作后如果获取了链接bk包含的网页信息则生成E=1信号,如果仍未获取链接bk包含的网页信息则生成E=0信号;S3223.如果生成E=0信号,则对链接bk进行嗅探操作,获取链接bk包含的网页信息;所述步骤S31具体包括:S311.根据SharkSearch算法计算链接bi包含的网页信息与搜索主题A的相关性得分SIMbi,根据HITS算法计算链接集合B中每个链接Hub值Hubbi和Authority值Authoritybi,n≥i>0,m为自然数;S312.计算链接bi的综合值COMbi,COMbi=SIMbi+Hubbi+Authoritybi;S313.重复步骤S311、S312,直至分别计算出链接集合B中每个链接的综合值,生成综合值集合COM;S314.取综合值最大的m个链接,组成综合值最大链接集合BMAX,BMAX={bmax1,bmax2……bmaxm},BMAX∈B,n≥m>0;S315.用户从BMAX中按照用户自定义的规则选择出链接bk;还包括步骤S5:重复步骤S1、S2、S3、S4,直至抓取j个链接,n≥j>0,j为自然数,即通过上述步骤可以获取并保存多个链接,用户可以获取多个链接中包含网页的信息。

全文数据:

权利要求:

百度查询: 广东赛博威信息科技有限公司 一种电商平台中利用自动结构化爬虫搜索的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。