首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】数据采集方法、系统和计算机设备_中国平安财产保险股份有限公司_201910753729.9 

申请/专利权人:中国平安财产保险股份有限公司

申请日:2019-08-15

公开(公告)日:2024-04-26

公开(公告)号:CN110609952B

主分类号:G06F16/9535

分类号:G06F16/9535

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2021.04.27#实质审查的生效;2019.12.24#公开

摘要:本发明实施例提供了一种数据采集方法,所述方法包括:获取用户输入的关键词,根据所述关键词得到与所述关键词对应的多个相关词;根据所述关键词与各个相关词之间的相似度系数,对所述多个相关词进行排序;根据所述关键词及排序靠前的N个相关词输出对应的检索页面,该检索页面包括多个目标网页的多个网页链接,所述N为正整数;及采集所述多个目标网页的页面数据,并将所述页面数据存储至预设存储区域。本发明实施例在数据采集过程中通过排序靠前的N个相关词输出对应的检索页面,实现了数据的精准采集,从而进一步提高采集的效率、实现对主题网页的准确抓取以及减少节点之间的开销。

主权项:1.一种数据采集方法,其特征在于,所述方法包括:获取用户输入的关键词,根据所述关键词得到与所述关键词对应的多个相关词;根据所述关键词与各个相关词之间的相似度系数,对所述多个相关词进行排序;根据所述关键词及排序靠前的N个相关词输出对应的检索页面,该检索页面包括多个目标网页的多个网页链接,所述N为正整数;采集所述多个目标网页的页面数据,并将所述页面数据存储至预设存储区域;其中,所述根据所述关键词及排序靠前的N个相关词输出对应的检索页面,包括:将所述关键词及排序靠前的N个相关词加入到采集队列中;根据所述采集队列中的所述关键词和所述N个相关词,检索得到所述多个目标网页;统计所述多个目标页面的页面数量;计算所述页面数量和预设采集数量之间的比值;比较所述比值是否小于预设阈值;当所述比值小于所述预设阈值时,则将被排列在所述N个相关词之后的M个后续相关词加入到所述采集队列中;通过所述采集队列中的所述M个后续相关词,检索得到多个后续目标网页;所述方法还包括动态设置所述预设阈值的步骤:获取上一个检索网页的链接点击率以及链接点击量;根据所述链接点击率以及链接点击量,定义所述用户习惯记忆模型的参数向量,所述用户习惯记忆模型包括长短期记忆网络模型;根据所述参数向量和用户习惯记忆模型,输出预测向量,所述预测向量包括当前检索页面的预测链接点击率以及预测链接点击量;根据当前检索页面的预测链接点击率以及预测链接点击量,配置所述当前检索页面对应的预设阈值。

全文数据:

权利要求:

百度查询: 中国平安财产保险股份有限公司 数据采集方法、系统和计算机设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。