买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于页面赋权的网页内容提取方法、装置及电子设备_山东视角数字技术有限公司_202210184453.9 

申请/专利权人:山东视角数字技术有限公司

申请日:2022-02-27

公开(公告)日:2024-04-19

公开(公告)号:CN115525730B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/953;G06V30/40;G06V10/774

优先权:

专利状态码:有效-授权

法律状态:2024.04.19#授权;2024.04.12#专利申请权的转移;2023.01.13#实质审查的生效;2022.12.27#公开

摘要:本发明涉及前端技术领域,揭露了一种网页内容提取方法、装置、电子设备,包括:根据搜索网页集内所包括的访问链接构建得到Web图,根据所述Web图从所述搜索网页集中提取得到预设数量的搜索网页,得到内容待提取网页集,对所述内容待提取网页集内每个内容待提取网页执行OCR识别,得到第一待校正文本集,利用预训练完成的文本识别模型,识别所述内容待提取网页集的文本,得到第二待校正文本集,对所述第一待校正文本集与所述第二待校正文本集执行校正,得到网页内容。本发明可解决当网页内容过多导致识别网页内容效率较低及OCR识别技术识别准确率有待进一步提高的问题。

主权项:1.一种基于页面赋权的网页内容提取方法,其特征在于,所述方法包括:启动搜索引擎并接收关键词,在所述搜索引擎中搜索与所述关键词相关的搜索网页集;所述在所述搜索引擎中搜索与所述关键词相关的搜索网页集包括:索引出与所述搜索引擎对应的网页数据库,提取所述网页数据库中所包括的网页标签得到多组网页标签集;计算所述关键词与每组所述网页标签集的文本距离;筛选所述文本距离小于指定阈值的搜索网页得到所述搜索网页集;所述提取所述网页数据库中所包括的网页标签得到多组网页标签集包括:在所述网页数据库中依次提取每个网页的网页关键字得到网页关键字集;对所述网页关键字集中每个网页关键字执行去停用词处理得到核心关键字集;重组每个核心关键字得到与网页对应的网页标签集;为所述搜索网页集中每个搜索网页设置相同的初始权重,并根据所述搜索网页集内每个搜索网页所包括的访问链接,构建得到Web图;根据所述Web图,依次计算每个搜索网页的更新权重,并根据所述更新权重更新所述初始权重,得到与每个搜索网页对应的历史权重;所述根据所述Web图依次计算每个搜索网页的更新权重包括:依次计算每个搜索网页的出链数,将所述出链数映射为出链权重;计算所述出链权重与每个搜索网页的初始权重的比值得到每个搜索网页对应的更新权重;根据预设的映射函数将所述出链数作为因变量计算得到出链权重,并计算出链权重与初始权重的比值得到更新权重,然后将更新权重与初始权重相加得到与每个搜索网页对应的历史权重;根据所述历史权重对所述搜索网页集执行排序,并根据排名提取预设数量的搜索网页,得到内容待提取网页集;对所述内容待提取网页集内每个内容待提取网页执行OCR识别,得到第一待校正文本集;利用预训练完成的文本识别模型,识别所述内容待提取网页集的文本,得到第二待校正文本集;对所述第一待校正文本集与所述第二待校正文本集执行校正,得到网页内容。

全文数据:

权利要求:

百度查询: 山东视角数字技术有限公司 基于页面赋权的网页内容提取方法、装置及电子设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。