申请/专利权人:富士通株式会社
申请日:2018-12-18
公开(公告)日:2024-04-16
公开(公告)号:CN111339396B
主分类号:G06F16/9535
分类号:G06F16/9535;G06F16/35
优先权:
专利状态码:有效-授权
法律状态:2024.04.16#授权;2020.07.21#实质审查的生效;2020.06.26#公开
摘要:本发明涉及一种提取网页内容的方法,包括:计算网页特征与至少一个网页特征聚类的代表集合的相似度,代表集合包括相应网页特征聚类中彼此间相似度较高的网页特征的样本;确定与网页特征的相似度最高的代表集合;用网页特征更新与所确定的代表集合关联的网页特征聚类;重新计算所更新的网页特征聚类的代表集合;以及根据与所更新的网页特征聚类关联的提取模板从网页中提取内容。
主权项:1.一种提取网页内容的方法,包括:计算网页特征与至少一个网页特征聚类的代表集合的相似度,所述代表集合包括相应网页特征聚类中彼此间相似度较高的网页特征的样本;确定与所述网页特征的相似度最高的代表集合;用所述网页特征更新与所确定的代表集合关联的网页特征聚类;重新计算所更新的网页特征聚类的代表集合;以及根据与所更新的网页特征聚类关联的提取模板从网页中提取内容,其中,重新计算所更新的网页特征聚类的代表集合的步骤包括:计算所更新的网页特征聚类中的网页特征与其它样本的网页特征的相似度之和除以所更新的网页特征聚类中的所述网页特征与各个代表集合的相似度之和的比值;在所计算的比值中确定预定数量的最大的比值;选择与所确定的比值相对应的所述预定数量的样本以组成所更新的网页特征聚类的代表集合。
全文数据:
权利要求:
百度查询: 富士通株式会社 提取网页内容的方法、装置和计算机存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。