上海欣方智能系统有限公司;上海欣方软件有限公司丁正获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海欣方智能系统有限公司;上海欣方软件有限公司申请的专利一种网络内容的分类方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113722622B 。
龙图腾网通过国家知识产权局官网在2025-06-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111026455.7,技术领域涉及:G06F16/955;该发明授权一种网络内容的分类方法和装置是由丁正;顾晓东;董伟;周荣;赵学哲;程子帅;郭涛设计研发完成,并于2021-09-02向国家知识产权局提交的专利申请。
本一种网络内容的分类方法和装置在说明书摘要公布了:本申请公开了网络内容的分类方法,包括:从网络中获取待分类的网页URL,并写入目标URL文档;通过爬虫引擎在网络中爬取目标URL文档中各URL网页的内容,并将各网页的内容保存为mhtml文档,写入互联网内容存档数据库;根据保存的mhtml文档,构建网页URL对应的网页内容图表示;该网页图表示包括文本图和图片图;对构建的网页内容图表示图进行分类与识别,将分类和识别结果作为所述网页内容图表示对应的网页URL的分类和识别结果;其中,在进行图的分类与识别时,通过卷积和池化操作确定文本图的特征向量和图片图的特征向量,并将文本图的特征向量和图片图的特征向量进行拼接,作为网页内容图表示的特征向量。应用本申请,能够有效对网络内容进行分类。
本发明授权一种网络内容的分类方法和装置在权利要求书中公布了:1.一种网络内容的分类方法,其特征在于,包括:从网络中获取待分类的网页URL,并写入目标URL文档;通过爬虫引擎在网络中爬取目标URL文档中各URL网页的内容,并将各网页的内容保存为mhtml文档,写入互联网内容存档数据库;根据保存的mhtml文档,构建网页URL对应的网页内容图表示;其中,所述网页内容图表示包括文本图和图片图,文本图中的顶点为文本顶点,图片图中的顶点为图片顶点;利用图神经网络对所述网页内容图表示进行图的分类与识别,将分类和识别结果作为所述网页内容图表示对应的网页URL的分类和识别结果;其中,在进行图的分类与识别时,通过卷积和池化操作确定所述文本图的特征向量和所述图片图的特征向量,并将文本图的特征向量和图片图的特征向量进行拼接,作为所述网页内容图表示的特征向量;其中,对于文本图,所述构建网页URL对应的网页内容图表示包括:将mhtml文档中保存的网页文字内容表示为HTML树;其中,将所述网页内容中的文字内容元素配置为所述HTML树的节点,对于所述网页中包括文本信息的图片,提取并识别嵌入图片的文本,生成文本节点加入所述HTML树中;利用所述HTML树中的节点和节点间的关系构造图G=V,E;其中,G的每个顶点v对应所述HTML树中的一个节点,G的边e表示顶点间的拓扑关系;对于图片图,所述构建网页URL对应的网页内容图表示包括:将所述网页中的每个图片作为图片图中的一个顶点v,并设置所有顶点为孤立顶点;按照由各顶点间位置关系所设定的处理顺序,依次对每个顶点进行处理,具体处理包括:计算所述每个顶点的几何中心,获取其中心位置;依次选择其他顶点与所述每个顶点连线,若该连线不经过任何图片的任何部分,则在所述连线的两个图片顶点间建立边e,否则所述连线的两个图片顶点间不建立边。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海欣方智能系统有限公司;上海欣方软件有限公司,其通讯地址为:201203 上海市浦东新区碧波路690号张江微电子港8号4楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。