申请/专利权人:成都市映潮科技股份有限公司
申请日:2018-06-29
公开(公告)日:2021-02-26
公开(公告)号:CN108875060B
主分类号:G06F16/9535(20190101)
分类号:G06F16/9535(20190101)
优先权:
专利状态码:有效-授权
法律状态:2021.02.26#授权;2018.12.18#实质审查的生效;2018.11.23#公开
摘要:本发明提供了一种网站识别方法及识别系统,该方法包括:采集至少三个样本网页分别对应的至少三个样本网址和至少三个样本源代码;根据预设的至少两个特征类型,从每一个所述样本源代码中解析出每一个所述特征类型对应的特征值;根据解析出的每一个所述样本源代码对应的各个所述特征值,构建所述至少三个样本网址对应的随机森林模型;还包括:获取待识别网站网址;利用所述随机森林模型确定所述待识别网站网址的网站类型。本方案能提高识别网站类型的准确度。
主权项:1.一种网站识别方法,其特征在于,包括:采集至少三个样本网页分别对应的至少三个样本网址和至少三个样本源代码;根据预设的至少两个特征类型,从每一个所述样本源代码中解析出每一个所述特征类型对应的特征值;根据解析出的每一个所述样本源代码对应的各个所述特征值,构建所述至少三个样本网址对应的随机森林模型;还包括:获取待识别网站网址;利用所述随机森林模型确定所述待识别网站网址的网站类型;其中,所述根据解析出的每一个所述样本源代码对应的各个所述特征值,构建所述至少三个样本网址对应的随机森林模型,包括:从所述至少三个样本网址中提取至少两个训练网址;A1:循环执行至少两次A2至A5,构建至少两棵决策树;A2:从所述至少两个训练网址中随机抽取出至少一个目标训练网址;A3:从所述至少两个特征类型中确定至少一个目标特征类型;A4:针对每一个所述目标特征类型,均执行:确定每一个所述目标训练网址对应的目标特征值;A5:根据确定出的每一个所述目标训练网址对应的各个所述目标特征值,构建所述目标训练网址对应的所述决策树;根据构建出的各个所述决策树,构建所述随机森林模型;而且,当所述目标特征类型的数量为至少两个时,所述A5,包括:确定各个所述目标特征类型的排列顺序;将所述排列顺序中排在第一位的目标特征类型作为当前特征类型,执行:确定所述当前特征类型对应的标准特征值;将包括每一个所述目标训练网址的集合作为根节点;将所述根节点作为当前节点,循环执行B1至B3,直至各个所述目标特征类型均被选择;B1:根据各个所述目标训练网址对应于所述当前特征类型的目标特征值,将所述目标特征值大于所述标准特征值的目标训练网址作为所述当前节点的第一子节点,将所述目标特征值不大于所述标准特征值的目标训练网址作为所述当前节点的第二子节点;B2:将所述排列顺序中位于所述当前特征类型下一位的目标特征类型选择为当前特征类型;B3:依次将所述第一子节点和所述第二子节点作为所述当前节点,执行B1;将所述根节点以及所述根节点对应的子节点组合成所述决策树。
全文数据:
权利要求:
百度查询: 成都市映潮科技股份有限公司 一种网站识别方法及识别系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。