买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于分类梯度提升算法的骚扰号码识别方法_号百信息服务有限公司_202111288535.X 

申请/专利权人:号百信息服务有限公司

申请日:2021-11-02

公开(公告)日:2024-04-30

公开(公告)号:CN114006982B

主分类号:H04M3/22

分类号:H04M3/22;G06F18/214;G06F18/24

优先权:

专利状态码:有效-授权

法律状态:2024.04.30#授权;2022.02.22#实质审查的生效;2022.02.01#公开

摘要:本发明涉及网络通信技术和机器学习算法建模领域,特别是一种基于分类梯度提升算法的骚扰号码识别方法,包含步骤:首先选择样本,再对样本进行数据清洗和融合形成包含多维数据的原始数据集,然后从原始数据集中提取特征变量集。利用特征变量集构建Catboost模型,最后将完成训练的最终模型部署到生产系统中,用于在具体业务中识别骚扰号码,并对骚扰号码加以针对性处理。本发明采用SMOTETomeK算法解决了数据不平衡问题,采用XGBoost特征选择方法有效降低特征维度,并结合蝙蝠算法配合训练Catboost模型避免陷入局部最优解,最终使用Catboost模型有效提高了骚扰号码的预测精度。

主权项:1.一种基于分类梯度提升算法的骚扰号码识别方法,其特征在于,包含步骤:首先选择样本,再对所述样本进行数据清洗和融合形成包含多维数据的原始数据集,然后从所述原始数据集中提取特征变量集;利用所述特征变量集构建识别模型,最后将完成训练的最终模型部署到生产系统中,用于在具体业务中识别骚扰号码,并对所述骚扰号码加以针对性处理;所述样本包含从信令话单数据库中得到的业务电话样本和从黑白名单数据库中得到的分类电话样本;所述识别模型是Catboost模型,所述识别模型的构建包括初始化Catboost模型、设置模型精度阈值,以及利用所述特征变量集对Catboost模型进行训练,并在训练过程达到满足所述模型精度阈值的要求时,将当前所述识别模型输出为最终模型;使用同质集成算法构建所述Catboost模型;采用SMOTETomeK算法从所述原始数据集中提取所述特征变量集,具体包含:先利用综合采样将所述原始数据集转换为模型样板数据集,然后并将所述模型样板数据集分为数据训练集和数据测试集;在所述数据训练集中提取所述特征变量集,用于模型训练;所述数据测试集配合所述模型精度阈值,用于判定模型训练终止条件,确定所述最终模型;采用五折交叉验证法将所述模型样板数据集划分为数据训练集和数据测试集;在利用所述特征变量集构建识别模型之前,采用XGBoost特征选择方法来度量所述特征变量集中每个特征变量的特征重要性,并利用所述特征重要性来选择最佳特征分类,从而通过删除冗余的所述特征变量的方式优化所述特征变量集;在所述XGBoost特征选择方法中,特征重要性包含权重、增益和覆盖度。

全文数据:

权利要求:

百度查询: 号百信息服务有限公司 一种基于分类梯度提升算法的骚扰号码识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。