申请/专利权人:之江实验室
申请日:2023-11-14
公开(公告)日:2024-04-09
公开(公告)号:CN117252555B
主分类号:G06Q10/10
分类号:G06Q10/10;G06Q40/08;G06F18/213;G06F18/24;G06F18/23;G06F16/22
优先权:
专利状态码:有效-授权
法律状态:2024.04.09#授权;2024.01.05#实质审查的生效;2023.12.19#公开
摘要:本申请涉及一种基于车险场景的半自动化特征工程方法、系统和介质,其中,基于车险场景的半自动化特征工程方法包括:对各所述数据表中各字段进行分类,并基于所述字段类型确定对应的特征衍生策略以及特征聚合策略;基于所述字段类型,生成各所述数据表之间的表连接关系;基于所述特征衍生策略对各所述数据表中的字段进行特征衍生,得到衍生特征;并基于所述表连接关系以及所述特征聚合策略将各所述从表中的原始特征和所述衍生特征聚合到所述主表上,得到聚合后的主表;基于所述字段类型对所述聚合后的主表中的特征进行预处理,将预处理后的特征输入至模型中进行训练,获得识别模型;基于所述识别模型对数据表记录的车险事件进行识别,获得识别结果,提高了车险事件识别的精确度。
主权项:1.一种基于车险场景的半自动化特征工程方法,其特征在于,所述方法包括:获取各数据表中各字段的统计特征;其中,所述数据表包括一张主表和多张从表;根据各所述数据表中各字段的统计特征和字段信息对各所述字段进行分类,得到各所述字段对应的字段类型,并基于所述字段类型确定对应的特征衍生策略以及特征聚合策略;基于所述字段类型,生成各所述数据表之间的表连接关系;基于所述特征衍生策略对各所述数据表中的字段进行特征衍生,得到衍生特征;并基于所述表连接关系以及所述特征聚合策略将各所述从表中的原始特征和所述衍生特征聚合到所述主表上,得到聚合后的主表;具体包括:基于所述表连接关系,确定当前从表所对应的上一层数据表;以及确定所述上一层数据表中唯一ID字段对应的所述当前从表中的多行记录;基于所述特征聚合策略对各字段的所述多行记录进行聚合,获得所述上一层数据表中唯一ID对应的一行记录,生成所述当前从表的聚合特征;将所述当前从表的聚合特征与所述上一层数据表的原始特征和所述衍生特征进行拼接;并判断所述上一层数据表是否为主表,直至所述上一层数据表为所述主表,得到聚合后的主表;基于所述字段类型对所述聚合后的主表中的特征进行预处理,将预处理后的特征输入至模型中进行训练,获得识别模型;基于所述识别模型对数据表记录的车险事件进行识别,获得识别结果。
全文数据:
权利要求:
百度查询: 之江实验室 一种基于车险场景的半自动化特征工程方法、系统和介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。