买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种数据预处理方法_广东工业大学_202110265579.4 

申请/专利权人:广东工业大学

申请日:2021-03-11

公开(公告)日:2024-04-30

公开(公告)号:CN112883096B

主分类号:G06F16/25

分类号:G06F16/25;G06F16/215;G06F16/28

优先权:

专利状态码:有效-授权

法律状态:2024.04.30#授权;2021.06.18#实质审查的生效;2021.06.01#公开

摘要:本发明公开了一种数据预处理方法,包括以下步骤:在接收到数据预处理指令时,从多个数据源中读取待处理的数据;将所述待处理的数据中的非结构化数据转换为结构化数据;根据预处理匹配库对所述结构化数据进行聚类得到聚类数据;对所述聚类数据进行数据标准化、数据联合和数据清洗后得到预处理后的数据。本发明提供的方法,能消除多源数据间的隔阂,实现多源数据共享统一的预处理操作方案,对多源数据的预处理效率更高,得到的预处理后的数据质量更高。

主权项:1.一种数据预处理方法,其特征在于,包括以下步骤:在接收到数据预处理指令时,从多个数据源中读取待处理的数据,包括:根据所述待处理的数据的存储位置,自动识别并调用对应的标准API接口读取所述待处理的数据,所述多个数据源包括数据库数据、文件数据、云端数据和爬虫数据中的至少两者;将所述待处理的数据中的半结构化数据和非结构化数据转换为结构化数据;根据预处理匹配库对所述结构化数据进行层次聚类得到聚类数据,包括:对所述结构化数据的特征列数据进行轮询,检测空特征数据,通过强制转换得到数值型数据,根据字符串动态匹配得到非数值型数据和混合型数据;其中,所述预处理匹配库包括字符特征匹配库和特征正则匹配库,所述混合型数据包括数值型数据和非数值型数据;所述通过强制转换得到数值型数据包括:将所述特征列数据进行浮点型强制转换,若转换成功,则所述特征列数据为单维数值型数据;否则,去掉所述特征列数据中的多余字符得到多维数值型数据;所述根据字符串动态匹配得到非数值型数据和混合型数据包括:将所述特征列数据进行字符串动态匹配,若匹配到数字,则所述特征列数据为混合型数据,否则所述特征列数据为非数值型数据;所述根据字符串动态匹配得到非数值型数据和混合型数据之后,还包括:根据字符特征匹配库将所述非数值型数据分为单维非数值型数据和多维非数值型数据,根据特征正则匹配库将所述混合型数据分为规律型数据和非规律型数据,具体为:判断所述非数值型数据是否全部匹配到单个字符,若是,则为单维非数值型数据,否则为多维非数值型数据;判断所述混合型数据是否全部符合特征正则匹配库,若符合,则所述混合型数据为规律型数据,否则所述混合型数据为非规律型数据;对所述聚类数据进行数据标准化、数据联合和数据清洗后得到预处理后的数据。

全文数据:

权利要求:

百度查询: 广东工业大学 一种数据预处理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。