买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种海洋渔场渔情预报系统中的缺失数据填补方法及系统_大连海事大学_202110195665.2 

申请/专利权人:大连海事大学

申请日:2021-02-19

公开(公告)日:2023-05-16

公开(公告)号:CN112835884B

主分类号:G06F16/215

分类号:G06F16/215;G06F16/2455;G06Q50/02

优先权:

专利状态码:有效-授权

法律状态:2023.05.16#授权;2021.06.11#实质审查的生效;2021.05.25#公开

摘要:本发明提供一种海洋渔场渔情预报系统中的缺失数据填补方法,包括以下步骤:步骤1:数据实时获取:给定传感器网络监测区域内的n个数据源,将数据源获取到的数据从传感器节点经由传感器网络端传送到服务器端,实现数据流的实时获取;步骤2:模型初始化:对于获取到的包含大量缺失值的实时数据流,进行填补模型初始化、近邻参数初始化、增量更新填补模型及相关参数更新;步骤3:查询响应处理:基于经过步骤2填补后得到的完整的数据流,对用户的查询进行快速响应,从而得到所需要的海洋渔场数据,进行后续的渔场渔情预报分析。本发明的技术方案解决了现有技术中的填补方法无法适应高速动态数据流的问题。

主权项:1.一种海洋渔场渔情预报系统中的缺失数据填补方法,其特征在于,包括以下步骤:步骤1:数据实时获取:给定传感器网络监测区域内的n个数据源包括完整数据元组和缺失数据元组,将数据源获取到的数据从传感器节点经由传感器网络端传送到服务器端,实现数据流的实时获取;步骤1-1:t时刻,对来自n个数据源的历史数据进行数据整合,并将其作为当前时刻的数据集St;步骤1-2:基于步骤1-1获取到的数据集St,进行属性划分,属性Am为缺失属性,其余属性F={A1,A2,...,Am-1}为完整属性;步骤1-3:将数据集St分类为缺失数据集和完整数据集两部分,分别由t时刻获取的缺失数据元组和完整数据元组组成;步骤2:模型初始化:对于获取到的包含大量缺失值的实时数据流,进行填补模型初始化、近邻参数初始化、增量更新填补模型及相关参数更新;步骤2-1:对数据集进行归一化预处理操作,把数据变成0,1之间的小数;步骤2-2:进行线性回归模型初始化,针对每条数据元组构建相应的线性回归模型并学习模型参数参数基于学习得到,表示的p近邻;对于数据元组其缺失属性和完整属性间的线性回归模型如下式所示: 给定一个的最优p值pi,利用在完整属性上的观测值在St中查找与其相似度最高的pi条近邻元组,表示为进而可基于下式进行求解: 其中Xt是由的p近邻在m-1维完整属性上的观测值组成的pi×m的矩阵,Xt中第一列为全1向量,对应中的常量参数Yt是由的pi近邻在缺失维属性上的观测值组成的pi×1的矩阵;步骤2-3:通过枚举法为每条数据元组确定最优的p值并进行p近邻查找;首先基于给定的相似性度量准则计算每条缺失数据元组与其他数据元组间的相似度,得到大小为n×n的二维相似表,基于二维相似表可对每条数据元组的近邻进行查找;对于每个可能的pi取值,均可基于相应的p近邻学习一个对应的线性回归模型,相应地,基于该线性回归模型,结合缺失元组的完整属性值Xt,根据下式即可得到在缺失属性上的估计值Yt; 默认初始时刻的数据集为完整数据集,通过计算估计值和完整数据集间的偏差,选择偏差最小的pi值作为最优p值;步骤2-4:为缺失数据元组确定最优的k值并进行k近邻查找;当一条数据元组中缺失属性上的观测值为缺失状态时,首先确定缺失数据元组的最优k值并进行k近邻查找,然后根据确定的k近邻对应的线性回归模型对缺失值进行估计,得到k个估计值;在确定对应的最优k值过程中,假设为缺失数据元组,其近邻参数ki的取值范围为[1,n];对于每个可能的ki值,均可基于其ki近邻对应的线性回归模型得到一个填补结果,通过选取填补结果与完整数据集间偏差最小的ki值最为最优k值;步骤2-5:模型更新,增量计算当前时刻所在时间周期的平均累计误差,判断周期时长,若平均累积误差大于给定阈值,则重复进行步骤2-2至步骤2-4直至平均累计误差小于等于给定阈值,否则进入步骤2-6;首先基于当前周期内确定的最优k近邻对时间周期T即[t-l,t-1]时间段内填补结果的平均累积误差进行估计;若平均累积误差小于给定阈值τ,即则无需对当前最优p近邻和最优k近邻进行更新;若平均累积误差超过给定阈值τ,即则需在t时刻对每条数据元组的最优p近邻和最优k近邻都进行重新计算,同时,当前时间周期结束,下一个新的时间周期开始;设t时刻缺失数据元组在缺失属性上的真值为估计值为其填补误差为则在时间周期T内所有缺失数据元组填补结果的平均累积误差为: 其中l为当前时间周期T的长度,Nm为当前时间周期内所有缺失数据元组数量,即在时间周期T内完整数据集对应的平均累积误差为: 其中Nc为当前时间周期内所有完整数据元组数量,即步骤2-6:对完整数据集中的每条完整数据元组对应的回归模型参数进行增量更新; 对于t时刻到达的一条数据元组设和为数据元组从初始时刻到当前时刻所有完整近邻组成的X和Y数据矩阵,即对公式2进行增量计算,设: 其中是大小为m×m的矩阵,是大小为m×1的矩阵;数据元组对应的回归模型参数可基于下式进行增量计算: 其中E为和同等大小的单位矩阵; 和可基于下式进行增量计算: 步骤2-7:对每条缺失数据元组利用当前数据集中完整近邻数据元组,进行数据中的缺失值填补,形成不包含缺失值的完整数据流;基于当前时刻每条数据元组的最优回归模型参数及最优k近邻集合针对t时刻的每条缺失数据元组首先依据其k近邻对应的线性回归模型得到ki个填补值,最后对ki个填补值进行加权融合得到最终的填补结果;步骤3:查询响应处理:基于经过步骤2填补后得到的完整的数据流,对用户的查询进行快速响应,从而得到所需要的海洋渔场数据,进行后续的渔场渔情预报分析。

全文数据:

权利要求:

百度查询: 大连海事大学 一种海洋渔场渔情预报系统中的缺失数据填补方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。