申请/专利权人:金网络(北京)数字科技有限公司
申请日:2023-11-09
公开(公告)日:2024-02-02
公开(公告)号:CN117493782A
主分类号:G06F18/15
分类号:G06F18/15;G06N3/098
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.02.23#实质审查的生效;2024.02.02#公开
摘要:本发明公开了一种基于隐私计算的数据补齐方法、装置及存储介质,涉及数据补齐技术领域。基于隐私计算的数据补齐方法包括对待补齐数据表中的每行数据和每列数据进行归一化处理得到第一标准数据表和第二标准数据表;计算第一标准数据表的行数据离散度及第二标准数据表的列数据离散度;如果行数据离散度与列数据离散度的差值超过预设阈值,则基于离散程度更小的行数据或列数据来进行数据补齐,如果行数据离散度与列数据离散度的差值未超过预设阈值,综合考虑行数据和列数数据进行数据补齐。本发明公开的基于隐私计算的数据补齐方法、装置及存储介质可合理和准确的对缺失的数据进行数据补齐,避免所补齐的数据与实际缺失的数据之间差异度过大。
主权项:1.一种基于隐私计算的数据补齐方法,其特征在于,包括:对待补齐数据表中的每行数据进行归一化处理得到第一标准数据表,并对待补齐数据表中的每列数据进行归一化处理得到第二标准数据表;计算所述第一标准数据表中的行数据离散度以及所述第二标准数据表中的列数据离散度;如果所述行数据离散度与所述列数据离散度的差值超过预设阈值,则将所述行数据离散度与所述列数据离散度中数值最小的离散度所对应的标准数据表作为待补齐标准数据表,并依据所述待补齐标准数据表中与缺失数据所对应的行数据或列数据对所述待补齐标准数据表中缺失的数据进行补齐;将补齐后的待补齐标准数据表进行还原,得到补齐后的数据表;如果所述行数据离散度与所述列数据离散度的差值未超过预设阈值,则依据第一标准数据表中与缺失数据所在行的行数据对第一标准数据表中的缺失数据进行补齐,得到补齐后的第一标准数据表,并依据第二标准数据表中与缺失数据所在列的列数据对第二标准数据表中的缺失数据进行补齐,得到补齐后的第二标准数据表;分别对补齐后的第一标准数据表和补齐后的第二标准数据表进行还原,得到第一还原数据表和第二还原数据表;基于第一还原数据表中与所述缺失数据所对应的第一数据以及所述第二还原数据表中与所述缺失数据所对应的第二数据进行加权运算,得到所述缺失数据的补齐数据,并基于所述补齐数据对所述待补齐数据表进行数据补齐,得到补齐后的数据表。
全文数据:
权利要求:
百度查询: 金网络(北京)数字科技有限公司 基于隐私计算的数据补齐方法、装置及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。