买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于关键词的数据挖掘方法_南京东大智能化系统有限公司_201811540372.8 

申请/专利权人:南京东大智能化系统有限公司

申请日:2018-12-17

公开(公告)日:2024-04-12

公开(公告)号:CN109669970B

主分类号:G06F16/2458

分类号:G06F16/2458

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2021.03.19#实质审查的生效;2019.04.23#公开

摘要:本发明涉及一种基于关键词的数据挖掘方法,解决的是效率低,重复性高的技术问题,通过采用统计并定义字符的波形频率、幅度,定义至少一个关键词,按照字符频率生成表征关键词的字符串波形;将源数据生成待挖掘的波形集;建立波形匹配检测模型,按序列标记波形集中的波形,将波形并行输入波形匹配检测模型进行并行的信号检测;各自取关键词对应的字符串波形时间周期长度内,信号检测出的幅度值为0对应的波形段作为当前支路与当前关键词匹配的最佳结果;选出具备所有关键词的最佳匹配结果,同时序列标记相同的待挖掘波形,反向匹配出源数据中的挖掘目标数据的技术方案,较好的解决了该问题,可用于数据挖掘中。

主权项:1.一种基于关键词的数据挖掘方法,其特征在于:所述基于关键词的数据挖掘方法包括:步骤一,统计并定义字符的波形频率、幅度,定义至少一个关键词,按照字符频率生成表征关键词的字符串波形;步骤二,将源数据按照步骤一定义的字符的波形频率生成待挖掘的波形集;步骤三,建立波形匹配检测模型,按序列标记波形集中的待挖掘的波形,将待挖掘的波形并行输入与关键词数量相同的波形匹配检测模型,以字符串波形作为参考信号进行并行的信号检测;步骤四,并行检测后,各自取关键词对应的字符串波形时间周期长度内,信号检测出的幅度值为0对应的波形段作为当前支路与当前关键词匹配的最佳结果;步骤五,选出具备所有关键词的最佳匹配结果,同时序列标记相同的待挖掘波形,根据待挖掘波形以及步骤一字符的波形频率,反向匹配出源数据中的挖掘目标数据;步骤三包括:步骤3.1,波形匹配检测模型为: 步骤3.2,定义两组1×N1检测振子,调整两组1×N1检测振子的参考频率等于待挖掘波形信号频率,检测振子的初始相位等间隔分布在[0,2π]内,间隔为2πN1;步骤3.3,将检测阵列初始状态设置为稳定大周期态,输入第l段待挖掘波形信号,定义搜索精度Precision,使用快速搜索方法,得到QINCls+Precision为参考信号幅度值且QDECls-Precision为参考信号幅度值时对应的检测阵列相变振子数s,完成1次测量;步骤3.4,设定N2=N2',进行L次测量,进行平均得到待测信号的估值为信号检测输出值; 其中,N1为检测阵列每组振子总数;N2为第一组发生相变的振子数,QDECls为参考信号幅度值;QINCls为预设的检测精度;I为1-4之间的常数,L为正整数;步骤3.3还包括:步骤A1,定义理想状态下,系统策动力临界阈值γc位于相邻的相变振子和未相变振子相位差的平分线上,计算出: 步骤A2,计算出角平分线对应的参考信号幅值与等高平分线上对应的参考信号幅值关系: 其中, 步骤A3,根据快速搜索逼近方法求解出QINCs、QDECs。

全文数据:一种基于关键词的数据挖掘方法技术领域本发明涉及大数据挖掘领域,具体涉及一种基于关键词的数据挖掘方法。背景技术数据挖掘Datamining又译为资料探勘、数据采矿。它是数据库知识发现英语:Knowledge-DiscoveryinDatabases,简称:KDD中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统依靠过去的经验法则和模式识别等诸多方法来实现上述目标。现有的数据挖掘存在效率低,重复性高的技术问题。本发明提供了一种新的基于关键词的数据挖掘方法,能够解决上述技术问题。发明内容本发明所要解决的技术问题是现有技术中存在的效率低,重复性高的技术问题。提供一种新的基于关键词的数据挖掘方法,该基于关键词的数据挖掘方法具有效率高、重复率低的特点。为解决上述技术问题,采用的技术方案如下:一种基于关键词的数据挖掘方法,所述基于关键词的数据挖掘方法包括:步骤一,统计并定义字符的波形频率、幅度,定义至少一个关键词,按照字符频率生成表征关键词的字符串波形;步骤二,将源数据按照步骤一定义的字符频率生成待挖掘的波形集;步骤三,建立波形匹配检测模型,按序列标记波形集中的待挖掘的波形,将待挖掘的波形并行输入与关键词数量相同的输入波形匹配检测模型,以字符串波形作为参考信号进行并行的信号检测;步骤四,并行检测后,各自取关键词对应的字符串波形时间周期长度内,信号检测出的幅度值为0对应的波形段作为当前支路与当前关键词匹配的最佳结果;步骤五,选出具备所有关键词的最佳匹配结果,同时序列标记相同的待挖掘波形,根据待挖掘波形以及步骤一字符的波形频率,反向匹配出源数据中的挖掘目标数据。本发明的工作原理:本发明通过定义字符对应的信号频率,通过对关键词信号周期内的字符串波形进行检测,以关键词的幅度为参考幅度,若检测值为0则说明该波形与关键词对应的波形重合,从而检测出关键词有无。通过并行检测并筛选的策略,能够在时间上进行效率提高。上述方案中,为优化,进一步地,步骤三包括:步骤3.1,波形匹配检测模型为:步骤3.2,定义两组1×N1检测振子,调整两组1×N1检测振子的参考频率等于待挖掘波形信号频率,检测振子的初始相位等间隔分布在[0.2π]内,间隔为2πN1;步骤3,3,将检测阵列初始状态设置为稳定大周期态,输入第l段待挖掘波形信号,定义搜索精度Precision,使用快速搜索方法,得到QINCls+Precision为参考信号幅度值且QDECls-Precision为参考信号幅度值时对应的检测阵列相变振子数s,完成1次测量;步骤3.4,设定N2=N2',进行L次测量,进行平均得到待测信号的估值为信号检测输出值;其中,N1为检测阵列每组振子总数;N2为第一组发生相变的振子数,QDECls为参考信号幅度值;QINCls为预设的检测精度;I为1-4之间的常数,L为正整数。进一步地,步骤3.3还包括:步骤A1,定义理想状态下,系统策动力临界阈值γc位于相邻的相变振子和未相变振子相位差的平分线上,计算出:步骤A2,计算出角平分线对应的参考信号幅值与等高平分线上对应的参考信号幅值关系:其中,步骤A3,根据快速搜索逼近方法求解出QINCs、QDECs。进一步地,利用数值统计方法确定稳定大周期态下检测振子的相轨迹点x,y和系统策动力相位Φ的对应关系,根据所述对应关系设置检测振子的初始相轨迹点位置x0n,y0n和参考信号初始相位Φn;其中,x0n,y0n和Φn分别为第n个检测振子的初始相轨迹点和初始相位。进一步地,所述基于关键词的数据挖掘方法还包括设置关键词对应权重,构成关键词权重图;根据关键词权重图的优先级排列挖掘目标数据。进一步地,所述关键词权重图的优先级计算如下:计算出关键词权重的高斯金字塔;定义关键词的Laplacian金字塔以及细节增益项,计算出融合金字塔;根据融合金字塔的高度计算出对应的关键词优先度:其中,为第j层融合金字塔;为第k个关键词对应的权重图的第j层高斯金字塔,为第k个关键词的第j层Laplacian金字塔,mk为第k个关键词对应的波形匹配结果频率值,J为金字塔的层数。本发明中的波形幅度检测可通过多种方式,本发明特别提供了一种检测模型及检测方式,具有加速了检测结果的收敛过程,减少了计算量和数据量需求,增强了检测结果的可靠性和检测过程的可控性。同时,对关键词进行权重赋值,能够按照需求进行关键词检索结果排列。传统的直接加权融合方法往往会出现不连续区域与缝隙,基于金字塔的融合能较好的解决这个问题,但基于传统的Laplacian金字塔融合往往不能很好的保留关键词的细节信息。本发明改进细节增强的Laplacian金字塔方法,融合多关键词序列,以使得融合细节更清晰。本发明的有益效果:本发明提供的基于关键词的数据挖掘算法效率高,同时重复性低,1次可挖掘多个关键词对应的目标数据。同时还能够按照关键词的优先级对结果进行加权排列。附图说明下面结合附图和实施例对本发明进一步说明。图1,实施例1中的基于关键词的数据挖掘方法的流程图。图2,并行检测的示意图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。实施例1本实施例提供一种基于关键词的数据挖掘方法,其特征在于:所述基于关键词的数据挖掘方法包括:步骤一,统计并定义字符的波形频率、幅度,定义至少一个关键词,按照字符频率生成表征关键词的字符串波形;步骤二,将源数据按照步骤一定义的字符频率生成待挖掘的波形集;步骤三,建立波形匹配检测模型,按序列标记波形集中的待挖掘的波形,将待挖掘的波形并行输入与关键词数量相同的输入波形匹配检测模型,以字符串波形作为参考信号进行并行的信号检测;步骤四,如图2,并行检测后,各自取关键词对应的字符串波形时间周期长度内,信号检测出的幅度值为0对应的波形段作为当前支路与当前关键词匹配的最佳结果;步骤五,选出具备所有关键词的最佳匹配结果,同时序列标记相同的待挖掘波形,根据待挖掘波形以及步骤一字符的波形频率,反向匹配出源数据中的挖掘目标数据。本发明的工作原理:本发明通过定义字符对应的信号频率,通过对关键词信号周期内的字符串波形进行检测,以关键词的幅度为参考幅度,若检测值为0则说明该波形与关键词对应的波形重合,从而检测出关键词有无。通过并行检测并筛选的策略,能够在时间上进行效率提高。本实施例的信号检测方法可采用多种方法。此时,具体地,步骤三包括:步骤3.1,波形匹配检测模型为:步骤3.2,定义两组1×N1检测振子,调整两组1×N1检测振子的参考频率等于待挖掘波形信号频率,检测振子的初始相位等间隔分布在[0.2π]内,间隔为2πN1;步骤3,3,将检测阵列初始状态设置为稳定大周期态,输入第l段待挖掘波形信号,定义搜索精度Precision,使用快速搜索方法,得到QINCls+Precision为参考信号幅度值且QDECls-Precision为参考信号幅度值时对应的检测阵列相变振子数s,完成1次测量;步骤3.4,设定N2=N2',进行L次测量,进行平均得到待测信号的估值为信号检测输出值;其中,N1为检测阵列每组振子总数;N2为第一组发生相变的振子数,QDECls为参考信号幅度值;QINCls为预设的检测精度;I为1-4之间的常数,L为正整数。更为详细地,步骤3.3还包括:步骤A1,定义理想状态下,系统策动力临界阈值γc位于相邻的相变振子和未相变振子相位差的平分线上,计算出:步骤A2,计算出角平分线对应的参考信号幅值与等高平分线上对应的参考信号幅值关系:其中,步骤A3,根据快速搜索逼近方法求解出QINCs、QDECs。更为详细地,利用数值统计方法确定稳定大周期态下检测振子的相轨迹点x,y和系统策动力相位Φ的对应关系,根据所述对应关系设置检测振子的初始相轨迹点位置x0n,y0n和参考信号初始相位Φn;其中,x0n,y0n和Φn分别为第n个检测振子的初始相轨迹点和初始相位。优选地,所述基于关键词的数据挖掘方法还包括设置关键词对应权重,构成关键词权重图;根据关键词权重图的优先级排列挖掘目标数据。具体地,所述关键词权重图的优先级计算如下:计算出关键词权重的高斯金字塔;定义关键词的Laplacian金字塔以及细节增益项,计算出融合金字塔;根据融合金字塔的高度计算出对应的关键词优先度:其中,为第j层融合金字塔;为第k个关键词对应的权重图的第j层高斯金字塔,为第k个关键词的第j层Laplacian金字塔,mk为第k个关键词对应的波形匹配结果频率值,J为金字塔的层数。尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员能够理解本发明,但是本发明不仅限于具体实施方式的范围,对本技术领域的普通技术人员而言,只要各种变化只要在所附的权利要求限定和确定的本发明精神和范围内,一切利用本发明构思的发明创造均在保护之列。

权利要求:1.一种基于关键词的数据挖掘方法,其特征在于:所述基于关键词的数据挖掘方法包括:步骤一,统计并定义字符的波形频率、幅度,定义至少一个关键词,按照字符频率生成表征关键词的字符串波形;步骤二,将源数据按照步骤一定义的字符频率生成待挖掘的波形集;步骤三,建立波形匹配检测模型,按序列标记波形集中的待挖掘的波形,将待挖掘的波形并行输入与关键词数量相同的输入波形匹配检测模型,以字符串波形作为参考信号进行并行的信号检测;步骤四,并行检测后,各自取关键词对应的字符串波形时间周期长度内,信号检测出的幅度值为0对应的波形段作为当前支路与当前关键词匹配的最佳结果;步骤五,选出具备所有关键词的最佳匹配结果,同时序列标记相同的待挖掘波形,根据待挖掘波形以及步骤一字符的波形频率,反向匹配出源数据中的挖掘目标数据。2.根据权利要求1所述的基于关键词的数据挖掘方法,其特征在于:步骤三包括:步骤3.1,波形匹配检测模型为:步骤3.2,定义两组1×N1检测振子,调整两组1×N1检测振子的参考频率等于待挖掘波形信号频率,检测振子的初始相位等间隔分布在[0.2π]内,间隔为2πN1;步骤3,3,将检测阵列初始状态设置为稳定大周期态,输入第l段待挖掘波形信号,定义搜索精度Precision,使用快速搜索方法,得到QINCls+Precision为参考信号幅度值且QDECls-Precision为参考信号幅度值时对应的检测阵列相变振子数s,完成1次测量;步骤3.4,设定N2=N2',进行L次测量,进行平均得到待测信号的估值为信号检测输出值;其中,N1为检测阵列每组振子总数;N2为第一组发生相变的振子数,QDECls为参考信号幅度值;QINCls为预设的检测精度;I为1-4之间的常数,L为正整数。3.根据权利要求2所述的基于关键词的数据挖掘方法,其特征在于:步骤3.3还包括:步骤A1,定义理想状态下,系统策动力临界阈值γc位于相邻的相变振子和未相变振子相位差的平分线上,计算出:步骤A2,计算出角平分线对应的参考信号幅值与等高平分线上对应的参考信号幅值关系:其中,步骤A3,根据快速搜索逼近方法求解出QINCs、QDECs。4.根据权利要求3所述的基于关键词的数据挖掘方法,其特征在于:利用数值统计方法确定稳定大周期态下检测振子的相轨迹点x,y和系统策动力相位Φ的对应关系,根据所述对应关系设置检测振子的初始相轨迹点位置x0n,y0n和参考信号初始相位Φn;其中,x0n,y0n和Φn分别为第n个检测振子的初始相轨迹点和初始相位。5.根据权利要求1所述的基于关键词的数据挖掘方法,其特征在于:所述基于关键词的数据挖掘方法还包括设置关键词对应权重,构成关键词权重图;根据关键词权重图的优先级排列挖掘目标数据。6.根据权利要求5所述的基于关键词的数据挖掘方法,其特征在于:所述关键词权重图的优先级计算如下:计算出关键词权重的高斯金字塔;定义关键词的Laplacian金字塔以及细节增益项,计算出融合金字塔;根据融合金字塔的高度计算出对应的关键词优先度:其中,为第j层融合金字塔;为第k个关键词对应的权重图的第j层高斯金字塔,为第k个关键词的第j层Laplacian金字塔,mk为第k个关键词对应的波形匹配结果频率值,J为金字塔的层数。

百度查询: 南京东大智能化系统有限公司 一种基于关键词的数据挖掘方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。