买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于生物特征表达企业要素之间联结方式的方法及其系统_前海梧桐(深圳)数据有限公司_201710843358.4 

申请/专利权人:前海梧桐(深圳)数据有限公司

申请日:2017-09-18

公开(公告)日:2020-11-20

公开(公告)号:CN107633362B

主分类号:G06Q10/06(20120101)

分类号:G06Q10/06(20120101);G06Q10/04(20120101)

优先权:

专利状态码:有效-授权

法律状态:2020.11.20#授权;2018.02.23#实质审查的生效;2018.01.26#公开

摘要:本发明涉及基于生物特征表达企业要素之间联结方式的方法及其系统,该方法包括对特定企业要素的值进行归一化处理;利用归一化处理后的企业要素值按照同一纬度的向量表示,对企业表征向量化,获取原始向量;采用神经网络训练模型进行企业的深度表征,获取企业深度向量;根据企业深度向量获取企业要素之间的内部联结以及外部联结。本发明通过对特定的企业要素的值进行归一化,企业表征向量化及深度向量化,利用获取的企业深度向量获取企业要素的内部联结和外部联结,实现利用生物特征中的神经网络模型与企业要素之间联结有相似之处,为建立企业要素之间深层联结的表达方式提供了依据,有助于对单个企业态势的预测以及对多家企业的背景和态势的分析。

主权项:1.基于生物特征表达企业要素之间联结方式的方法,其特征在于,所述方法包括:对特定企业要素的值进行归一化处理;利用归一化处理后的企业要素值按照同一维度的向量表示,对企业表征向量化,获取原始向量;采用神经网络训练模型进行企业的深度表征,获取企业深度向量;根据企业深度向量获取企业要素之间的内部联结以及外部联结;对特定企业要素的值进行归一化处理的步骤,包括以下具体步骤:对所有企业要素进行编码;将每类企业要素的值按照标准化算法进行标准化,形成归一化处理的企业要素的值;将每类企业要素的值按照标准化算法进行标准化,形成归一化处理的企业要素的值的步骤,包括以下具体步骤:针对同一维度的企业要素的值建立集合;统计集合内同一维度的企业要素的值出现的频率;获取单个企业要素的值内的每个名词的权重以及每一个企业要素的概率,以每个名词以及对应的权重、每一个企业要素以及对应的概率形成归一化处理的企业要素的值。

全文数据:基于生物特征表达企业要素之间联结方式的方法及其系统技术领域[0001]本发明涉及企业要素,更具体地说是指基于生物特征表达企业要素之间联结方式的方法及其系统。背景技术[0002]企业要素之间存在联结,利用企业要素之间的联结,以进行企业态势的预测,也可以对多家企业的背景和态势的分析,缺少联结的要素对分析企业之间关系的作用不大。[0003]目前,大部分企业要素之间的联结是通过关系数据库实现的,但是仅仅是一定程度的要素联结,而且主要通过主键外键之间的映射进行联结,要素之间的潜移默化的关系需要从不同角度挖掘,目前的联结方式无法表达深层的联结,导致企业态势的预测不够准确。[0004]因此,有必要设计一种基于生物特征表达企业要素之间联结方式的方法,利用生物特征中的神经网络模型与企业要素之间联结有着相似之处,为建立企业要素之间深层联结的表达方式提供了依据,有助于对单个企业态势的预测以及对多家企业的背景和态势的分析。发明内容[0005]本发明的目的在于克服现有技术的缺陷,提供基于生物特征表达企业要素之间联结方式的方法及其系统。[0006]为实现上述目的,本发明采用以下技术方案:基于生物特征表达企业要素之间联结方式的方法,所述方法包括:[0007]对特定企业要素的值进行归一化处理;[0008]利用归一化处理后的企业要素值按照同一炜度的向量表示,对企业表征向量化,获取原始向量;[0009]采用神经网络训练模型进行企业的深度表征,获取企业深度向量;[0010]根据企业深度向量获取企业要素之间的内部联结以及外部联结。[0011]其进一步技术方案为:对特定企业要素的值进行归一化处理的步骤,包括以下具体步骤:[0012]对所有企业要素进行编码;[0013]将每类企业要素的值按照标准化算法进行标准化,形成归一化处理的企业要素的值。[0014]其进一步技术方案为:将每类企业要素的值按照标准化算法进行标准化,形成归一化处理的企业要素的值的步骤,包括以下具体步骤:[0015]针对同一炜度的企业要素的值建立集合;[0016]统计集合内同一炜度的企业要素的值出现的频率;[0017]获取单个企业要素的值内的每个名词的权重以及每一个企业要素的概率,以每个名词以及对应的权重、每一个企业要素以及对应的概率形成归一化处理的企业要素的值。[0018]其进一步技术方案为:采用神经网络训练模型进行企业的深度表征,获取企业深度向量的步骤,包括以下具体步骤:[0019]建立〈企业名词,企业名词〉的频率表以及〈企业名词,事件〉的频率表;[0020]根据频率表建立霍夫曼树;[0021]原始向量作为输入层,将霍夫曼树作为输出层,训练神经网络,获取权重矩阵;[0022]从权重矩阵中映射出企业向量,形成企业深度向量。[0023]其进一步技术方案为:建立〈企业名词,企业名词〉的频率表以及〈企业名词,事件的频率表的步骤,包括以下具体步骤:[0024]获取符合要求的句子,提取二元组;[0025]对所述句子进行切词处理,获取集合;[0026]统计集合中的二元组的频率,形成建立〈企业名词,企业名词〉的频率表以及〈企业名词,事件〉的频率表。[0027]其进一步技术方案为:原始向量作为输入层,将霍夫曼树作为输出层,训练神经网络,获取权重矩阵的步骤,包括以下具体步骤[0028]根据原始向量获取二元组向量;[0029]根据霍夫曼树获取二元组向量的路径;[0030]根据路径获取对应的二元组向量的两个分类的概率;[0031]将两个概率相乘,获取似然函数;[0032]根据似然函数获取权重矩阵。[0033]本发明还提供了基于生物特征表达企业要素之间联结方式的系统,包括归一化处理单元、原始向量获取单元、企业深度向量获取单元以及联结获取单元;[0034]所述归一化处理单元,用于对特定企业要素的值进行归一化处理;[0035]所述原始向量获取单元,用于利用归一化处理后的企业要素值按照同一炜度的向量表示,对企业表征向量化,获取原始向量;[0036]所述企业深度向量获取单元,用于采用神经网络训练模型进行企业的深度表征,获取企业深度向量;[0037]所述联结获取单元,用于根据企业深度向量获取企业要素之间的内部联结以及外部联结。[0038]其进一步技术方案为:所述归一化处理单元包括编码模块以及标准化模块;[0039]所述编码模块,用于对所有企业要素进行编码;[0040]所述标准化模块,用于将每类企业要素的值按照标准化算法进行标准化,形成归一化处理的企业要素的值。[0041]其进一步技术方案为:所述标准化模块包括集合建立子模块、频率统计子模块以及归一值获取子模块;[0042]所述集合建立子模块,用于针对同一炜度的企业要素的值建立集合;[0043]所述频率统计子模块,用于统计集合内同一炜度的企业要素的值出现的频率;[0044]所述归一值获取子模块,用于获取单个企业要素的值内的每个名词的权重以及每一个企业要素的概率,以每个名词以及对应的权重、每一个企业要素以及对应的概率形成归一化处理的企业要素的值。[0045]其进一步技术方案为:所述企业深度向量获取单元包括频率表建立模块、霍夫曼树建立模块、权重矩阵获取模块以及深度向量形成模块;[0046]所述频率表建立模块,用于建立〈企业名词,企业名词〉的频率表以及〈企业名词,事件〉的频率表;[0047]所述霍夫曼树建立模块,用于根据频率表建立霍夫曼树;[0048]所述权重矩阵获取模块,用于原始向量作为输入层,将霍夫曼树作为输出层,训练神经网络,获取权重矩阵;[0049]所述深度向量形成模块,用于从权重矩阵中映射出企业向量,形成企业深度向量。[0050]本发明与现有技术相比的有益效果是:本发明的基于生物特征表达企业要素之间联结方式的方法,通过对特定的企业要素的值进行归一化处理,企业表征向量化以及深度向量化,进行企业要素进行规范化,再利用获取的企业深度向量获取企业要素的内部联结和外部联结,实现利用生物特征中的神经网络模型与企业要素之间联结有着相似之处,为建立企业要素之间深层联结的表达方式提供了依据,有助于对单个企业态势的预测以及对多家企业的背景和态势的分析。[0051]下面结合附图和具体实施例对本发明作进一步描述。附图说明[0052]图1为本发明具体实施例提供的基于生物特征表达企业要素之间联结方式的方法的流程图;[0053]图2为本发明具体实施例提供的对特定企业要素的值进行归一化处理的流程图;[0054]图3为本发明具体实施例提供的将每类企业要素的值按照标准化算法进行标准化的流程图;[0055]图4为本发明具体实施例提供的采用神经网络训练模型进行企业的深度表征的流程图;[0056]图5为本发明具体实施例提供的建立〈企业名词,企业名词〉的频率表以及〈企业名词,事件〉的频率表的流程图;[0057]图6为本发明具体实施例提供的获取权重矩阵的流程图;[0058]图7为本发明具体实施例提供的基于生物特征表达企业要素之间联结方式的系统的结构框图;[0059]图8为本发明具体实施例提供的归一化处理单元的结构框图;[0060]图9为本发明具体实施例提供的标准化模块的结构框图;[0061]图10为本发明具体实施例提供的企业要素及其值的表格;[0062]图11为本发明具体实施例提供的总词频的表格;[0063]图12为本发明具体实施例提供的单个企业要素所含词的词权重表格;[0064]图13为本发明具体实施例提供的每一个企业要素的概率表格;[0065]图14为本发明具体实施例提供的企业原始向量的表格;[0066]图15为本发明具体实施例提供的霍夫曼树的框架图;[0067]图16为本发明具体实施例提供的企业要素粒子产生的势能可视化图;[0068]图17为本发明具体实施例提供的生物学中提出的神经元创新机制图;[0069]图18为本发明具体实施例提供的BE-T-Q-V网络图;[0070]图19为本发明具体实施例提供的内部联结图;[0071]图20为本发明具体实施例提供的外部联结图。具体实施方式[0072]为了更充分理解本发明的技术内容,下面结合具体实施例对本发明的技术方案进一步介绍和说明,但不局限于此。[0073]如图1〜20所示的具体实施例,本实施例提供的基于生物特征表达企业要素之间联结方式的方法,可以运用在建立企业要素之间的联结机制的过程中,实现利用生物特征中的神经网络模型与企业要素之间联结有着相似之处,为建立企业要素之间深层联结的表达方式提供了依据,有助于对单个企业态势的预测以及对多家企业的背景和态势的分析。[0074]如图1所示,本实施例提供了基于生物特征表达企业要素之间联结方式的方法,该方法包括:[0075]S1、对特定企业要素的值进行归一化处理;[0076]S2、利用归一化处理后的企业要素值按照同一炜度的向量表不,对企业表征向量化,获取原始向量;[0077]S3、采用神经网络训练模型进行企业的深度表征,获取企业深度向量;[0078]S4、根据企业深度向量获取企业要素之间的内部联结以及外部联结。[0079]企业基础要素又称BasicElementBE,是构建AI级企业数据平台的必要成分,也是BE-T-Q-V体系的底层支柱,如何利用从权威文件中提取的BE来分布式地表征企业,并对企业进行横向和垂直分析具有重要影响。对于上述的BE-T-Q-V,是针对企业数据结构特点,提出了基于生物特征的企业要素的应用场景,如图18所示。[0080]为了便于计算机对BE的处理,首先对BE进行规范化。[0081]对于上述的Sl步骤,对特定企业要素的值进行归一化处理的步骤,包括以下具体步骤:[0082]SI1、对所有企业要素进行编码;[0083]S12、将每类企业要素的值按照标准化算法进行标准化,形成归一化处理的企业要素的值。[0084]不同的BE具有特定的值域,首先对所有BE进行编码,每类BE都被赋予唯一的“表头代码”,如图10所示,每类BE的值依据一定的标准化算法进行标准化,主要是从BE内的名词,动词和形容词的频率进行标准化,对于图10的BE名称及其值统计后的总词频情况如图11所示。[0085]对于上述的S12步骤,将每类企业要素的值按照标准化算法进行标准化,形成归一化处理的企业要素的值的步骤,包括以下具体步骤:[0086]S121、针对同一炜度的企业要素的值建立集合;[0087]S122、统计集合内同一炜度的企业要素的值出现的频率;[0088]S123、获取单个企业要素的值内的每个名词的权重以及每一个企业要素的概率,以每个名词以及对应的权重、每一个企业要素以及对应的概率形成归一化处理的企业要素的值。[0089]对于上述的S121步骤,同一维度的BE值建立集合,统计同一维度BE值的词频仅考虑名词,动词和形容词),求单个BE值中每个词的权重以及每一个BE的概率;BE值中每个词的权重标准化公式:W=C_inC_all;其中,C_ir^PC_all分别代表单词W在单个BE和一类BE值中的词频。每一个BE的概率标准化公式:V_BE=W_1*W_2*W_i…*W_n,其中,W_i代表单词i的权重。对于BE值中每个词的权重标准化采用单个BE所含词的词权重表表示,如图12所示,针对图12的词权重表计算出来的每一个BE的概率如图13所示。[0090]获取企业要素的名词权重具有迀移学习的应用价值,任何企业界问题都可以调用已经训练好的模型,进行个性化问题处理。[0091]对于上述的S2步骤,具体是应用上一步得到的标准化的值,每一个企业个体都可以用同一炜度的向量表示,如图14所示,企业1=〈0.88,0.76,…,0.78以及企业2=〈0.25,nul1,…,0.66称此企业向量为原始向量。在这种表征下,衡量企业之间的相似度可以转换为计算向量之间的距离。可以利用原始相邻的距离计算企业之间的相似度,以快速地获取其他企业的企业要素之间的联结方式。[0092]更进一步地,对于上述的S3步骤,采用神经网络训练模型进行企业的深度表征,获取企业深度向量的步骤,采用同样维度的向量表征企业是分布式信息处理的一种表现,为进一步学习企业的深度表征模型奠定了基础,企业所发生的事件代表了企业的动态,从自然语言理解的角度出发,分析某企业名词出现的上下文可以捕获企业所关联的信息,描述企业的数据具有其独特的模式以及上下文语境具体是获取在企业数据集下训练出来的词向量,该词向量涵盖有价值的企业特性,其神经网络训练模型可以采用TomasMiko1ον提出的word2vec训练方法。[0093]上述的S3步骤,包括以下具体步骤:[0094]S31、建立〈企业名词,企业名词〉的频率表以及〈企业名词,事件〉的频率表;[0095]S32、根据频率表建立霍夫曼树;[0096]S33、原始向量作为输入层,将霍夫曼树作为输出层,训练神经网络,获取权重矩阵;[0097]S34、从权重矩阵中映射出企业向量,形成企业深度向量。[0098]对于上述的S31步骤,建立〈企业名词,企业名词〉的频率表以及〈企业名词,事件〉的频率表的步骤,包括以下具体步骤:[0099]S311、获取符合要求的句子,提取二元组;[0100]S312、对所述句子进行切词处理,获取集合;[0101]S313、统计集合中的二元组的频率,形成建立〈企业名词,企业名词〉的频率表以及〈企业名词,事件〉的频率表。[0102]具体地,上述的S311步骤至S313步骤,〈企业名词,企业名词〉,〈企业名词,事件〉频率表的建立如下例所示,找到所有含有两个实体或者以上),或者实体和事件的句子;从中提取二元组〈企业名词1,企业名词2,〈企业名词,事件〉,针对句子S=“企业名词1并购企业名词2”,首先进行切词,得到集合:{:企业名词1,并购,企业名词2},在企业语料库找到完整的企业词,从整个语料库中统计出二元组〈企业名词1,企业名词2,〈企业名词,事件〉的频率。[0103]对于上述的S32步骤,具体地,将二元组当作叶子节点,二元组出现的次数当作权值。比如,统计语料库中的二元组,得到如下结果:〈企业名词1,并购〉,〈企业名词1,企业名词2,〈企业名词2,并购〉出现的次数分别为:20,35,12。以这些二元组当叶子结点,以出现的次数当作权值,构造出霍夫曼树,且这三个二元组所对应的编码分别为:〇1,1和〇〇,如图15所示。[0104]对于上述的S33步骤,原始向量作为输入层,将霍夫曼树作为输出层,训练神经网络,获取权重矩阵的步骤,包括以下具体步骤:[0105]S331、根据原始向量获取二元组向量;[0106]S332、根据霍夫曼树获取二元组向量的路径;[0107]S333、根据路径获取对应的二元组向量的两个分类的概率;[0108]S334、将两个概率相乘,获取似然函数;[0109]S335、根据似然函数获取权重矩阵。[0110]具体地,上述的S331步骤至S335步骤,上述输入的原始信息是从筛选出的含有两个或者以上)的企业名词,或者含有企业和事件的所有句子中摘出的2个二元组向量。这个向量也要通过训练得到,最终通过霍夫曼树可以得到每个二元组的路径,从每个路径可以得到其二分类的概率。将概率相乘可以得到:P二元组I二元组上下文),并由此得到似然函数,进一步最大化这个似然函数。其中的参数被优化后,可以得到企业深度向量来自矩阵),其结果的应用场景如下:比较两家企业的相似度,相似度=COS企业1深度向量,企业2深度向量),根据某企业及其动态和组合,预测另一家企业的动态:企业2动态词向量=企业1深度向量+企业1动态词向量-企业2深度向量。[0111]企业要素之间的联结一般由联结组呈现,联结组表征某一企业不为空的所有BE构成最基本的BE联结组,依据企业实体的特性,BE与BE之间的联结是动态的,联结行为的产生可以用注意力集中机制表达,可以以用量子力学为支撑演化出信息运动学,也可以借鉴生物学理论。在注意力集中机制下,所有BE之间都有联结,但是联结的权重不同,权重越高,BE之间的关系越紧密,将每一个M看做一个信息粒子,该粒子带有能量,称作信息势能,其能量来源于BE与BE之间的距离,在信息势能的作用下,信息粒子向着某一方向运动,当粒子与粒子之间的距离达到某一程度时,产生联结,设信息势能E表示为:E=N*N*EiΣίKBEj-BEisigma;则Renyi的二次熵为H:H=-ln⑻,在某特定数据集下,信息势能向着Renyi二次熵的方向趋近,如图16所示。运动的过程中会造成溢出效应,溢出效应Externality是神经学中提出的产生创新思想的源泉,如图17所示。[0112]BE与BE之间是否形成联结,取决与它们之间的相互作用程度,可以用激活函数表征。不同于普通神经网络中的激活函数,这里为了从联结组中提取有价值的信息,将激活函数定义为:[0113];阈值来源于溢出效应分析。[0114]对于上述的S4步骤,建立企业内部要素联结,比如,找因果关系:收入提高是因为技术或者管理的变动,这个关系可以通过向量间的运算得到,T层,Q层的内部构成可以表示如图19所示。企业和企业之间可能有联系,比如,产生并购关系,通过有监督训练,可以得到具有特定关系的企业向量之间的距离分布,用于预测企业之间的关系,每一个企业都可以用图15表示。企业与企业之间的关系及其相互作用可以用图20表示。内部联结应用于对某一企业态势的预测与分类;外部联系可以应用于对多家企业的背景和态势的分析。[0115]上述的基于生物特征表达企业要素之间联结方式的方法,通过设置对特定的企业要素的值进行归一化处理,企业表征向量化以及深度向量化,进行企业要素进行规范化,再利用获取的企业深度向量获取企业要素的内部联结和外部联结,实现利用生物特征中的神经网络模型与企业要素之间联结有着相似之处,为建立企业要素之间深层联结的表达方式提供了依据,有助于对单个企业态势的预测以及对多家企业的背景和态势的分析。[0116]如图7所示,本实施例还提供了基于生物特征表达企业要素之间联结方式的系统,其包括归一化处理单元1、原始向量获取单元2、企业深度向量获取单元3以及联结获取单元4。[0117]归一化处理单元1,用于对特定企业要素的值进行归一化处理。[0118]原始向量获取单元2,用于利用归一化处理后的企业要素值按照同一炜度的向量表示,对企业表征向量化,获取原始向量。[0119]企业深度向量获取单元3,用于采用神经网络训练模型进行企业的深度表征,获取企业深度向量。[0120]联结获取单元4,用于根据企业深度向量获取企业要素之间的内部联结以及外部联结。[0121]企业基础要素又称BasicElementBE,是构建AI级企业数据平台的必要成分,也是BE-T-Q-V体系的底层支柱,如何利用从权威文件中提取的BE来分布式地表征企业,并对企业进行横向和垂直分析具有重要影响。对于上述的BE-T-Q-V,是针对企业数据结构特点,提出了基于生物特征的企业要素的应用场景,如图18所示。[0122]更进一步地,上述的归一化处理单元1包括编码模块11以及标准化模块12。[0123]编码模块11,用于对所有企业要素进行编码。[0124]标准化模块12,用于将每类企业要素的值按照标准化算法进行标准化,形成归一化处理的企业要素的值。[0125]不同的BE具有特定的值域,首先对所有BE进行编码,每类BE都被赋予唯一的“表头代码”,如图10所示,每类BE的值依据一定的标准化算法进行标准化,主要是从BE内的名词,动词和形容词的频率进行标准化,对于图10的BE名称及其值统计后的总词频情况如图11所示。[0126]更进一步地,上述的标准化模块12包括集合建立子模块121、频率统计子模块122以及归一值获取子模块123。[0127]集合建立子模块121,用于针对同一炜度的企业要素的值建立集合。[0128]频率统计子模块122,用于统计集合内同一炜度的企业要素的值出现的频率。[0129]归一值获取子模块123,用于获取单个企业要素的值内的每个名词的权重以及每一个企业要素的概率,以每个名词以及对应的权重、每一个企业要素以及对应的概率形成归一化处理的企业要素的值。[0130]同一维度的BE值建立集合,统计同一维度BE值的词频仅考虑名词,动词和形容词),求单个BE值中每个词的权重以及每一个BE的概率;BE值中每个词的权重标准化公式:W=C_inC_all;其中,C_in和C_all分别代表单词W在单个BE和一类BE值中的词频。每一个BE的概率标准化公式:V_BE=W_1*W_2*W_i…*W_n,其中,W_i代表单词i的权重。对于BE值中每个词的权重标准化采用单个BE所含词的词权重表表示,如图12所示,针对图12的词权重表计算出来的每一个BE的概率如图13所示。[0131]获取企业要素的名词权重具有迀移学习的应用价值,任何企业界问题都可以调用已经训练好的模型,进行个性化问题处理。[0132]上述的原始向量获取单元2具体是应用上一步得到的标准化的值,每一个企业个体都可以用同一炜度的向量表示,如图14所示,企业1=〈0.88,0.76,…,0.78以及企业2=〈0.25,nul1,…,0.66称此企业向量为原始向量。在这种表征下,衡量企业之间的相似度可以转换为计算向量之间的距离。可以利用原始相邻的距离计算企业之间的相似度,以快速地获取其他企业的企业要素之间的联结方式。[0133]上述的企业深度向量获取单元3具体是采用同样维度的向量表征企业是分布式信息处理的一种表现,为进一步学习企业的深度表征模型奠定了基础,企业所发生的事件代表了企业的动态,从自然语言理解的角度出发,分析某企业名词出现的上下文可以捕获企业所关联的信息,描述企业的数据具有其独特的模式以及上下文语境具体是获取在企业数据集下训练出来的词向量,该词向量涵盖有价值的企业特性,其神经网络训练模型可以采用TomasMikolov提出的word2vec训练方法。[0134]对于上述的企业深度向量获取单元3包括频率表建立模块、霍夫曼树建立模块、权重矩阵获取模块以及深度向量形成模块。[0135]频率表建立模块,用于建立〈企业名词,企业名词〉的频率表以及〈企业名词,事件的频率表。[0136]霍夫曼树建立模块,用于根据频率表建立霍夫曼树。[0137]权重矩阵获取模块,用于原始向量作为输入层,将霍夫曼树作为输出层,训练神经网络,获取权重矩阵。[0138]深度向量形成模块,用于从权重矩阵中映射出企业向量,形成企业深度向量。[0139]对于上述的频率表建立模块包括二元组提取子模块、集合获取子模块以及表格建立子模块。[0140]二元组提取子模块,用于获取符合要求的句子,提取二元组。[0141]集合获取子模块,用于对所述句子进行切词处理,获取集合。[0142]表格建立子模块,用于统计集合中的二元组的频率,形成建立〈企业名词,企业名词〉的频率表以及〈企业名词,事件〉的频率表。[0143]〈企业名词,企业名词〉,〈企业名词,事件〉频率表的建立如下例所示,找到所有含有两个实体或者以上),或者实体和事件的句子;从中提取二元组〈企业名词1,企业名词2,〈企业名词,事件〉,针对句子S=“企业名词1并购企业名词2”,首先进行切词,得到集合:{:企业名词1,并购,企业名词2},在企业语料库找到完整的企业词,从整个语料库中统计出二元组〈企业名词I,企业名词2,〈企业名词,事件〉的频率。[0144]对于霍夫曼树建立模块,具体地,将二元组当作叶子节点,二元组出现的次数当作权值。比如,统计语料库中的二元组,得到如下结果:〈企业名词1,并购〉,〈企业名词1,企业名词2,〈企业名词2,并购〉出现的次数分别为:20,35,12。以这些二元组当叶子结点,以出现的次数当作权值,构造出霍夫曼树,且这三个二元组所对应的编码分别为:01,1和〇〇,如图15所示。[0145]对于上述的权重矩阵获取模块包括二元组向量获取子模块、路径获取子模块、概率获取子模块、相乘子模块以及矩阵获取子模块。[0146]二元组向量获取子模块,用于根据原始向量获取二元组向量。[0147]路径获取子模块,用于根据霍夫曼树获取二元组向量的路径。[0148]概率获取子模块,用于根据路径获取对应的二元组向量的两个分类的概率。[0149]相乘子模块,用于将两个概率相乘,获取似然函数。[0150]矩阵获取子模块,用于根据似然函数获取权重矩阵。[0151]具体地,上述输入的原始信息是从筛选出的含有两个或者以上)的企业名词,或者含有企业和事件的所有句子中摘出的2个二元组向量。这个向量也要通过训练得到,最终通过霍夫曼树可以得到每个二元组的路径,从每个路径可以得到其二分类的概率。将概率相乘可以得到:P二元组I二元组上下文),并由此得到似然函数,进一步最大化这个似然函数。其中的参数被优化后,可以得到企业深度向量来自矩阵),其结果的应用场景如下:比较两家企业的相似度,相似度=C0S企业1深度向量,企业2深度向量),根据某企业及其动态和组合,预测另一家企业的动态:企业2动态词向量=企业1深度向量+企业1动态词向量-企业2深度向量。[0152]企业要素之间的联结一般由联结组呈现,联结组表征某一企业不为空的所有BE构成最基本的BE联结组,依据企业实体的特性,BE与BE之间的联结是动态的,联结行为的产生可以用注意力集中机制表达,可以以用量子力学为支撑演化出信息运动学,也可以借鉴生物学理论。在注意力集中机制下,所有BE之间都有联结,但是联结的权重不同,权重越高,BE之间的关系越紧密,将每一个M看做一个信息粒子,该粒子带有能量,称作信息势能,其能量来源于BE与BE之间的距离,在信息势能的作用下,信息粒子向着某一方向运动,当粒子与粒子之间的距离达到某一程度时,产生联结,设信息势能E表示为:E=N*N*EiΣίKBEj-BEisigma;则Renyi的二次熵为H:H=-ln⑻,在某特定数据集下,信息势能向着Renyi二次熵的方向趋近,如图16所示。运动的过程中会造成溢出效应,溢出效应Externality是神经学中提出的产生创新思想的源泉,如图17所示。[0153]BE与BE之间是否形成联结,取决与它们之间的相互作用程度,可以用激活函数表征。不同于普通神经网络中的激活函数,这里为了从联结组中提取有价值的信息,将激活函数定义为:[0154];阈值来源于溢出效应分析。[0155]对于上述的联结获取单元4而言,建立企业内部要素联结,比如,找因果关系:收入提高是因为技术或者管理的变动,这个关系可以通过向量间的运算得到,T层,Q层的内部构成可以表示如图19所示。企业和企业之间可能有联系,比如,产生并购关系,通过有监督训练,可以得到具有特定关系的企业向量之间的距离分布,用于预测企业之间的关系,每一个企业都可以用图15表示。企业与企业之间的关系及其相互作用可以用图20表示。内部联结应用于对某一企业态势的预测与分类;外部联系可以应用于对多家企业的背景和态势的分析。[0156]上述的基于生物特征表达企业要素之间联结方式的系统,通过设置对特定的企业要素的值进行归一化处理,企业表征向量化以及深度向量化,进行企业要素进行规范化,再利用获取的企业深度向量获取企业要素的内部联结和外部联结,实现利用生物特征中的神经网络模型与企业要素之间联结有着相似之处,为建立企业要素之间深层联结的表达方式提供了依据,有助于对单个企业态势的预测以及对多家企业的背景和态势的分析。[0157]上述仅以实施例来进一步说明本发明的技术内容,以便于读者更容易理解,但不代表本发明的实施方式仅限于此,任何依本发明所做的技术延伸或再创造,均受本发明的保护。本发明的保护范围以权利要求书为准。

权利要求:1.基于生物特征表达企业要素之间联结方式的方法,其特征在于,所述方法包括:对特定企业要素的值进行归一化处理;利用归一化处理后的企业要素值按照同一炜度的向量表示,对企业表征向量化,获取原始向量;采用神经网络训练模型进行企业的深度表征,获取企业深度向量;根据企业深度向量获取企业要素之间的内部联结以及外部联结。2.根据权利要求1所述的基于生物特征表达企业要素之间联结方式的方法,其特征在于,对特定企业要素的值进行归一化处理的步骤,包括以下具体步骤:对所有企业要素进行编码;将每类企业要素的值按照标准化算法进行标准化,形成归一化处理的企业要素的值。3.根据权利要求2所述的基于生物特征表达企业要素之间联结方式的方法,其特征在于,将每类企业要素的值按照标准化算法进行标准化,形成归一化处理的企业要素的值的步骤,包括以下具体步骤:针对同一炜度的企业要素的值建立集合;统计集合内同一炜度的企业要素的值出现的频率;获取单个企业要素的值内的每个名词的权重以及每一个企业要素的概率,以每个名词以及对应的权重、每一个企业要素以及对应的概率形成归一化处理的企业要素的值。4.根据权利要求1至3任一项所述的基于生物特征表达企业要素之间联结方式的方法,其特征在于,采用神经网络训练模型进行企业的深度表征,获取企业深度向量的步骤,包括以下具体步骤:建立〈企业名词,企业名词〉的频率表以及〈企业名词,事件〉的频率表;根据频率表建立霍夫曼树;原始向量作为输入层,将霍夫曼树作为输出层,训练神经网络,获取权重矩阵;从权重矩阵中映射出企业向量,形成企业深度向量。5.根据权利要求4所述的基于生物特征表达企业要素之间联结方式的方法,其特征在于,建立〈企业名词,企业名词〉的频率表以及〈企业名词,事件〉的频率表的步骤,包括以下具体步骤:获取符合要求的句子,提取二元组;对所述句子进行切词处理,获取集合;统计集合中的二元组的频率,形成建立〈企业名词,企业名词〉的频率表以及〈企业名词,事件〉的频率表。6.根据权利要求5所述的基于生物特征表达企业要素之间联结方式的方法,其特征在于,原始向量作为输入层,将霍夫曼树作为输出层,训练神经网络,获取权重矩阵的步骤,包括以下具体步骤根据原始向量获取二元组向量;根据霍夫曼树获取二元组向量的路径;根据路径获取对应的二元组向量的两个分类的概率;将两个概率相乘,获取似然函数;根据似然函数获取权重矩阵。7.基于生物特征表达企业要素之间联结方式的系统,其特征在于,包括归一化处理单元、原始向量获取单元、企业深度向量获取单元以及联结获取单元;所述归一化处理单元,用于对特定企业要素的值进行归一化处理;所述原始向量获取单元,用于利用归一化处理后的企业要素值按照同一炜度的向量表示,对企业表征向量化,获取原始向量;所述企业深度向量获取单元,用于采用神经网络训练模型进行企业的深度表征,获取企业深度向量;所述联结获取单元,用于根据企业深度向量获取企业要素之间的内部联结以及外部联结。8.根据权利要求7所述的基于生物特征表达企业要素之间联结方式的系统,其特征在于,所述归一化处理单元包括编码模块以及标准化模块;所述编码模块,用于对所有企业要素进行编码;所述标准化模块,用于将每类企业要素的值按照标准化算法进行标准化,形成归一化处理的企业要素的值。9.根据权利要求8所述的基于生物特征表达企业要素之间联结方式的系统,其特征在于,所述标准化模块包括集合建立子模块、频率统计子模块以及归一值获取子模块;所述集合建立子模块,用于针对同一炜度的企业要素的值建立集合;所述频率统计子模块,用于统计集合内同一炜度的企业要素的值出现的频率;所述归一值获取子模块,用于获取单个企业要素的值内的每个名词的权重以及每一个企业要素的概率,以每个名词以及对应的权重、每一个企业要素以及对应的概率形成归一化处理的企业要素的值。10.根据权利要求9所述的基于生物特征表达企业要素之间联结方式的系统,其特征在于,所述企业深度向量获取单元包括频率表建立模块、霍夫曼树建立模块、权重矩阵获取模块以及深度向量形成模块;所述频率表建立模块,用于建立〈企业名词,企业名词〉的频率表以及〈企业名词,事件〉的频率表;所述霍夫曼树建立模块,用于根据频率表建立霍夫曼树;所述权重矩阵获取模块,用于原始向量作为输入层,将霍夫曼树作为输出层,训练神经网络,获取权重矩阵;所述深度向量形成模块,用于从权重矩阵中映射出企业向量,形成企业深度向量。

百度查询: 前海梧桐(深圳)数据有限公司 基于生物特征表达企业要素之间联结方式的方法及其系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。