买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种全领域产品节点体系动态融合与生长方法_杭州量知数据科技有限公司_202111166990.2 

申请/专利权人:杭州量知数据科技有限公司

申请日:2021-10-01

公开(公告)日:2024-04-23

公开(公告)号:CN113987197B

主分类号:G06F16/36

分类号:G06F16/36;G06F16/35;G06N3/0464

优先权:

专利状态码:有效-授权

法律状态:2024.04.23#授权;2022.02.18#实质审查的生效;2022.01.28#公开

摘要:本发明提供了一种全领域产品节点体系动态融合与生长方法。本发明针对区域产业经济发展过程中对于细粒度新兴领域的认知决策需求,在已有权威产品分类体系的基础上,利用概念获取、关系判别、属性融合等自然语言处理和知识图谱技术从海量互联网半结构化和非结构化异构数据源中持续挖掘产品概念节点,利用文本嵌入技术对产品概念进行表征,进而对该产品概念和原有的产品体系节点间关系进行判断、融合与挂接,以此持续扩充节点体系内容,形成一套可动态融合生长的全领域产品节点体系。此外,本发明还能够在体系构建和更新过程中的人机协同交互流程,确保全领域产品节点体系的权威性和准确性。

主权项:1.一种全领域产品节点体系动态融合与生长方法,其特征在于,包括以下步骤:S1、以满足全领域产品体系构建所需的通用产品分类体系作为产品节点体系的上层架构,进而在该通用产品分类体系的数据集上,利用预训练语言模型进行微调得到领域语言模型,用于得到产品节点体系中每个节点的词嵌入表示;S2、利用预训练的产品概念抽取模型从含有产品概念的非结构化文本数据中提取产品概念,同时基于规则在含有产品概念的半结构化文本数据上提取产品概念,且非结构化文本数据和半结构化文本数据均持续动态更新从而从中持续提出产品概念的词汇和短语,合并形成候选产品概念集合;S3、利用产品概念别名库训练同义概念判断模型,对所述候选产品概念集合中候选的产品概念与已有产品节点体系中的节点进行同义关系判断,将符合同义关系的产品概念与节点作为概念-节点对进行融合,得到别名扩充后的节点体系,同时将与任意节点均不符合同义关系的产品概念作为新产品概念;S4、基于S1中得到的所述领域语言模型,根据已有产品节点体系构建符合上下位关系的节点-节点对训练集,并训练得到一个上下位关系分类判断模型,使其能判断节点概念的直接父级节点,进而利用训练后的上下位关系分类判断模型预测S3中所获取的每个新产品概念的父级节点,并根据预测结果将新产品概念挂接扩充至产品节点体系中;S5、分别将S2中获取的候选产品概念集合以及S3和S4中扩充的节点体系发送给人工审核端进行校验,根据校验结果最终更新产品节点体系,同时也更新S2~S4中所用到的各模型的训练样本以提升各模型的性能,从而实现持续动态构建全领域产品节点体系;所述S1具体包括如下步骤:S11、根据全领域产品体系构建需求,以通用产品分类体系HS编码作为种子节点体系,形成产品节点体系的上层架构,进而得到产品节点体系中的上下位关系数据集;S12、利用Bert预训练语言模型在种子节点体系的描述文本上进行微调训练,学习领域文本表达中的语义特征,得到领域语言模型,利用领域语言模型能够得到产品节点体系中每一个节点概念的特征向量;所述S2具体包括如下步骤:S21、对于持续采集得到的含有产品概念的半结构化文本数据,对文本中的产品概念进行基于规则的结构化解析提取,生成第一候选产品概念集合;S22、对于持续采集得到的含有产品概念的非结构化文本数据,先通过人工标注得到包含产品概念序列的训练样本集合,进而利用NLP序列标注模型在训练样本集合基础上训练产品概念抽取模型,在持续采集的新的非结构化文本数据上通过产品概念抽取模型抽取产品概念序列,生成第二候选产品概念集合;S23、将第一候选产品概念集和第二候选产品概念集合合并为候选产品概念集合,用于作为已有产品节点体系扩充的基础;所述S3具体包括如下步骤:S31、根据产品概念别名信息构建符合产品同义关系的同义概念样本集合,利用Bert预训练语言模型应用场景中的序列分类任务,基于同义概念样本集合训练同义概念判别模型,进而针对所述候选产品概念集合,利用同义概念判别模型对候选产品概念集合中的每个候选产品概念和已有产品节点体系中的每个节点之间进行同义概念关系预测,若所述候选产品概念集合中的一个候选产品概念与已有产品节点体系中的一个节点之间符合同义概念关系,则将两者作为符合同义关系的概念-节点对;若所述候选产品概念集合中的一个候选产品概念与已有产品节点体系中的任意一个节点之间均不符合同义概念关系,则将该候选产品概念作为新产品概念,加入新产品概念候选集合中;S32、针对S31得到的符合同义关系的概念-节点对,将其中的候选产品概念名词融合到已有的产品节点体系中的对应节点属性中,存入产品库中节点实例的别名属性字段下,实现节点别名属性融合;所述S4具体包括如下步骤:S41、利用产品节点体系中已有的节点上下位关系构建query-node概念对训练集,其中每一个query-node概念对中,query代表一个待挂接的产品概念,node代表产品节点体系中的一个产品节点,所有node组成的产品节点信息用node图结构来表示,训练集标签设置为1或0,其中1表示node为query的直接父级节点,0则相反;S42、用S1中得到的所述领域语言模型初始化query产品概念和node图结构中各个产品节点的特征向量,在node图结构中采用GNN图神经网络模型将各节点特征进行传播融合和迭代更新,得到query和node各自的词嵌入表示并输入二分类模型中,通过训练二分类模型使其能识别query-node概念对中的node是否为query的直接父级节点,从而得到上下位关系分类判断模型;S43、对于S3中得到的新产品概念,利用上下位关系分类判断模型对其中的每个新产品概念与产品节点体系中的每个已有节点一一进行上下位关系的判断,计算出匹配度最高的已有节点作为直接父级节点,从而进行产品节点体系的挂接扩充。

全文数据:

权利要求:

百度查询: 杭州量知数据科技有限公司 一种全领域产品节点体系动态融合与生长方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。