买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种语义敏感的知识图谱随机游走采样方法_杭州电子科技大学_202010185892.2 

申请/专利权人:杭州电子科技大学

申请日:2020-03-17

公开(公告)日:2020-07-24

公开(公告)号:CN111444317A

主分类号:G06F16/33(20190101)

分类号:G06F16/33(20190101);G06F16/36(20190101);G06F40/289(20200101);G06F40/30(20200101)

优先权:

专利状态码:有效-授权

法律状态:2021.11.30#授权;2020.08.18#实质审查的生效;2020.07.24#公开

摘要:本发明公开了一种语义敏感的知识图谱随机游走采样方法。本发明首先,利用知识图谱嵌入方法进行知识图谱的表示学习,获取谓词向量空间。其次,利用谓词向量空间计算查询谓词与知识图谱谓词的语义相似度,并将其转换为知识图谱中边的权重。第三,基于语义相似性在知识图谱中框定一个给定实体的跳邻域子图作为知识图谱采样的总体空间。第四,通过邻边语义相似性的归一化和转移概率的衰减设计马尔科夫转移矩阵。随后,基于上述转移矩阵进行随机游走以达到马尔科夫稳定状态。最后,根据马尔科夫稳态下的节实体访问概率进行采样。本发明可根据用户的采样需求快速获取高质量样本数据,该样本数据可直接用于聚集型图查询问题中,以提高聚集型查询效率。

主权项:1.一种语义敏感的知识图谱随机游走采样方法,该方法包含如下步骤:步骤1:谓词语义相似度计算以知识图谱G为输入,利用知识图谱嵌入模型TransE对知识图谱中的实体与谓词进行学习表示,形成一种将实体与关系嵌入到低维向量空间中的模型M;接着通过模型M计算G中每一个谓词与其他谓词之间的语义向量距离,再通过归一化得到谓词之间标准的语义相似度值;步骤2:语义敏感的n跳子图框定步骤2.1:语义敏感的n跳子图框定的初始化用户给定一个查询图,包含三类信息:已知实体e0,谓词p,目标实体类型t;根据查询图中谓词p选取该谓词与知识图谱G中其他谓词的语义相似度,维持一个关于谓词p的语义映射表H,作为后续知识图谱G中实体与实体间边的权重;目标是根据已知实体e0作为子图框定的起始点,对其n跳领域进行搜索,保留语义相似度大于阈值τ的实体及相关谓词,作为随机游走采样的总体空间;步骤2.2:语义敏感的n跳子图框定的过程创建两个集合C1和C2,分别用来保存n跳子图的实体及两个实体间相连的边;接着将实体e0作为根结点,通过广度优先搜索算法在知识图谱G中往外遍历;循环遍历完e0的邻居实体e,并记录当前广度优先搜索的层数layer;若邻居实体e的类型为t,则直接将该实体添加于集合C1中,将连接到邻居实体e的边添加于集合C2中;若邻居实体e的类型符合目标实体类型t,则利用路径选择收益模型计算到邻居实体e的代价pss;若代价pss大于阈值τ且从邻居实体e出发往后遍历n-layer层能找到实体类型符合目标实体类型t的实体,则将该实体添加于集合C1中,将连接到实体e的边添加于集合C2中,新建候选集合CSet,将符合条件的实体添加到候选集合CSet中作为下次迭代的结点;不断迭代直到当前遍历层数layer大于用户限定跳数n结束,最终框定出n跳子图G′;步骤3:转移矩阵的设计针对步骤2框定出的n跳子图G′,根据语义相似性来设计该子图的转移矩阵;步骤3.1:基于邻边语义相似性的归一化对于子图中的每一个实体,考虑该实体与其周围相连实体的谓词分布,据此进行基于邻边语义相似性的归一化;假设当前实体ei周围相连实体为Nei,当前实体ei与周围相连实体ej的边为eij,其中ej∈Nei,通过邻边语义相似性归一化公式计算实体间的转移概率pij,从而得到转移矩阵,其中转移矩阵的元素即为转移概率pij;步骤3.2:转移概率的衰减为了消除无效点对转移概率的影响,给限定层数m之外的边进行转移概率衰减;用d表示已知实体e0与当前实体ei的距离,当d>m时,进行转移概率的衰减,当d≤m时,转移概率不变;步骤4:随机游走达到马尔科夫稳态根据步骤3生成的转移矩阵,在子图G′上进行随机游走,获得一个稳定的概率分布π,对子图G′上任意一实体都有其对应的稳态访问概率πi,且满足步骤5:基于稳态概率分布的采样筛选出子图G′中所有类型为t的实体,得到符合类型的实体集合Et,其中实体分别为对应稳态概率分别为对集合Et中m个实体的稳态概率进行归一化;用户给定样本容量k,创建结果集R存放样本点,循环遍历集合Et,假设当前遍历到的结点为其稳态访问概率为接着针对每一个遍历到的结点生成一个随机小数r,0≤r≤1;若则将该结点存放于结果集R中,若不做处理;最终循环遍历直到结果集中样本点数量达到用户指定的样本容量k时结束。

全文数据:

权利要求:

百度查询: 杭州电子科技大学 一种语义敏感的知识图谱随机游走采样方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。