首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于结构化网络知识自动生成中文本体库的方法、系统、计算机设备和计算机可读介质_万云数码媒体有限公司_201780046326.X 

申请/专利权人:万云数码媒体有限公司

申请日:2017-07-28

公开(公告)日:2024-05-07

公开(公告)号:CN109643315B

主分类号:G06F16/36

分类号:G06F16/36

优先权:["20160729 HK 16109078.8"]

专利状态码:有效-授权

法律状态:2024.05.07#授权;2019.05.10#实质审查的生效;2019.04.16#公开

摘要:一种基于结构化网络知识的自动生成中文本体库的方法、系统、计算机设备和计算机可读介质。所述方法包括步骤:从结构化知识网络抓取结构化知识,其中结构化知识包括至少一个关注概念用于所述自动中文本体库的生成;过滤无关的链接;提取有关所关注概念的知识;发现所述关注概念的相关联概念;基于余弦相似性度量推断所述关注概念及其相关联概念之间的语义相关性;并且存储推断出的所述语义相关性数据。本发明提供的更有效率的自动中文本体库生成的系统和方法,以应对快速发展的数据世界并迎合数据用户的需求。

主权项:1.一种用于基于结构化网络知识自动生成中文本体库的方法,包括下列步骤:-从网络抓取基于网络的中文百科全书的结构化知识网络的静态HTML网页,通过所述结构化知识的超文本传输协议浏览所述结构化知识网络中的目录;使用广度优选搜索算法访问目录中的超链接,直到所有链接的目录均被访问;从所述链接的静态HTML网页中取得至少一个中文文本语料,其中所述中文文本语料的主题、摘要和内容由被取得的HTML网页上的HTML头部,标题和主体标签来确定;并且对取得的每个中文文本语料生成链接记录;并将所述链接记录和取得的中文文本语料存入数据库中;其中所述每个从抓取的静态HTML网页中取得的中文文本语料由该被抓取的静态HTML网页的网址URL作为唯一的识别符来识别;所述数据库还包括所述每个中文文本语料的URL,标识符和最后修改时间;所述网络抓取步骤,还包括,判断最后修改时间是否与现存链接记录中的最后修改时间是否相配,来更新存储的链接记录;在相同的中文文本语料存在于具有不同网址的静态HTML网页的浏览页和子浏览页下时,将所述浏览页中的中文文本语料的标识符定为一个重定向标识符,将该中文文本语料重定向至浏览页下的标识符;其中结构化的知识包括至少一个所关注的概念用于自动生成中文本体库;所述每个所取得的中文文本语料为代表该中文文本语料主题的概念;-过滤所有连接到外部网页的无关链接、与所述中文文本语料中描述的知识无关的访问菜单中的无关链接和与结构化知识网络中重复出现的链接;-通过提取描述所述中文文本语料中的相关名词术语来提取所述中文文本语料的概念知识,所述概念知识代表所关注的概念;通过所述提取的概念知识计算所述中文文本语料的术语频率权重矢量V1;所述中文文本语料中具有连接到其他中文文本语料的超链接,所述超链接中的中文文本语料代表与所关注的概念相关联的概念;-通过计算所述中文文本语料和超链接文本语料上得到的术语频率权重矢量,和计算所述中文文本语料和超链接文本语料权重矢量的余弦相似性来发现概念之间的关系;包括:执行从第一概念的已抓取的静态HTML网页提取超链接列表,所述中文文本语料中的每个超链接代表一个相关联的概念;通过访问所关注概念的中文文本语料中找到的超链接,识别相关联概念,和相关联概念的相应术语频率权重矢量;每个相关联的概念具有代表唯一语义的术语频率权重矢量;通过余弦相似性的度量推断出所述所关注的概念以及其相关联概念的语义相关性;并且-所述中文文本语料转换为资源描述框架RDF格式,将具有语义相关性的中文文本语料的所有相关联的概念以所述RDF格式进行存储。

全文数据:PCT国内申请,说明书已公开。

权利要求:PCT国内申请,权利要求书已公开。

百度查询: 万云数码媒体有限公司 基于结构化网络知识自动生成中文本体库的方法、系统、计算机设备和计算机可读介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。