买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于本体知识库的自然语言领域数据集自动标注方法_中科合肥智慧农业协同创新研究院_202210080781.4 

申请/专利权人:中科合肥智慧农业协同创新研究院

申请日:2022-01-24

公开(公告)日:2024-04-09

公开(公告)号:CN114444512B

主分类号:G06F40/30

分类号:G06F40/30;G06F40/242;G06F40/186;G06F40/268;G06F40/295

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2022.05.24#实质审查的生效;2022.05.06#公开

摘要:本发明涉及一种基于本体知识库的自然语言领域数据集自动标注方法,与现有技术相比解决了自然语言领域数据集需人工标注的缺陷。本发明包括以下步骤:本体知识库的准备和预处理;本体知识库本体属性和本体关系的抽取;领域用户自然语言表述习惯的建模;构建自然语言模板库;结合本体知识库信息填充自然语言模板并根据任务类型自动标注数据。本发明利用本体知识库中的本体信息、本体关系信息,融合本体知识库领域相关用户自然语言表述习惯语义,自动标注数据集,解决了没有充分利用本体知识库,人工进行数据标注方法的费时、费力问题。

主权项:1.一种基于本体知识库的自然语言领域数据集自动标注方法,其特征在于,包括以下步骤:11本体知识库的准备和预处理:根据自然语言处理任务所属垂直领域类型,选择本体知识库作为构建自然语言处理数据集的基础;利用本体开发工具加载所述本体知识库;12本体知识库本体属性和本体关系的抽取:统计加载的本体知识库信息,作为自动标注数据集的基础先验知识;本体知识库信息包括本体信息、本体关系信息;所述本体知识库本体属性和本体关系的抽取包括以下步骤:121统计加载的本体知识库本体信息、本体关系信息及本体知识库中的所有实例信息,其包括实例名、实例类别,将其作为本体知识库的本体信息;122统计加载的本体知识库的关系信息,包括本体关系类型、本体关系数量、满足本体关系的知识,将其作为所述本体知识库本体关系信息;123本体知识库的本体信息通过本体信息完整度筛选得到的有效本体集合,本体信息完整度定义为:给定本体E,其信息完整度e由公式1计算得到: 所述公式1中的fullname表示本体E的名称;124本体知识库的本体关系信息通过关系表征系数筛选得到的有效本体关系集合,关系表征系数用来确定关系在所述本体知识库中的重要性;关系表征系数定义为:对于给定有向关系R,存在本体A、B满足关系R,即A-[R]-B;那么所述给定有向关系的表征系数r通过公式2计算得到: 所述公式2中,countR表示所述给定有向关系R的统计数量,Ri表示所述给定本体知识库的关系集合中的第i个有向关系,i={1,2,…,N},N表示所述关系集合大小,R[AB]表示A、B中至少有一个本体在所述给定本体知识库中由公式1计算得到的信息完整度为0,即本体信息不完整;13领域用户自然语言表述习惯的建模:收集本体知识库领域的文献、网站、规范书构建语料库,对语料库语料文本进行词性标注,作为语料的用户自然语言表述习惯,利用词性结构复杂度,通过二重筛选抽取得到本体知识库领域用户自然语言表述习惯语义;所述领域用户自然语言表述习惯的建模包括以下步骤:131收集本体知识库领域的文献、网站、规范书,构建本体知识库领域的语料库,其用于分析、抽取本体知识库领域用户的自然语言表述习惯,作为先验知识;132利用本体知识库本体信息构建完备特征词典:通过将本体知识库本体关系信息及其同义词、短语添加至特征词典,构建成本体知识库完备特征词典;133利用本体知识库完备特征词典对语料库中的文本进行词性标注,词性标注结果即为文本的词性结构,以词性结构作为文本的用户自然语言表述习惯;134对用户自然语言表述习惯进行筛选:利用TF-IDF算法选择在语料库中文本文件的关键词性结构,TF-IDF计算如公式3所示: TF-IDF=TF*IDF3所述公式3中,expi表示任意词性结构,files表示语料库中的所有文本文件,file|express表示包含所述给定词性结构express的文本文件,TF表示给定词性结构express在所述语料库给定所述文本中出现频率;IDF为所述语料库中的总文本数除以包含所述给定词性结构express的文本总数得到的商,再对商取对数得到,TF-IDF值是TF与所述IDF的乘积;135对用户自然语言表述习惯进一步筛选,利用词性结构复杂度滤除结构简单、语义不明确的词性结构,获取所述本体知识库领域相关用户自然语言表述习惯语义;所述词性结构复杂度解释为:对于给定词性结构,统计其包含的词性总数N,词性种类数C,那么其词性结构复杂度p由公式4计算得到:p=C*log1+NC,NC≥14所述词性结构复杂度的特征表现为:1351当给定词性结构所包含词性总数N不变时,给定词性结构所包含的词性种类数越多,即C越大,词性结构越复杂;反之,词性结构越简单;1352当给定词性结构所包含词性种类数C不变时,给定词性结构所包含的词性总数越多,即N越大,词性结构越复杂;反之,词性结构越简单;14构建自然语言模板库:根据用户自然语言表述习惯语义,以本体关系信息作为先验知识,构建自然语言模板库;15结合本体知识库信息填充自然语言模板并根据任务类型自动标注数据:遍历本体知识库本体信息,利用本体信息作为先验知识填充自然语言模板库,根据自然语言处理任务不同实现自动标注,生成任务型数据集。

全文数据:

权利要求:

百度查询: 中科合肥智慧农业协同创新研究院 一种基于本体知识库的自然语言领域数据集自动标注方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。