申请/专利权人:中国联合网络通信集团有限公司
申请日:2023-12-25
公开(公告)日:2024-03-22
公开(公告)号:CN117744653A
主分类号:G06F40/289
分类号:G06F40/289;G06F16/31;G06F16/36
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.09#实质审查的生效;2024.03.22#公开
摘要:本公开属于自然语言处理领域,具体涉及一种实体抽取方法、装置、电子设备及存储介质,用以解决相关技术中个性化实体采集方法效率和准确率较低的问题。该方法包括:获取知识文本数据,对知识文本数据进行去冗余以及分词处理,得到多个独立词;将多个独立词输入实体抽取模型;根据实体抽取模型针对多个独立词的输出结果,得到多个带有类型标识码的实体;针对多个带有类型标识码的实体进行结构化处理,得到多个已标注的结构化实体数据,根据与类型标识码相对应的实体类型,将多个已标注的结构化实体数据存储至知识数据库。该方法基于模型实现特定场景下个性化实体的自动抽取,提升了实体抽取的效率和准确率。
主权项:1.一种实体抽取方法,其特征在于,包括:获取知识文本数据,对所述知识文本数据进行去冗余以及分词处理,得到多个独立词;将所述多个独立词输入实体抽取模型;其中,所述实体抽取模型根据已标注的实体以及用于标注所述已标注的实体的类型标识码训练得到;其中,所述类型标识码根据对应的实体类型确定,所述实体类型包括通用实体类型以及定制实体类型;根据所述实体抽取模型针对所述多个独立词的输出结果,得到多个带有类型标识码的实体;针对所述多个带有类型标识码的实体进行结构化处理,得到多个已标注的结构化实体数据,根据与所述类型标识码相对应的实体类型,将所述多个已标注的结构化实体数据存储至知识数据库。
全文数据:
权利要求:
百度查询: 中国联合网络通信集团有限公司 一种实体抽取方法、装置、电子设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。