申请/专利权人:北京金堤征信服务有限公司
申请日:2021-03-16
公开(公告)日:2024-04-02
公开(公告)号:CN113065353B
主分类号:G06F40/295
分类号:G06F40/295;G06F40/30;G06F18/214;G06N3/02;G06F16/33
优先权:
专利状态码:有效-授权
法律状态:2024.04.02#授权;2021.07.20#实质审查的生效;2021.07.02#公开
摘要:本公开的实施例提供了实体识别方法及装置,该方法包括:基于预设文本语料,构建实体字典,实体字典包括第一实体字典和第二实体字典;根据第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料通过预设算法对实体识别模型进行校正;在接收到新的文本语料时,基于校正后的实体识别模型对新的文本语料中的实体进行识别。本公开技术方案可以大幅提高实体识别的准确率。
主权项:1.一种实体识别方法,其特征在于,包括:基于预设文本语料,构建实体字典,所述实体字典包括第一实体字典和第二实体字典;根据所述第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料通过预设算法对所述实体识别模型进行校正,包括:查询所述训练文本语料中是否有与所述第一实体字典中的实体或第二实体字典中的实体相匹配的待确定实体;对所述训练文本语料中待确定实体打实体内链;若所述待确定实体为出现在所述第一实体字典中的实体,则不对所述实体识别模型进行校正;若所述待确定实体为出现在所述第二实体字典中的实体且所述待确定实体已打实体内链,则基于语义窗口对所述待确定实体所在的文本语料进行分段;判断每一分段中的待确定实体是否预测为实体,若每一分段中的待确定实体均未预测为实体,则将所述待确定实体的实体内链删除;将删除实体内链后的待确定实体所在的文本语料作为负文本语料,将预测为实体所在的语料作为正文本语料;提取同一实体的正文本语料、负文本语料、正文本语料的关键词以及负文本语料关键词;若删除后的待确定实体所在的文本语料中包含正文本语料的关键词,且不包含负文本预料的关键词,则将所述待确定实体所在的文本语料作为正文本语料;若删除后的待确实体所在的文本语料中包含负文本语料的关键词,则将所述待确定实体所在的文本语料作为负文本语料;在接收到新的文本语料时,基于校正后的实体识别模型对所述新的文本语料中的实体进行识别。
全文数据:
权利要求:
百度查询: 北京金堤征信服务有限公司 实体识别方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。