申请/专利权人:杭州电子科技大学
申请日:2023-08-14
公开(公告)日:2023-12-22
公开(公告)号:CN117272997A
主分类号:G06F40/295
分类号:G06F40/295;G06F40/242;G06N3/0455;G06N3/0895
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.01.09#实质审查的生效;2023.12.22#公开
摘要:本发明公开了一种基于词典的文本蕴含式生物医学命名实体识别方法,该法首先从词典中收集包含实体名称和实体类型的实体词典,作为真实标签。其次对输入的句子构建对应的文本蕴含对,并通过设定负样本例正样本例的比率以控制负蕴含对的采样数量。然后构建蕴含编码器,对输入的蕴含对进行编码,并结合动态对比学习方法进行模型训练。最后预测输入的语句时,模型将所有正的蕴含对识别为实体,如果有子序列具有多个不同实体类型的正蕴含对,则把相似度最高的标签作为最终标签。本发明可以在没有完整标注的情况下缓解噪声标签问题,能从预训练的文本蕴含模型中迁移知识,并对命名实体进行精确的识别。
主权项:1.一种基于词典的文本蕴含式生物医学命名实体识别方法,其特征在于,包括以下步骤:步骤一,从词典中收集包含实体名称和实体类型的实体词典,作为真实标签,获得弱监督;步骤二,对输入的句子构建对应的文本蕴含对;步骤三,使用RoBERTa模型对输入的文本蕴含对进行编码,RoBERTa模型的每个Transformer编码器层都包含了横跨整个输入句子的双向注意力;步骤四,将文本蕴含与动态对比学习算法相结合,对零样本生物医学命名实体识别任务进行RoBERTa模型训练;步骤五,预测输入的语句时,模型将所有正的文本蕴含对识别为实体,如果有子序列具有多个不同实体类型的正文本蕴含对,则把相似度最高的标签作为最终标签,完成识别。
全文数据:
权利要求:
百度查询: 杭州电子科技大学 一种基于词典的文本蕴含式生物医学命名实体识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。