申请/专利权人:大连大学
申请日:2023-01-13
公开(公告)日:2023-05-12
公开(公告)号:CN116108848A
主分类号:G06F40/295
分类号:G06F40/295;G06F40/242;G16H50/70;G06N3/045;G06N3/09
优先权:
专利状态码:在审-实质审查的生效
法律状态:2023.05.30#实质审查的生效;2023.05.12#公开
摘要:本发明公开了一种基于文本语序和多任务学习的医学命名实体识别方法,步骤1:爬取医学新闻中的生物医学文本;步骤2:使用PubMed数据库中的医学名词字典数据,标注生物医学文本;步骤3:使用PubMedBERT最后四层权重输出的求和平均值作为词嵌入表示;步骤4:将词嵌入送入BOAT模型,使模型感知上下文信息;步骤5:分别预测单词的序列标签和实体的头尾标签;步骤6:对比所述序列标注分类器和头尾指针分类器的分类结果与真实标签的差异,得到损失值,以此训练PubMedBERT模型及BOAT模型;步骤7:将待预测的文本传入模型判断其存在的医学实体。本方法可以取得很好的实体识别效果,并极大的提升了实体识别速度,帮助医学研究人员快速阅读医学新闻,辅助医学研究工作。
主权项:1.一种基于文本语序和多任务学习的医学命名实体识别方法,其特征在于,包括:步骤1:爬取医学新闻中的生物医学文本,对包含多种类别医学命名实体数据进行预处理;步骤2:基于doccano标注工具以及正则查找方式,使用PubMed数据库中的医学名词字典数据,标注生物医学文本,并按单词整理成Begin、Inside、Other序列格式;步骤3:将单词数据送入PubMedBERT预训练模型中,使用PubMedBERT最后四层权重输出的求和平均值作为词嵌入表示,提取出单词在泛文本中的特征;步骤4:将词嵌入送入BOAT模型,使模型感知上下文信息,提取出单词间的关联特征;步骤5:将提取到的关联特征同时送入序列标注分类器和头尾指针分类器中,分别预测单词的序列标签和实体的头尾标签;步骤6:对比所述序列标注分类器和头尾指针分类器的分类结果与真实标签的差异,得到损失值,以此训练PubMedBERT模型及BOAT模型,并保存效果最佳的模型;步骤7:加载训练完成的模型,将待预测的文本传入模型判断其存在的医学实体。
全文数据:
权利要求:
百度查询: 大连大学 一种基于文本语序和多任务学习的医学命名实体识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。