买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于BERT的食物、中草药成分与疾病、症状的关系提取方法_大连东软信息学院_202410113410.0 

申请/专利权人:大连东软信息学院

申请日:2024-01-26

公开(公告)日:2024-04-05

公开(公告)号:CN117831707A

主分类号:G16H20/10

分类号:G16H20/10;G16H20/60;G16H70/40;G06F40/295;G06F40/194;G06F40/30;G06F18/214;G06N3/096

优先权:

专利状态码:在审-公开

法律状态:2024.04.05#公开

摘要:本发明公开了一种基于BERT的食物、中草药成分与疾病、症状的关系提取方法,通过将实体标签标注的非结构化文本数据对搭建的BERT+CRF模型进行模型训练获取实体识别的BertNER模型,增加了在对实体训练和识别过程中精度,提高了识别效果;根据实体识别的BertNER模型对数据清洗后的论文集进行实体识别,并对初始实体关系提取数据集中的实体进行掩码处理并保存;采用BioBert模型对掩码处理后的数据集进行训练,以获取实体关系提取RE模型实现食物、中草药成分与疾病、症状的实体关系预测,并对预测数据进行数据后处理获得最终的实体关系提取数据集,实现了数据集的预标注,弥补了该任务缺乏注释数据的不足,为未来在没有专家对数据标注的情况下自动提取实体关系提供了有效方法。

主权项:1.一种基于BERT的食物、中草药成分与疾病、症状的关系提取方法,其特征在于,包括以下步骤:S1:获取食物、中草药以及疫病症状的非结构化文本数据,并根据所述非结构化文本数据进行实体标签标注,将实体标签标注的非结构化文本数据作为搭建的BERT+CRF模型的输入,进行模型训练以获取实体识别的BertNER模型;所述实体标签包括疾病、症状、食物、药物成分、人群以及生理特征;S2:将知网上关于慢性病与饮食相关的论文集经过下载转成文本格式,并对文本格式的论文进行数据清洗,获取NER数据集;根据所述实体识别的BertNER模型对NER数据集进行实体识别,获取NER数据集中各论文中的实体,并经过人工标注各实体之间的关系,以获取初始实体关系提取数据集;S3:对所述初始实体关系提取数据集中的实体进行掩码处理并保存,以获取优化关系提取数据集REtrain;将所述优化关系提取数据集REtrain划分为实体关系训练集与实体关系评估集;采用BioBert模型对实体关系训练集与实体关系评估集进行模型训练,以重构BioBert模型参数获取实体关系提取RE模型;S4:通过获取的实体关系提取RE模型进行实体关系预测,并对所述预测数据进行数据后处理,以获取最终的实体关系提取数据集。

全文数据:

权利要求:

百度查询: 大连东软信息学院 基于BERT的食物、中草药成分与疾病、症状的关系提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。