买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种跨病种迁移时病种数据结构化的方法及系统_神州医疗科技股份有限公司_202410221624.X 

申请/专利权人:神州医疗科技股份有限公司

申请日:2024-02-28

公开(公告)日:2024-04-02

公开(公告)号:CN117809792A

主分类号:G16H10/60

分类号:G16H10/60;G06F16/31;G06F16/35;G06N3/0455;G06N3/08

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.19#实质审查的生效;2024.04.02#公开

摘要:本发明涉及一种跨病种迁移时病种数据结构化的方法及系统;该方法包括:S1、构建问题库;S2、输出目标病种BERT语言模型和其它病种BERT语言模型;S3、过滤出目标病种句;S4、将目标病种句输入至目标病种BERT语言模型中,输出目标病种句向量;S5、得到目标病种已标注语料;S6、构造训练数据,将训练数据输入至初始分类模型中进行训练,得到训练分类模型;S7、得到目标病种结构化数据。本发明通过设置问题库,将病历和问题库结合输入至训练分类模型中,根据训练分类模型中的预测结果来提供结构化信息,从而得到较为精确和一致的病历数据整合结果,通过小批量样本标注以实现大批量样本标注的技术效果,能够满足跨病种迁移时的需求。

主权项:1.一种跨病种迁移时病种数据结构化的方法,其特征在于,包括:S1、获取原始病历文本集,将原始病历文本集中包含的原始病历文本进行拆分和标注,得到是否型的标注数据,基于标注数据,构建问题库;S2、从原始病历文本集中获取目标病种原始病历文本集和其它病种原始病历文本集,将目标病种原始病历文本集和其它病种原始病历文本集分别进行预处理,分别得到目标病种原始文本训练集和其它病种原始文本训练集,采用目标病种原始文本训练集和其它病种原始文本训练集分别对BERT语言模型进行训练,分别输出目标病种BERT语言模型和其它病种BERT语言模型;S3、获取目标病种病历文本,将目标病种病历文本进行预处理,得到预处理后的目标病种文本,将目标病种文本进行拆分,得到拆分子句,将拆分子句作为输入值分别输入至目标病种BERT语言模型和其它病种BERT语言模型中计算PPL,得到目标病种PPL和其它病种PPL,计算目标病种PPL和其它病种PPL之间的PPL差值,并与预设的PPL差值阈值进行比较,过滤出目标病种句;S4、将目标病种句输入至目标病种BERT语言模型中,输出目标病种句向量;S5、将目标病种句向量进行文本聚类,得到不同类别的目标病种待标注语料集,在每个类别中随机抽取预设数量的目标病种待标注语料,对目标病种待标注语料进行标注,得到目标病种已标注语料;S6、基于目标病种已标注语料以及利用权重样本比算法筛选出的其它病种的标注数据,构造训练数据,将训练数据输入至初始分类模型中进行训练,得到训练分类模型;S7、将目标病种文本和问题库中的标注数据分别输入至训练分类模型中,分别得到目标病种文本向量和问题向量,将目标病种文本向量和问题向量进行余弦相似度计算,召回分数超过预设阈值的问题,并将问题输入至训练分类模型中进行判断并输出01型的结构化结果,根据预设格式进行格式化输出,得到目标病种结构化数据。

全文数据:

权利要求:

百度查询: 神州医疗科技股份有限公司 一种跨病种迁移时病种数据结构化的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。