买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】面向医疗领域的跨表数据生成方法_复旦大学_202311856146.1 

申请/专利权人:复旦大学

申请日:2023-12-29

公开(公告)日:2024-03-19

公开(公告)号:CN117727413A

主分类号:G16H10/60

分类号:G16H10/60;G06N20/00;G06N3/096;G06F40/295

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.05#实质审查的生效;2024.03.19#公开

摘要:本发明提供了一种面向医疗领域的跨表数据生成方法,具有这样的特征,包括以下步骤:步骤S1,根据现有的非结构化的包含少量文档的医学数据集构建结构化的包含大量数据的合成医学数据集;步骤S2,根据合成医学数据集对现有的医学大语言模型依次进行联邦学习和特定训练,得到特定医学大语言模型;步骤S3,将目标疾病基础信息输入特定医学大语言模型,得到目标疾病生化指标。总之,本方法能够对跨表的目标疾病基础信息进行有效处理,生成与真实特征相一致的目标疾病生化指标。

主权项:1.一种面向医疗领域的跨表数据生成方法,用于根据目标疾病基本信息得到对应的目标疾病生化指标,其特征在于,包括以下步骤:步骤S1,根据现有的非结构化的包含少量文档的医学数据集构建结构化的包含大量数据的合成医学数据集;步骤S2,根据所述合成医学数据集对现有的医学大语言模型依次进行联邦学习和特定训练,得到特定医学大语言模型;步骤S3,将所述目标疾病基础信息输入所述特定医学大语言模型,得到所述目标疾病生化指标,其中,所述步骤S1包括以下子步骤:步骤S1-1,根据医学术语框架对各个所述文档进行信息提取,得到多条记录作为结构化数据集T,所述记录包含病人的基本信息和对应的生化指标;步骤S1-2,根据疾病系统将所述结构化数据集T划分为对应不同特定疾病系统的多个子集作为特定疾病系统子集;步骤S1-3,对各个所述特定疾病系统子集,将该特定疾病系统子集中各个所述基本信息分别输入对应的训练好的变分自编码器,得到对应的合成基本信息;步骤S1-4,通过计算所述合成基本信息中各个实体的加权平均位置,对所有所述实体进行排序调整,得到对应的增强合成基本信息;步骤S1-5,对各个所述特定疾病系统子集,将该特定疾病系统子集中各个所述增强合成基本信息分别输入对应的训练好的自回归语言模型,得到对应的合成生化指标;步骤S1-6,将各个所述增强合成基本信息和对应的所述合成生化指标作为合成记录,并将所有所述合成记录加入到对应的所述特定疾病系统子集,得到新的所述结构化数据集T作为所述合成医学数据集。

全文数据:

权利要求:

百度查询: 复旦大学 面向医疗领域的跨表数据生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。