买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种临床实验数据单位分析方法_广东杰纳医药科技有限公司_202310971463.1 

申请/专利权人:广东杰纳医药科技有限公司

申请日:2023-08-03

公开(公告)日:2024-03-19

公开(公告)号:CN116682519B

主分类号:G16H10/20

分类号:G16H10/20;G06F40/18;G06F40/289;G16H10/40;G06F16/33;G06F16/35

优先权:

专利状态码:有效-授权

法律状态:2024.03.19#授权;2024.03.12#著录事项变更;2023.09.19#实质审查的生效;2023.09.01#公开

摘要:本发明公开一种临床实验数据单位分析方法,提出一套统一的,标准化的临床试验实验室检查基本单位体系,以及标准化的单位表达式,用于统一描述不同的试验中心的检测结果单位,提出了一系列标准分析步骤,能够准确的将杂乱的原始单位转换为基本单位组合。本发明通过将单位量纲,单位词头与单位中的内嵌数字等元素分开,将原始单位拆解为一系列更为简单的元素判别问题,并且在单位判别过程中引入LLM模型,恰当的设计了LLM模型的提示语,使得单位判别更为准确与快速。

主权项:1.一种临床实验数据单位分析方法,其特征在于,包括以下步骤:S1:获取待处理的原始数据表格,所述原始数据表格包括临床实验数据;S2:根据所述待处理的原始数据表格,获取原始单位、检查分类标准化编码与检查项标准编码;S3:根据所述检查分类标准化编码、检查项标准编码和原始单位,将临床实验数据进行分类,并收集典型值;S4:将所述检查分类标准化编码、检查项标准编码、原始单位和典型值输入至预训练的模型中,模型输出对原始单位的分词结果;S5:逐一判别所述分词结果归属的基础单位类别或词头类别,以及附带的数字;S6:将词头与附带的数字合并为系数,将基础单位类别按预制的转换系数表转换成标准基础单位;S7:检测与合并单位中的相同项,形成基本单位的组合;步骤S3中收集典型值,具体为:若临床试验数据的参考值下限、参考值上限和检测值为数值型,则将参考值下限、参考值上限、检测值中距均值最近的值和检测均值加减3倍标准差的值附近的实测值,作为典型值集合;若临床试验数据的参考值下限、参考值上限和检测值为字符型,则将参考值下限、参考值上限、检测值的取值按出现频率取前两个与最后一个,合并起来作为典型值集合;步骤S4中,使用逆序N-gram分词模型对输入进行分词,获得分词概率图,使用分类编码、检查项编码、典型值和位于分子分母修正的额外信息修正所述分词概率图中的概率信息,最后使用N-最短路径分词算法获得最终的分词结果,所述逆序N-gram分词模型是从整条数据的最后一个字符开始,逐渐往前计算各个字符归属于某个特定组合的概率的算法,所述逆序N-gram分词模型由历史上的临床试验数据训练得到;步骤S5中,通过词库查找结合LLM询问,判别所述分词结果归属的基础单位类别或词头类别;所述通过词库查找结合LLM询问,具体为:每种检查项均有两个独立的词库,为分子词库和分母词库,分子词库和分母词库由历史数据积累得到,区分分子词库与分母词库考虑在同一个检查项中,同一个符号出现在分子或分母中;在判别所述分词结果归属的基础单位类别或词头类别时,根据原始单位所处的位置决定从分子词库还是分母词库里查找;若在词库中无法查到某个词时,使用LLM来判断单位。

全文数据:

权利要求:

百度查询: 广东杰纳医药科技有限公司 一种临床实验数据单位分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。