买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于内容的规则及文本分类三段式表字段推断方法_杭州古珀医疗科技有限公司_202311709523.9 

申请/专利权人:杭州古珀医疗科技有限公司

申请日:2023-12-13

公开(公告)日:2024-04-16

公开(公告)号:CN117891941A

主分类号:G06F16/35

分类号:G06F16/35;G06N5/04;G16H10/60

优先权:

专利状态码:在审-公开

法律状态:2024.04.16#公开

摘要:本发明涉及一种推断方法,尤其涉及一种基于内容的规则及文本分类三段式表字段推断方法。主要通过以下三个阶段完成:阶段一:字段类型识别模块,利用字段内容确定字段可能类型,主要包括日期型、文本型、类别型、整型、浮点型、标志型及其他;阶段二:规则模块字段推断,主要从规则维度对一些存在规范的数据或存在逻辑可推断的字段进行推断,比如身份证号、电话号码及主键等;阶段三:算法模块字段推断,对于规则模块无法推断的文本型数据,将文本通过词嵌入技术转化为向量,进而进行文本分类,文本分类的结果即为推断结果。解决不同厂商多样化的表字段在集成时低效且容易出错的问题。

主权项:1.一种基于内容的规则及文本分类三段式表字段推断方法,其特征在于按以下步骤实现数据表字段自动推断:步骤一:收集一家医疗机构原始数据表,比如患者基本信息表,以下数据仅按照原格式随机生成: 步骤二:医疗机构原始数据通常存在缺失、不规范及类型混乱相关问题,为了有效进行数据类型及后续表字段的推断识别,对表格中列数据进行如下处理:1、大小写统一、空格及无意义字符剔除;2、缺失值采用众数填充;步骤三:各字段数据类型识别,主要识别步骤如下:1、定义各字段类型,如下:①日期型:能被合理切分为年、月、日的字符串即认为是日期数据,记为D;②文本型:含有中文字符即认为是文本数据,记为T;③类别型:含有英文字母且不含中文字符及认为是类别数据,记为C;④整型:仅含0-9的阿拉伯数字即认为是整型数据,记为I;⑤浮点型:同时含有0-9的阿拉伯数字且仅含一位小数点即认为是浮点型数据,记为F;⑥标志型:仅含0、1或9数字即认为是标志型,记为G;⑦其他:无法归纳为上述任一种类型,记为O;2、统计各字段不同类型数据占比,记为:Di,Ti,Ci,Ii,Fi,Gi,Oi:Di,其中Di表示第i列日期型占比;Ti表示第i列文本型占比;Ci表示第i列类别型占比;Ii表示第i列整型占比;Fi表示第i列浮点型占比;Gi表示第i列标志型占比,Oi表示第i列其他类型占比;3、确定各字段数据类型,选择占比最大类型作为该列的数据类型,但以下情况需要进行类型修正或者数据修正:①Ii最大,但Fi大于一定阈值,阈值为10%,将该列数据类型修正为浮点型;②如果该列被识别为非文本型,但存在文本数据,则将文本数据修正为空值,以防影响后续表字段推断;经过步骤3字段类型识别,各表字段被识别情况如下: 步骤四:规则维度表字段推断识别:1、基于业务规则的识别:对于COL_2、COL_3、COL_7、COL_8及COL_11这种相对规范的数据内容,从此维度进行,具体比如:①姓名:字符长度小于4且首个字符在百家姓字典中,当该字段满足此条件且超过一定阈值,阈值为80%,即被推断为姓名,COL_3即被推断为姓名;②身份证号:15位或者18位数字,最后一位可能是字符“X”且特定位置的数字符合年、月及日相关日期规范,当该字段满足此条件且超过一定阈值,阈值为80%,即被推断为身份证号,COL_2即被推断为身份证号;③邮政编码:字符长度为6位数字且在邮政编码字典中,当该字段满足此条件且超过一定阈值,阈值为80%,即被推断为邮政编码,COL_7即被推断为邮政编码;④联系号码:字符长度位7位或者11位数字组成且符合电话号码规范,当该字段中满足此条件且超过一定阈值,阈值为80%,即被推断为联系号码,COL_8即被推断为联系号码;⑤ICD10编码:字符由数字及字母组成且在ICD10编码字典中,当该字段中满足此条件且超过一定阈值,阈值为80%,即被推断为ICD10编码,COL_11即被推断为ICD10编码;2、基于逻辑规则的识别:①COL_4与COL_9都是日期类型的数据,在医疗机构数据中,日期类是患者的出生日期或者就诊日期;逻辑上,出生日期跨度较大且年份维度差异大,而就诊日期跨度较小,年份维度一般也就中在近10年;基于此,从逻辑上区分COL_4位出生日期,COL_9为就诊日期;另外利用COL_2列为身份证进一步确认COL_4是否为出生日期列;②COL_5为整型数据且分布在0-100范围,再加上COL_2身份证列验证,很容易推断为年龄;③COL_1中各数据值不相同且等于数据总行数,很容易推断为主键;经过上述规则模块推断,各表字段被推断识别情况如下: 步骤五:算法维度表字段推断识别:算法推断表字段,涉及标签确定、专家标注、数据修正、特征工程、模型训练及测试相关步骤,最后使用训练好的模型进行表字段推断,详细步骤如下:1、标签确定:基于数据集成标准化后的数据,确定文本数据所有可能标签,记为{L1,L2,...,Li,...,LM},其中Li标识第i个标签,M表示标签的数量;2、专家标注:收集部分原始数据,业务专家按照上述确定的M种标签对数据进行打标,为后续算法训练准备;3、数据修正:文本数据通常存在多义性,比如COL_10列中“妄想狂|跖骨骨折”及“过敏性肠炎+低血压”均表示多个诊断,为了提高算法推断准确率,需要将其原子化,分别拆分为“妄想症”、“跖骨骨折”和“过敏性肠炎”、“低血压”;4、特征工程构建:基于同业务专家沟通讨论,构建一些有利于表字段推断的特征,比如字符长度、关键词含量;5、模型构建及训练:①将文本数据通过词嵌入相关技术转化为词向量表示,选择word2vec;②词向量同上述特征工程构建的特征联合,为后续算法训练和测试做准备;③将上述数据按照一定比例,采用7:3,划分为训练集和测试集,前者用于模型训练,后者用于模型效果测试;④使用机器学习或者深度学习算法进行模型训练及调优,确定模型最终参数,选择fasttext;⑤使用测试集确定训练好模型效果,选择效果最优模型即可;6、模型预测①使用最终选择的模型进行文本数据的分类预测,预测结果记为Pij,其中i表示第i列数据,j表示{L1,L2,...,Li,...,LM}中第j个标签,即Lj;②选择当前列算法预测标签最多的作为当前列最终字段推断结果,COL_6被推断为“住址”,COL_10被推断为“ICD10诊断”;经过上述算法模块进一步推断,各表字段被推断识别情况如下: COL_1 COL_2 COL_3 COL4 COL_5 COL_6 COL_7 COL_8 COL_9 COL_10 COL_11 COL_12 COL_13 COL_14 主键 身份证号 姓名 出生日期 年龄 住址 邮政编码 联系号码 就诊日期 ICD10诊断 ICD10编码 F F G 对于COL_12及COL_13这种浮点型字段,仅从内容本身暂时无法给予一个较优的通用推断方法,需要基于业务知识进行个性化处理。

全文数据:

权利要求:

百度查询: 杭州古珀医疗科技有限公司 一种基于内容的规则及文本分类三段式表字段推断方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。