【发明公布】一种基于内容的规则及文本分类三段式表字段推断方法_杭州古珀医疗科技有限公司_202311709523.9

申请/专利权人：杭州古珀医疗科技有限公司

申请日：2023-12-13

公开（公告）日：2024-04-16

公开（公告）号：CN117891941A

主分类号：G06F16/35

分类号：G06F16/35;G06N5/04;G16H10/60

优先权：

专利状态码：在审-公开

法律状态：2024.04.16#公开

摘要：本发明涉及一种推断方法，尤其涉及一种基于内容的规则及文本分类三段式表字段推断方法。主要通过以下三个阶段完成：阶段一：字段类型识别模块，利用字段内容确定字段可能类型，主要包括日期型、文本型、类别型、整型、浮点型、标志型及其他；阶段二：规则模块字段推断，主要从规则维度对一些存在规范的数据或存在逻辑可推断的字段进行推断，比如身份证号、电话号码及主键等；阶段三：算法模块字段推断，对于规则模块无法推断的文本型数据，将文本通过词嵌入技术转化为向量，进而进行文本分类，文本分类的结果即为推断结果。解决不同厂商多样化的表字段在集成时低效且容易出错的问题。

主权项：1.一种基于内容的规则及文本分类三段式表字段推断方法，其特征在于按以下步骤实现数据表字段自动推断：步骤一：收集一家医疗机构原始数据表，比如患者基本信息表，以下数据仅按照原格式随机生成：步骤二：医疗机构原始数据通常存在缺失、不规范及类型混乱相关问题，为了有效进行数据类型及后续表字段的推断识别，对表格中列数据进行如下处理：1、大小写统一、空格及无意义字符剔除；2、缺失值采用众数填充；步骤三：各字段数据类型识别，主要识别步骤如下：1、定义各字段类型，如下：①日期型：能被合理切分为年、月、日的字符串即认为是日期数据，记为D；②文本型：含有中文字符即认为是文本数据，记为T；③类别型：含有英文字母且不含中文字符及认为是类别数据，记为C；④整型：仅含0-9的阿拉伯数字即认为是整型数据，记为I；⑤浮点型：同时含有0-9的阿拉伯数字且仅含一位小数点即认为是浮点型数据，记为F；⑥标志型：仅含0、1或9数字即认为是标志型，记为G；⑦其他：无法归纳为上述任一种类型，记为O；2、统计各字段不同类型数据占比，记为：Di，Ti，Ci，Ii，Fi，Gi，Oi：Di，其中Di表示第i列日期型占比；Ti表示第i列文本型占比；Ci表示第i列类别型占比；Ii表示第i列整型占比；Fi表示第i列浮点型占比；Gi表示第i列标志型占比，Oi表示第i列其他类型占比；3、确定各字段数据类型，选择占比最大类型作为该列的数据类型，但以下情况需要进行类型修正或者数据修正：①Ii最大，但Fi大于一定阈值，阈值为10％，将该列数据类型修正为浮点型；②如果该列被识别为非文本型，但存在文本数据，则将文本数据修正为空值，以防影响后续表字段推断；经过步骤3字段类型识别，各表字段被识别情况如下：步骤四：规则维度表字段推断识别：1、基于业务规则的识别：对于COL_2、COL_3、COL_7、COL_8及COL_11这种相对规范的数据内容，从此维度进行，具体比如：①姓名：字符长度小于4且首个字符在百家姓字典中，当该字段满足此条件且超过一定阈值，阈值为80％，即被推断为姓名，COL_3即被推断为姓名；②身份证号：15位或者18位数字，最后一位可能是字符“X”且特定位置的数字符合年、月及日相关日期规范，当该字段满足此条件且超过一定阈值，阈值为80％，即被推断为身份证号，COL_2即被推断为身份证号；③邮政编码：字符长度为6位数字且在邮政编码字典中，当该字段满足此条件且超过一定阈值，阈值为80％，即被推断为邮政编码，COL_7即被推断为邮政编码；④联系号码：字符长度位7位或者11位数字组成且符合电话号码规范，当该字段中满足此条件且超过一定阈值，阈值为80％，即被推断为联系号码，COL_8即被推断为联系号码；⑤ICD10编码：字符由数字及字母组成且在ICD10编码字典中，当该字段中满足此条件且超过一定阈值，阈值为80％，即被推断为ICD10编码，COL_11即被推断为ICD10编码；2、基于逻辑规则的识别：①COL_4与COL_9都是日期类型的数据，在医疗机构数据中，日期类是患者的出生日期或者就诊日期；逻辑上，出生日期跨度较大且年份维度差异大，而就诊日期跨度较小，年份维度一般也就中在近10年；基于此，从逻辑上区分COL_4位出生日期，COL_9为就诊日期；另外利用COL_2列为身份证进一步确认COL_4是否为出生日期列；②COL_5为整型数据且分布在0-100范围，再加上COL_2身份证列验证，很容易推断为年龄；③COL_1中各数据值不相同且等于数据总行数，很容易推断为主键；经过上述规则模块推断，各表字段被推断识别情况如下：步骤五：算法维度表字段推断识别：算法推断表字段，涉及标签确定、专家标注、数据修正、特征工程、模型训练及测试相关步骤，最后使用训练好的模型进行表字段推断，详细步骤如下：1、标签确定：基于数据集成标准化后的数据，确定文本数据所有可能标签，记为{L1，L2，...，Li，...，LM}，其中Li标识第i个标签，M表示标签的数量；2、专家标注：收集部分原始数据，业务专家按照上述确定的M种标签对数据进行打标，为后续算法训练准备；3、数据修正：文本数据通常存在多义性，比如COL_10列中“妄想狂|跖骨骨折”及“过敏性肠炎+低血压”均表示多个诊断，为了提高算法推断准确率，需要将其原子化，分别拆分为“妄想症”、“跖骨骨折”和“过敏性肠炎”、“低血压”；4、特征工程构建：基于同业务专家沟通讨论，构建一些有利于表字段推断的特征，比如字符长度、关键词含量；5、模型构建及训练：①将文本数据通过词嵌入相关技术转化为词向量表示，选择word2vec；②词向量同上述特征工程构建的特征联合，为后续算法训练和测试做准备；③将上述数据按照一定比例，采用7：3，划分为训练集和测试集，前者用于模型训练，后者用于模型效果测试；④使用机器学习或者深度学习算法进行模型训练及调优，确定模型最终参数，选择fasttext；⑤使用测试集确定训练好模型效果，选择效果最优模型即可；6、模型预测①使用最终选择的模型进行文本数据的分类预测，预测结果记为Pij,其中i表示第i列数据，j表示{L1，L2，...，Li，...，LM}中第j个标签，即Lj；②选择当前列算法预测标签最多的作为当前列最终字段推断结果，COL_6被推断为“住址”，COL_10被推断为“ICD10诊断”；经过上述算法模块进一步推断，各表字段被推断识别情况如下： COL_1 COL_2 COL_3 COL4 COL_5 COL_6 COL_7 COL_8 COL_9 COL_10 COL_11 COL_12 COL_13 COL_14 主键身份证号姓名出生日期年龄住址邮政编码联系号码就诊日期 ICD10诊断 ICD10编码 F F G 对于COL_12及COL_13这种浮点型字段，仅从内容本身暂时无法给予一个较优的通用推断方法，需要基于业务知识进行个性化处理。

全文数据：

权利要求：

百度查询：杭州古珀医疗科技有限公司一种基于内容的规则及文本分类三段式表字段推断方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种勺式高精度防堵塞药剂计量添加装置_浙江威尔博环保科技有限公司_202322743530.2

下一篇：一种万寿菊用大型烘干机_丘北立达尔生物科技有限公司_202322498434.6

相关技术

一种勺式高精度防堵塞药剂计量添加装置_浙江威尔博环保科技有限公司_202322743530.2

一种万寿菊用大型烘干机_丘北立达尔生物科技有限公司_202322498434.6

电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

一种车载冰箱移动组件_一汽解放汽车有限公司_202322605238.4

一种园林绿化便携铲_马丽丽_202322375183.2

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

一种便携式放线架_高炜精密电子(东莞)有限公司_202322772571.4

一种机柜_珠海冠宇动力电源有限公司_202322495779.6

一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

一种纺织纱线缠绕架_江苏金銮纺织科技股份有限公司_202322120043.0

一种新型加湿器_莆田市必捷电子有限公司_202322599727.3

三段式相关技术

多段式UV固化装备_苏州市贝特利高分子材料股份有限公司_202322502821.2

基于三维激光扫描与BIM技术的节段梁预制施工监控方法_江苏科技大学_202011319373.7

一种多段折弯装置_昆山市福玛精密钣金有限公司_202322340778.4

用于无水段染色纱的装置_四川华智纤维有限公司_202322620727.7

一种纸巾加工用切段分割机_长沙秀峰纸业有限公司_202322637522.X

一种高校创业园区用多段式安全管理方法_黑龙江大学_202310334474.9

一种分段式杂质的废水处理设备_深圳三瑞节能环保科技有限公司_202322477051.0

一种直驱式三相永磁同步电动机_南京龙强机电科技有限公司_202322221561.1

一种新型的燃烧式三压蒸汽过热炉系统_四川川锅锅炉有限责任公司_202322616545.2

一种覆盖式三角形雾化喷淋器_内蒙古蒙草草种业有限公司_202322654371.9

分类相关技术

图像分类方法、图像分类模型的训练方法及装置_腾讯科技(深圳)有限公司_202210102561.7

账户分类模型训练方法及装置和账户分类方法及装置_百度在线网络技术(北京)有限公司_201910324589.3

一种分类筛沙机_孙锋_202322157347.4

一种基于细胞骨架图像定量分析的细胞图像分类方法及其分类器_上海大学_202111001522.X

一种能够快速分类的码垛装置_济南昊中智能科技有限公司_202322772854.9

文档分类方法、装置及电子设备_北京百度网讯科技有限公司_202110737169.5

广告分类评估方法、装置及存储介质_蓝色火焰科技成都有限公司_202410161898.4

包括自动特征检测和分类的检查工具_米沃奇电动工具公司_202280047516.4

一种石灰岩矿物质加工用矿石分类装置_淳安县元洋实业有限公司_202322168294.6

一种便于使用的分类档案管理柜_山西水利职业技术学院_202321858991.8

文本相关技术

基于深度学习的评论文本方面级情感分类方法及系统_上海哈蜂信息科技有限公司_202010776165.3

一种基于深度学习的文本生成图像学习方法_大连理工大学_202111183091.3

一种文本行图片的解码方法、装置和设备_北京有竹居网络技术有限公司_202110558943.6

基于宏微观特征的中文文本笔迹鉴别方法、装置及存储介质_大连海事大学_202011643169.0

文本意图识别方法、装置、设备和存储介质_平安科技(深圳)有限公司_202010033742.X

文本细粒度情感分类方法、系统、装置及存储介质_华南理工大学_202010560649.4

一种基于文本的实体识别方法及相关装置_广东工业大学_202010844442.X

一种相似文本内容的识别方法、装置及存储介质_广州腾讯科技有限公司_201810595368.5

文本检测方法、装置、计算机设备和存储介质_腾讯科技(深圳)有限公司_202011020108.9

基于注意力机制的幽默文本分类方法、装置、设备、介质_中国平安人寿保险股份有限公司_202111433978.3

龙图腾网&IPTOP

【发明公布】一种基于内容的规则及文本分类三段式表字段推断方法_杭州古珀医疗科技有限公司_202311709523.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务