【发明授权】基于日志反馈的中文医学术语自适应对齐方法_广州中康数字科技有限公司_202310647595.9

申请/专利权人：广州中康数字科技有限公司

申请日：2023-06-01

公开（公告）日：2024-04-23

公开（公告）号：CN116680377B

主分类号：G06F16/332

分类号：G06F16/332;G06F16/33;G06F11/30;G06F11/34;G06F40/40;G06F16/23;G06F18/24;G06F18/22;G06N3/0895;G06N3/084;G06F40/30

优先权：

专利状态码：有效-授权

法律状态：2024.04.23#授权;2023.09.19#实质审查的生效;2023.09.01#公开

摘要：本发明公开了一种基于日志反馈的中文医学术语自适应对齐方法，基于日志反馈、弱监督和对比学习实现，通过记录客户端的操作日志，分析日志中的动作过程，识别并抽取医学术语，打通医学术语并分拆概念子图，从而实现自动构建训练样本，并进行自学习和自动索引，从而可随着下游的业务系统的日志数据的接入进行自我学习与自我提升，然后把自学习好的模型再服务于下游系统，通过全流程的闭环来实现术语对齐的自动化和高效性。

主权项：1.一种基于日志反馈的中文医学术语自适应对齐方法，其特征在于，具体包括如下步骤：S1、收集开放的医学术语资源，进行医学术语初始化，构建初始的医学术语样本，训练得到中文医学术语对齐模型；S2、用户可通过客户端输入查询的医学术语；然后应用服务器通过术语服务器的中文医学术语对齐模型检索查询词相关的概念编码，并返回候选概念编码序列，此时用户在客户端对候选的概念编码进行选择并提交；应用服务器的日志系统对用户的查询操作进行记录得到用户的操作日志数据，并得到应用服务器由此产生的事务日志数据，然后将用户的操作日志数据和应用服务器的事务日志数据反馈到术语服务器的日志仓库；S3、日志仓库将应用服务器反馈的日志数据通过弱监督进行学习，得到高质量训练样本；术语服务器利用得到的训练样本对中文医学术语对齐模型基于对比学习进行训练，训练得到的中文医学术语对齐模型持续为应用服务器提供服务：S3.1、定义样本格式：首先把日志数据的结构转换成术语1，术语2，{1，－1}的形式，每一个样本都包含一个术语对；具体转换规则为：1查询的医学术语与选择集对应的术语构建成正样本；2从候选集对应的术语中去除选择集所对应的术语得到去重术语集，将查询的医学术语与去重术语集中的术语构建成负样本；S3.2、定义与建立学习模型：在步骤S3.1中根据两个规则生成的正样本集和负样本集中，删除频率小于3的样本，最终得到样本集S，日志来源个数为M，总样本数据量为N；样本标注矩阵为A∈{-1,1}N*2M+|C|，C表示任意日志来源i，k的两两组合的抽样，表示日志来源的相关情况，样本的真实标签为Y∈{-1，1}N为隐变量；把多来源标注与真实标注的关系定义为概率图模型的因子图模型，记为PθA，Y，定义三个因子式为：式1生成的标签矩阵记为式2生成的正确度矩阵记为式3生成的相关矩阵记为具体地，定义的元素表示样本xi来源于j源头的日志数据，如果存在术语相似，则否则对于的元素如果标注样本的标注标签与真实一致，则否则对于的元素如果样本xi在来源j与来源k相同，则否则故合并三个因子可以得到综上，所以合并后的因子表达式记为学习模型定义为：其中，表示概率分布的权重；S3.3、学习模型训练：对于包含的隐变量Y的学习模型PθA，Y，根据日志标注标签可见的矩阵A，最小化负对数边际似然：求解与优化问题，采用梯度下降的方法，具体为Gibbs采样算法，采用斯坦福的Snorkel工具包求解，把学习后参数记为θ*；S3.4、由步骤S3.3得到学习模型的参数θ*，得到训练后的学习模型即S3.5、通过学习模型学习，对多来源样本的含噪声的标注进行了融合，得到一个软标注分布，会生成软标注的术语对样本集Xsoft；设定过滤标注阈值αα≥0.95，对Xsoft进行过滤得到术语对样本集Xhard，构建概念图：B1、对于术语对样本集Xhard，以术语作为概念图的节点，以术语对构成两节点的边，构建成了概念子图Gsample，此时的术语集合为Term_setsample；B2、基于UMLS先验库，概念编码CUI为单位，取术语集合Term_setumls，取Ti∈Term_setumls创建节点，其中节点可以中文术语或英文术语，所有的术语构建成节点集合，并对同一CUI术语集合中的节点两两用边连接起来构成一个个独立的概念子图GUMLS；B3、按构建GUMLS的过程，构建其它的术语库的概念子图Gx；B4、基于相同节点术语和多个概念子图，得到概念图G：同理，全体医学术语集合表示为： B5、对于图G，分拆出独立连通子图，每个连通子图定义为概念子图获取过程采用python的第三方包networkx的connected＿components方法进行计算，形式表示为：对每个给予唯一的全局概念编码来表示，称为概念编码，记为获取对应的子图中的节点术语，并构建的医学术语语义等价集全量术语等价集记为SC；统一概念编码后，同时得到与公开源术语库的术语映射关系列表gid2cid＿list；对Term_set的医学术语进行自动编号，带编号的医学术语集记为Term_set'，编码号字段记为tid，同时得到与Term_set'的术语映射关系列表tid2gid＿list。

全文数据：

权利要求：

百度查询：广州中康数字科技有限公司基于日志反馈的中文医学术语自适应对齐方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

下一篇：一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

相关技术

一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

再生废液处理系统_山东荣信集团有限公司_202322260404.1

电子设备_深圳市嘉晋实业有限公司_202322601396.2

一种纺织纱线缠绕架_江苏金銮纺织科技股份有限公司_202322120043.0

一种园林绿化便携铲_马丽丽_202322375183.2

一种对氟甲苯制备用精馏设备_湖北联昌新材料有限公司_202322580010.4

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

一种散热户外路灯灯头_中山市澳斯朗电控科技有限公司_202322819842.7

一种机床零件用抛光装置_杭州盈动达精密机械有限公司_202322717477.9

一种便携式放线架_高炜精密电子(东莞)有限公司_202322772571.4

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

医学相关技术

医学图像处理方法、装置、设备及存储介质_深圳市联影高端医疗装备创新研究院_202011634546.4

一种医学用药品混合装置_西安朗格生物科技有限公司_202211292464.5

计算机断层摄影设备和医学成像系统_西门子医疗有限公司_202321643818.6

一种多模态信息指导的医学图像分割系统及图像处理方法_山东大学_202111524363.1

标注医学切片图像的方法、装置、存储介质及电子设备_沈阳东软智能医疗科技研究院有限公司_202110739373.0

脑部医学影像异常检测方法、装置、设备及存储介质_清华大学_202110401742.5

一种基于生成式对抗网络的多模态医学图像合成方法_天津大学_202111465819.1

一种医学检验科检验液振荡装置_张裕珍_202322517444.X

多模态异构的医学数据处理方法及相关装置_上海联影智能医疗科技有限公司_202110485389.3

一种医学设备部件调试系统、装置、方法及电子设备_武汉联影生命科学仪器有限公司_202111194154.5

术语相关技术

机器翻译译后的术语翻译方法、装置、设备及存储介质_北京中科凡语科技有限公司_202110938432.7

一种标准术语确定方法、装置及存储介质_腾讯科技(深圳)有限公司_202010945776.6

领域术语层次关系的确定方法、装置_南京大学_202110014913.9

一种中医疾病术语在古籍文献中溯源的量化分析方法及系统_上海中医药大学_202311669198.8

一种航空术语的语义识别与检索系统及方法_上海航空工业(集团)有限公司_202311855229.9

一种基于关键术语库引导的特定领域文本自动摘要方法_电子科技大学_202310593800.8

医学术语关联方法、装置、电子设备及存储介质_讯飞医疗科技股份有限公司_202311222699.1

基于表型术语和变异基因的数据分析装置、介质和设备_广州金域医学检验中心有限公司_202310116429.6

棋类术语演示方法、装置、设备及存储介质_安徽淘云科技股份有限公司_202311693685.8

一种基于大语言模型的多层级译文术语干预方法_甲骨易(北京)语言科技股份有限公司_202311751658.1

中文相关技术

基于宏微观特征的中文文本笔迹鉴别方法、装置及存储介质_大连海事大学_202011643169.0

基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质_公安部第三研究所_202111528511.7

一种改进中文自动文本摘要自注意力计算的方法_北京工业大学_202011226337.6

基于多模态地理文本预训练的中文地址解析方法及系统_以萨技术股份有限公司_202410093592.X

一种中文民航空中交通管制语音识别方法及系统_厦门大学_202110467893.0

一种基于C++语言的混合型中文文本分词方法_山谷网安科技股份有限公司_202110077065.6

基于AI PaaS平台的中文文本向量化模型的交互数据管理系统_知学云(北京)科技股份有限公司_202410070601.3

一种中文作文AI句评流水线输出方法、装置及存储介质_北京和气聚力教育科技有限公司_202410294625.7

中文教学用挂板_哈尔滨信息工程学院_202321742796.9

基于视觉Transformer的中文文本识别方法_中国人民解放军国防科技大学_202410005609.1

龙图腾网&IPTOP

【发明授权】基于日志反馈的中文医学术语自适应对齐方法_广州中康数字科技有限公司_202310647595.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务