买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】医学语义匹配模型的训练方法、医学知识匹配方法及装置_广州金域医学检验中心有限公司;广州医科大学_202111136021.2 

申请/专利权人:广州金域医学检验中心有限公司;广州医科大学

申请日:2021-09-27

公开(公告)日:2024-04-09

公开(公告)号:CN113780006B

主分类号:G06F40/30

分类号:G06F40/30;G06F40/284;G06F18/214;G06F18/22

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2024.01.26#著录事项变更;2021.12.28#实质审查的生效;2021.12.10#公开

摘要:本发明公开了医学语义匹配模型的训练方法、医学知识匹配方法及装置,该方法包括:在模型训练过程中,使用医学领域的文本对预训练语言模型进行语义训练,得到医学语义分析模型。通过医学语义分析模型的编码器生成每个样本对的两个第一句子级语义向量,再计算转换得到的两个第一句子级语义向量间的相似度,根据第二损失函数计算第二损失值并调整医学语义分析模型中的参数,以得到医学语义匹配模型。在应用过程中,通过文本库建立向量化知识库,再根据需求自行选择需要的模型并结合向量化知识库来进行高精度的匹配或粗精度的匹配,最后基于匹配结果及向量化知识库内的索引完成对匹配结果的输出,这样用户就快速找对与待匹配文本相关联的医学知识。

主权项:1.一种医学语义匹配模型的训练方法,其特征在于,所述方法包括:获取第一文本知识库和预训练语言模型,对所述第一文本知识库的文本进行实体全词覆盖,得到语义训练样本;所述第一文本数据库的文本包括多个检测报告文本和知识条目,所述实体全词覆盖用于隐藏所述文本中的至少一个词汇;使用所述语义训练样本对所述预训练语言模型进行语义训练,以预测在所述语义训练样本的覆盖位置处的词汇补全结果,根据所述词汇补全结果和第一损失函数计算第一损失值,根据所述第一损失值调整所述预训练语言模型中的参数,得到训练后的医学语义分析模型,所述预训练语言模型包括编码器和第一输出层,所述编码器用于提取语义向量,所述第一输出层用于根据所述编码器输出的语义向量输出所述词汇补全结果;获取多个样本对,所述多个样本对包括正样本对和负样本对,一个正样本对包括一个检测报告和一个匹配的知识条目,一个负样本对包括一个检测报告和一个不匹配的知识条目;通过所述医学语义分析模型中的编码器生成每个样本对的两组词语级语义向量,对所述每个样本对的两组词语级语义向量进行降维,得到每个样本对的两个第一句子级语义向量;所述两组词语级语义向量包括检测报告对应的一组词语级语义向量和知识条目对应的一组词语级语义向量,一组词语级语义向量包括多个词语级语义向量,一个词语级语义向量为一个字对应的多维度语义向量;通过与所述医学语义分析模型中编码器连接的第二输出层计算所述每个样本对的两个第一句子级语义向量间的相似度,根据所述相似度和第二损失函数计算第二损失值,根据所述第二损失值调整所述医学语义分析模型中编码器和所述第二输出层的参数,以增大正样本对的两个第一句子级语义向量间的相似度,且减小负样本对的两个第一句子级语义向量间的相似度,以得到训练后的医学语义匹配模型。

全文数据:

权利要求:

百度查询: 广州金域医学检验中心有限公司;广州医科大学 医学语义匹配模型的训练方法、医学知识匹配方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。