买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于句子向量化的无监督选取医疗语料文本方法_华东理工大学_202110312164.8 

申请/专利权人:华东理工大学

申请日:2021-03-24

公开(公告)日:2024-03-15

公开(公告)号:CN113010681B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/289;G06F40/242;G06F16/31;G06F18/22;G16H70/00

优先权:

专利状态码:有效-授权

法律状态:2024.03.15#授权;2021.07.09#实质审查的生效;2021.06.22#公开

摘要:本发明提出了一种新的基于句子向量化的无监督选取医疗文本语料方法。该方法将原始文本预处理得到语料集;用结合医疗术语库的词典进行分词;分词结果输入W2V模型进行训练;计算得每句对应句向量;两两计算结果的余弦相似度,相似度高的成对文本,计算其词移距离,如果词移距离符合预设要求,则提升其"文本重要度",并把两文本的编号成对存入列表D;把"文本重要度"仍为0的句子的"RES"置1;从列表D中依次取出成对编号,将两者中"文本重要度"更大的句子的"RES"置2。随后遍历X,取出其中"RES"值不为0的文本即为所选文本。

主权项:1.一种基于句子向量化的无监督选取医疗文本语料方法,其特征在于,包括如下步骤:S1:获取原始语料文本,将原始文本预处理得到语料集,其中每句话对应一个列表Si,所有S合在一起作为数据集X,其中S的具体格式为:[文本编号,原文本,[[HEAD]一般文本[NUMS]一般文本[PUN][NULL]一般文本[END]],"SENTENCE2VEC","文本重要度","RES"]S2:利用结合医疗术语库的分词词典对文本进行分词,并把结果中出现的词构成的新的字典I的内容输入搭建的WORD2VEC模型进行训练;S3:对于每个列表Si,按照分词情况,把句中所有词对应的向量求和并取平均数,即为所述S的第四项"SENTENCE2VEC"结果,对所有的列表Si,两两计算其"SENTENCE2VEC"的余弦相似度,对于余弦相似度高的成对文本,使用两文本间的词嵌入,计算其中一文本中的单词在语义空间中移动到另一文本单词所需要的最短距离,称为词移距离,如果词移距离符合预设要求,则令两者Si1、Si2的第五项"文本重要度"提升,并把两文本的编号成对存储,作为列表D的一项;S4:遍历结束后,把X中所有"文本重要度"仍为初始值的S的末项"RES"置1,作为"独特文本"而选中,并从列表D中依次取出成对编号,将两者中"文本重要度"更大的S的末项置2,作为"重要文本"而选中,随后遍历X,取出其中"RES"值不为0的文本即为所选文本;所述步骤S1中,文本预处理方法包括如下步骤:S11:对于原始医疗文本,首先按照标点符号进行分句,并对文本长度过短以及不包含中文的句子进行直接剔除;S12:对于每句文本分别进行预处理,将数字串替换为[NUMS]项,英文串替换为[NULL],标点符号替换为[PUN],并在句首句尾加入[HEAD]、[END]标签,得到初步处理的文本;S13:对于每句文本,创建一个列表Si,每个Si都由六个部分构成,其中第一部分为文本编号,作为此句文本的唯一标识符,第二部分为原文本,第三部分是S12中所得的初步处理的文本,第四部分为"SENTENCE2VEC"句子向量化的结果,第五部分为文本重要度,作为重复率较大的两句话的选取标准,第六部分为"RES",表示此句文本是否被最终选取;S14:将所得到的所有Si存储作为数据集X。

全文数据:

权利要求:

百度查询: 华东理工大学 一种基于句子向量化的无监督选取医疗语料文本方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。