【发明授权】一种基于句子向量化的无监督选取医疗语料文本方法_华东理工大学_202110312164.8

导航：龙图腾网> 最新专利技术> 一种基于句子向量化的无监督选取医疗语料文本方法_华东理工大学_202110312164.8

申请/专利权人：华东理工大学

申请日：2021-03-24

公开（公告）日：2024-03-15

公开（公告）号：CN113010681B

主分类号：G06F16/35

分类号：G06F16/35;G06F40/289;G06F40/242;G06F16/31;G06F18/22;G16H70/00

优先权：

专利状态码：有效-授权

法律状态：2024.03.15#授权;2021.07.09#实质审查的生效;2021.06.22#公开

摘要：本发明提出了一种新的基于句子向量化的无监督选取医疗文本语料方法。该方法将原始文本预处理得到语料集；用结合医疗术语库的词典进行分词；分词结果输入W2V模型进行训练；计算得每句对应句向量；两两计算结果的余弦相似度，相似度高的成对文本，计算其词移距离，如果词移距离符合预设要求，则提升其"文本重要度"，并把两文本的编号成对存入列表D；把"文本重要度"仍为0的句子的"RES"置1；从列表D中依次取出成对编号，将两者中"文本重要度"更大的句子的"RES"置2。随后遍历X，取出其中"RES"值不为0的文本即为所选文本。

主权项：1.一种基于句子向量化的无监督选取医疗文本语料方法，其特征在于，包括如下步骤：S1：获取原始语料文本，将原始文本预处理得到语料集，其中每句话对应一个列表Si，所有S合在一起作为数据集X，其中S的具体格式为：[文本编号,原文本,[[HEAD]一般文本[NUMS]一般文本[PUN][NULL]一般文本[END]],"SENTENCE2VEC","文本重要度","RES"]S2：利用结合医疗术语库的分词词典对文本进行分词，并把结果中出现的词构成的新的字典I的内容输入搭建的WORD2VEC模型进行训练；S3：对于每个列表Si，按照分词情况，把句中所有词对应的向量求和并取平均数，即为所述S的第四项"SENTENCE2VEC"结果，对所有的列表Si，两两计算其"SENTENCE2VEC"的余弦相似度，对于余弦相似度高的成对文本，使用两文本间的词嵌入，计算其中一文本中的单词在语义空间中移动到另一文本单词所需要的最短距离，称为词移距离，如果词移距离符合预设要求，则令两者Si1、Si2的第五项"文本重要度"提升，并把两文本的编号成对存储，作为列表D的一项；S4:遍历结束后，把X中所有"文本重要度"仍为初始值的S的末项"RES"置1，作为"独特文本"而选中，并从列表D中依次取出成对编号，将两者中"文本重要度"更大的S的末项置2，作为"重要文本"而选中，随后遍历X，取出其中"RES"值不为0的文本即为所选文本；所述步骤S1中，文本预处理方法包括如下步骤：S11：对于原始医疗文本，首先按照标点符号进行分句，并对文本长度过短以及不包含中文的句子进行直接剔除；S12：对于每句文本分别进行预处理，将数字串替换为[NUMS]项，英文串替换为[NULL]，标点符号替换为[PUN]，并在句首句尾加入[HEAD]、[END]标签，得到初步处理的文本；S13：对于每句文本，创建一个列表Si，每个Si都由六个部分构成，其中第一部分为文本编号，作为此句文本的唯一标识符，第二部分为原文本，第三部分是S12中所得的初步处理的文本，第四部分为"SENTENCE2VEC"句子向量化的结果，第五部分为文本重要度，作为重复率较大的两句话的选取标准，第六部分为"RES"，表示此句文本是否被最终选取；S14：将所得到的所有Si存储作为数据集X。

全文数据：

权利要求：

百度查询：华东理工大学一种基于句子向量化的无监督选取医疗语料文本方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种勺式高精度防堵塞药剂计量添加装置_浙江威尔博环保科技有限公司_202322743530.2

下一篇：一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

相关技术

一种勺式高精度防堵塞药剂计量添加装置_浙江威尔博环保科技有限公司_202322743530.2

一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

一种特殊持力层道路施工结构_中建六局土木工程有限公司_202023112178.5

一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

一种环保型水处理设备_南京云涧环境科技有限公司_202322651322.X

无线遥控理疗床_泰安市迈迪医疗电子有限公司_202322303870.3

一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

一种户外交流高压封闭式隔离开关_瑞芯科技(河北雄安)有限公司_202322554260.0

一种纺织纱线缠绕架_江苏金銮纺织科技股份有限公司_202322120043.0

龙图腾网&IPTOP

【发明授权】一种基于句子向量化的无监督选取医疗语料文本方法_华东理工大学_202110312164.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务