【发明授权】基于中医对话的停用词表生成方法、装置及存储介质_平安科技(深圳)有限公司_202210238354.4

申请/专利权人：平安科技(深圳)有限公司

申请日：2022-03-10

公开（公告）日：2024-02-02

公开（公告）号：CN114662477B

主分类号：G06F40/242

分类号：G06F40/242;G06F40/289;G16H50/20

优先权：

专利状态码：有效-授权

法律状态：2024.02.02#授权;2022.07.12#实质审查的生效;2022.06.24#公开

摘要：本发明涉及人工智能技术领域，揭露一种基于中医对话的停用词表生成方法，包括：获取中医问诊的对话的文本数据；将对话的文本数据作为语料，利用预设的中医分词模型进行分词处理，获得待处理文本以及初筛停用词；将待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量；将筛选获得的词向量所对应的待处理文本作为目标停用词，将初筛停用词和目标停用词合并形成基于中医对话的停用词表。本发明达到了能够有效针对中医领域中的中医对话识别场景，自动完成停用词的智能生成，达到提高中医意图识别的准确率的技术效果。

主权项：1.一种基于中医对话的停用词表生成方法，应用于电子装置，其特征在于，所述方法包括：获取中医问诊的对话的文本数据；将所述对话的文本数据作为语料，利用预设的中医分词模型进行分词处理，获得待处理文本以及初筛停用词；其中，所述初筛停用词包括英文、标点和数字字符；将所述待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量；将所述筛选获得的词向量所对应的待处理文本作为目标停用词，将所述初筛停用词和目标停用词合并形成基于中医对话的停用词表；其中，所述将所述待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量的方法包括：利用互信息和熵进行特征提取获得待处理文本的词向量；利用熵阈值和互信息阈值对所述词向量进行筛选；获得满足熵阈值和互信息阈值的词向量；所述熵阈值和互信息阈值的确定方法包括：将待处理文本中的某个词输入预获取的目标停用词筛选模型，获得所述词对应的词向量；其中，所述预获取的目标停用词筛选模型为通过skip-gram算法进行词嵌入表示，并运用word2vec方法进行词向量训练后获得；将待处理文本中所述词所在的句子中所有词对应的词向量进行平均获得句向量；并将所述待处理文本的所有句子对应的句向量形成句向量数据集；将所述句向量数据集按照7:3划分为训练集和测试集；通过基于xgboost算法的意图识别模型，获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2；其中，所述停用词过滤阈值Ψ1为熵阈值，所述停用词过滤阈值Ψ2为互信息阈值；将待处理文本中的某个词输入预获取的目标停用词筛选模型，获得所述词对应的词向量的方法包括：运用One-Hot算法对待处理词语进行编码，将编码后的待处理词语输入目标停用词筛选模型的输入层；利用隐含层对编码后的待处理词语进行降维处理以及参数矩阵的计算获得一个向量；利用Softmax函数对所述向量进行归一化，获得某个词对应的词向量；通过基于xgboost算法的意图识别模型，获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2的方法包括，建立基于xgboost算法的意图识别模型；根据互信息阈值参数的优化范围以及熵阈值参数的优化范围，将测试集上的预测结果准确率为模型拟合效果的评价指标，定义xgboost预测准确率为目标函数，运用贝叶斯全局优化方法优化停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2；获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2。

全文数据：

权利要求：

百度查询：平安科技(深圳)有限公司基于中医对话的停用词表生成方法、装置及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：泌尿道菌群检测在女性泌尿道结石诊断中的应用_广东省科学院微生物研究所(广东省微生物分析检测中心)_202111500822.2

下一篇：一种基于动网格模拟隧道列车运动的结构网格划分方法_天津大学_202111426137.X

相关技术

泌尿道菌群检测在女性泌尿道结石诊断中的应用_广东省科学院微生物研究所(广东省微生物分析检测中心)_202111500822.2

一种基于动网格模拟隧道列车运动的结构网格划分方法_天津大学_202111426137.X

用于运行机动车的方法、调节装置和机动车_奥迪股份公司_202110617439.9

一种降低冷轧轧制力的方法_首钢智新迁安电磁材料有限公司_202111360250.2

一种乘用车极限强度冲击试验平台辅助装置_中汽研汽车试验场股份有限公司_201911236112.6

高速公路隧道边墙二次衬砌模板支座、结构及使用方法_中铁十四局集团建筑工程有限公司_202111210321.0

掩模缺陷的检测方法_中国科学院上海高等研究院_202310202672.X

一种适用于热辅助治疗的硝酸2-(4-甲基噻唑-5-基)乙酯盐脑靶向脂质体_山东京卫制药有限公司_202311121383.3

一种焊枪铜线的自动夹扣装置_温州技师学院_201910988267.9

一种电石渣煅烧氧化钙粉体循环压球系统及工艺_江苏中圣园科技股份有限公司_202011333705.7

用于控制空调的方法及装置、空调_青岛海尔空调电子有限公司_202210048335.5

一种产丙酸的工程益生菌的构建与应用_天津大学_202310196065.7

生成相关技术

臭氧生成装置和臭氧生成方法_株式会社奥珂制作所_202010170215.3

自动数据生成_脸萌有限公司_202311488225.1

光生成系统_昕诺飞控股有限公司_202280061758.9

气溶胶生成装置_深圳市合元科技有限公司_202322271092.4

自动生成排布系统_晶旭科技股份有限公司_202410143460.3

气溶胶生成系统_尼科创业贸易有限公司_202410140284.8

细径光束生成装置_株式会社泰克捷普_202180102804.0

文本生成图像模型训练方法、文本生成图像方法及装置_北京达佳互联信息技术有限公司_202410275684.X

密码的生成方法、密码的生成设备以及可读存储介质_鼎铉商用密码测评技术(深圳)有限公司_202410034046.9

语言生成模型的训练方法、语言生成方法及电子设备_深圳须弥云图空间科技有限公司_202310814056.X

方法相关技术

制造方法_意法半导体(克洛尔2)公司_202311475458.8

训练数据生成方法、图像检测方法、图像分类方法及装置_第四范式(北京)技术有限公司_202211345497.1

编码方法、解码方法和处理比特流的方法_松下电器(美国)知识产权公司_202410304249.5

控制棒组件的安装方法、取出方法以及更换方法_中国原子能科学研究院_202111129136.9

增殖方法_花王株式会社_202080014224.1

排烟机拖车及其掉头方法、自行行走方法_苏州瑞奇安机电科技有限公司_202410210474.2

视频处理方法、影视视频处理方法及装置_阿里巴巴集团控股有限公司_202010147566.2

半导体结构及其制备方法、晶圆切割方法_北京弘图半导体有限公司_202410157714.7

喷墨记录方法及层合体的制造方法_富士胶片株式会社_202280064929.3

分类模型训练方法、分类方法、装置和设备_海通证券股份有限公司_202410186760.X

词表相关技术

基于提示学习和更新关系标签词表示的关系抽取方法和装置_延边大学_202410168373.3

一种词表构建的方法及装置_北京金山数字娱乐科技有限公司_201811317879.7

一种全开放词表3D场景图生成方法、装置、设备及介质_暗物智能科技(广州)有限公司_202410331515.3

一种全开放词表场景图生成方法_暗物质(北京)智能科技有限公司_202410218116.6

基于深度融合的全开放词表场景图生成方法及系统_暗物智能科技(广州)有限公司_202410276917.8

基于主题增强词表示的短文本分类方法和系统_合肥工业大学_202311818547.8

一种词表检索方法、装置、电子设备及存储介质_百度在线网络技术(北京)有限公司_202010624239.1

一种基于交叉验证识别机制的开放词表目标检测算法_大连理工大学_202311700186.7

一种基于局部词表的藏文分词评测集构建方法_西南民族大学_202211585580.6

词表构建方法、机器翻译方法及其装置、设备与介质_广州欢聚时代信息科技有限公司_202110559464.6

龙图腾网&IPTOP

【发明授权】基于中医对话的停用词表生成方法、装置及存储介质_平安科技(深圳)有限公司_202210238354.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务