买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于中医对话的停用词表生成方法、装置及存储介质_平安科技(深圳)有限公司_202210238354.4 

申请/专利权人:平安科技(深圳)有限公司

申请日:2022-03-10

公开(公告)日:2024-02-02

公开(公告)号:CN114662477B

主分类号:G06F40/242

分类号:G06F40/242;G06F40/289;G16H50/20

优先权:

专利状态码:有效-授权

法律状态:2024.02.02#授权;2022.07.12#实质审查的生效;2022.06.24#公开

摘要:本发明涉及人工智能技术领域,揭露一种基于中医对话的停用词表生成方法,包括:获取中医问诊的对话的文本数据;将对话的文本数据作为语料,利用预设的中医分词模型进行分词处理,获得待处理文本以及初筛停用词;将待处理文本,通过预训练获得的目标停用词筛选模型进行筛选,获得熵和互信息满足预设值的词向量;将筛选获得的词向量所对应的待处理文本作为目标停用词,将初筛停用词和目标停用词合并形成基于中医对话的停用词表。本发明达到了能够有效针对中医领域中的中医对话识别场景,自动完成停用词的智能生成,达到提高中医意图识别的准确率的技术效果。

主权项:1.一种基于中医对话的停用词表生成方法,应用于电子装置,其特征在于,所述方法包括:获取中医问诊的对话的文本数据;将所述对话的文本数据作为语料,利用预设的中医分词模型进行分词处理,获得待处理文本以及初筛停用词;其中,所述初筛停用词包括英文、标点和数字字符;将所述待处理文本,通过预训练获得的目标停用词筛选模型进行筛选,获得熵和互信息满足预设值的词向量;将所述筛选获得的词向量所对应的待处理文本作为目标停用词,将所述初筛停用词和目标停用词合并形成基于中医对话的停用词表;其中,所述将所述待处理文本,通过预训练获得的目标停用词筛选模型进行筛选,获得熵和互信息满足预设值的词向量的方法包括:利用互信息和熵进行特征提取获得待处理文本的词向量;利用熵阈值和互信息阈值对所述词向量进行筛选;获得满足熵阈值和互信息阈值的词向量;所述熵阈值和互信息阈值的确定方法包括:将待处理文本中的某个词输入预获取的目标停用词筛选模型,获得所述词对应的词向量;其中,所述预获取的目标停用词筛选模型为通过skip-gram算法进行词嵌入表示,并运用word2vec方法进行词向量训练后获得;将待处理文本中所述词所在的句子中所有词对应的词向量进行平均获得句向量;并将所述待处理文本的所有句子对应的句向量形成句向量数据集;将所述句向量数据集按照7:3划分为训练集和测试集;通过基于xgboost算法的意图识别模型,获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2;其中,所述停用词过滤阈值Ψ1为熵阈值,所述停用词过滤阈值Ψ2为互信息阈值;将待处理文本中的某个词输入预获取的目标停用词筛选模型,获得所述词对应的词向量的方法包括:运用One-Hot算法对待处理词语进行编码,将编码后的待处理词语输入目标停用词筛选模型的输入层;利用隐含层对编码后的待处理词语进行降维处理以及参数矩阵的计算获得一个向量;利用Softmax函数对所述向量进行归一化,获得某个词对应的词向量;通过基于xgboost算法的意图识别模型,获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2的方法包括,建立基于xgboost算法的意图识别模型;根据互信息阈值参数的优化范围以及熵阈值参数的优化范围,将测试集上的预测结果准确率为模型拟合效果的评价指标,定义xgboost预测准确率为目标函数,运用贝叶斯全局优化方法优化停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2;获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2。

全文数据:

权利要求:

百度查询: 平安科技(深圳)有限公司 基于中医对话的停用词表生成方法、装置及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。