买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种中医证候名细粒度分割方法_大连云智信科技发展有限公司_202311827164.7 

申请/专利权人:大连云智信科技发展有限公司

申请日:2023-12-28

公开(公告)日:2024-03-22

公开(公告)号:CN117556806B

主分类号:G06F40/205

分类号:G06F40/205;G06F40/30;G06F40/242;G06F16/903

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2024.03.01#实质审查的生效;2024.02.13#公开

摘要:本发明涉及数据细粒度判别分析技术领域,具体涉及一种中医证候名细粒度分割方法。对中医证候名建立金字塔字典库后初步分割,确定初步分割结果中各字符组合出现频率、初步分割结果中各字符组合对应的字符节点中不同字符组合频次的差异性及对应的字符节点与上一层字符节点的关联性、初步分割结果中各字符组合长度与古汉语常用字符组合长度的相似性,从而选取出最优分割结果得到细粒度。该细粒度确定过程结合了古汉语用语习惯,并利用由中医证候名所建立的金字塔字典库,对中医证候名初步分割结果中字符组合的分布合理性进行了衡量,综合分割合理性以及和古汉语切合程度,提高了对中医证候名的分割细粒度确定的准确度。

主权项:1.一种中医证候名细粒度分割方法,其特征在于,包括以下步骤:采集所有中医证候名作为语料数据集,计算语料数据集的金字塔字典库;确定中医证候名中每个字符在金字塔字典库中对应的匹配字符,根据所有匹配字符对中医证候名进行初步分割;根据初步分割结果中各个字符组合在语料数据集中出现的概率计算初步分割结果的分割经验符合度;综合初步分割结果中字符组合在对应的金字塔字典库字符节点中出现的不平衡性大小,以及初步分割结果中字符组合所对应的金字塔字典库字符节点与上一层字符节点的关联性大小,计算得到初步分割结果的组合逆熵;根据初步分割结果中各个字符组合的长度与古汉语的语义组合中字符组合长度的相似性计算初步分割结果的分割均匀度;根据初步分割结果的分割经验符合度、组合逆熵以及分割均匀度,计算初步分割结果的分割结果判断值,根据分割结果判断值从所有初步分割结果中选择出最优分割结果,以最优分割结果完成对中医证候名的细粒度分割;所述金字塔字典库具体构建过程如下:1)获取第一层字符节点:将中医证候名语料库中所有出现的单个汉字作为金字塔字典库的第一层,由于其单独出现,因此金字塔字典库的第一层只有一个字符节点;2)延伸新字符节点:获取每个字符节点在上一层的关联字符节点,确定所有关联字符节点的所有字符;在延伸新字符节点时,每个字符节点通过前接字符或后接字符延伸出两个新字符节点;延伸出的新字符节点在上一层两个字符节点之间时,每个字符节点在上一层的关联字符节点所对应的字符节点为两个,否则每个字符节点在上一层的关联字符节点所对应的字符节点只有一个;3)采用维比特算法消除某些字符组合,具体为:将所有的字符组合按照其出现的次数从大到小进行排序,排序后从前到后计算两个相邻字符的次数比值,具体为上一字符的次数除以下一字符的次数,若比值大于10,则停止计算次数比值,将上一字符及其出现的次数构成一个新的字符节点;4)获得金字塔字典:按层延伸新字符节点,一共延续到7层为止,一共有28个字符节点,若某个字只在句首或句末出现,那么他会出现空节点,空节点没有属性。

全文数据:

权利要求:

百度查询: 大连云智信科技发展有限公司 一种中医证候名细粒度分割方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。