买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于内容的大文本高阶语义张量化分类方法和系统_北京智通云联科技有限公司_201710687437.0 

申请/专利权人:北京智通云联科技有限公司

申请日:2017-08-11

公开(公告)日:2020-07-21

公开(公告)号:CN107506415B

主分类号:G06F16/35(20190101)

分类号:G06F16/35(20190101);G06F40/30(20200101);G06F40/284(20200101)

优先权:

专利状态码:有效-授权

法律状态:2020.07.21#授权;2018.01.19#实质审查的生效;2017.12.22#公开

摘要:本发明公开了一种基于内容的大文本高阶语义张量化分类方法,包括:步骤一、构造类的DEC张量模型;步骤二、获取待分类的大文本中的部分文本,利用部分文本构建大文本的DEC张量,将其DEC张量和类的特征张量逻辑相乘,之后按照DEC的3个维度全部降维相加,得到大文本属于该类的强度,展示输出结果。本发明还公开了一种基于内容的大文本高阶语义张量化分类系统,包括:基础语料层,用于存储DEC张量模型要素和模型加工所需要的语料样本;DEC语义处理层,用于完成大文本的分词和DEC张量化,实现对张量模型的计算和调用;应用层,用于完成用户输入文本的接收和展示分类结果。本发明解决了计算资源不足和文本理解准确性之间矛盾。

主权项:1.一种基于内容的大文本高阶语义张量化分类方法,其特征在于,包括如下步骤:步骤一、构造类的DEC张量模型:1.1对多个大文本的词语进行3级领域分词,并建立每个大文本的大文本词集合与类的对应关系;2.1构件大文本的DEC张量:对每个类对应的每个大文本进行分词,得到代表其领域Domain的分词集合D、代表业务活动Concept的分词集合C和代表相关要素的分词集合Element分词集合E;2.2首先得到E的独立一维向量,再从E独立一维向量张成CE张量;2.3从CE张量张成DEC张量;2.4从步骤2.3到2.1循环,完成整个类的张量构建;3.1任意选定一个类,剩余类张量相加得到该类的反例张量;3.2整个类的张量减去类的反例张量,得到该类的特征张量;步骤二、获取待分类的大文本中的部分文本,首先依照步骤2.1到2.3,利用该部分文本构建该待分类大文本的DEC张量,之后加载步骤一中的类的特征张量,将该待分类大文本的DEC张量和每个类的特征张量逻辑相乘,然后再将逻辑相乘后的类张量按照DEC的3个维度全部降维相加,得到待分类的大文本属于该类的强度,最后展示输出结果。

全文数据:基于内容的大文本高阶语义张量化分类方法和系统技术领域[0001]本发明属于文本分类技术领域,涉及一种基于内容的大文本高阶语义张量化分类方法和系统。背景技术[0002]随着互联网的发展,大量知识都存在于网络文献中。但是网络文献一般都是短文本,比如不超过1页A4纸的规模。国内科技文献,如,cnki上的文本一般是5页左右,硕博士论文一般60-100页左右。但是面向领域的科研成果报告,一般都是300页左右的规模,字数10万字左右;而且往往图文并茂,存储的格式以Pdf为主,需要进行pdf到txt的转换,转换中存在大量乱码,会干扰科研成果文献的分类准确性。[0003]采用传统的基于文章句子相似度分类方法,要进行上万句句子之间的相似度计算,计算量非常大,不能适应工程项目对于加工速度的要求。一些方法中,按照词袋模型进行分类,然而由于缺少对文本语义的理解,准确度不能满足要求。发明内容[0004]本发明的一个目的是解决至少上述问题和或缺陷,并提供至少后面将说明的优点。[0005]本发明还有一个目的是提供一种基于内容的大文本高阶语义张量化分类方法。[0006]本发明再有一个目的是提供一种基于内容的大文本高阶语义张量化分类系统。[0007]为此,本发明提供的技术方案为:[0008]—种基于内容的大文本高阶语义张量化分类方法和系统,包括:[0009]步骤一、构造类的DEC张量模型:[0010]1.1对多个大文本的词语进行3级领域分词,并建立每个大大文本的大文本词集合与类的对应关系;[0011]2.1构件大文本的DEC张量:对每个类对应的每个大本文进行分词,得到代表其领域Domain的分词集合D、代表业务活动Concept的分词集合C和代表相关要素的分词集合EIement分词集合E;[0012]2.2首先得到E的独立一维向量,再从E独立一维向量张成CE张量;[0013]2.3从CE张量张成DEC张量;[OOM]2.4从步骤2.3到2.1循环,完成整个类的张量构建;[0015]3.1任意选定一个类,剩余类张量相加得到该类的反例张量;[0016]3.2整个类的张量减去类的反例张量,得到该类的特征张量;[0017]步骤二、获取待分类的大文本中的部分文本,首先依照步骤2.1到2.3,利用该部分文本构建该待分类大文本的DEC张量,之后加载步骤一中的类的特征张量,将该待分类大文本的DEC张量和每个类的特征张量逻辑相乘,然后再将逻辑相乘后的类张量按照DEC的3个维度全部降维相加,得到待分类的大文本属于该类的强度,最后展示输出结果。[0018]优选的是,所述的基于内容的大文本高阶语义张量化分类方法中,在步骤一中,构造类的DEC张量模型时,还包括如下步骤:[0019]首先选取代表领域Domain的多个词作为领域词集合,且建立D表;选取代表业务活动Concept的多个词作为业务活动词集合,且建立C表;[0020]步骤2.1中,对每个大文本进行分词时,首先读取D表和C表,之后将大文本的分词集合排除掉D表和C表中的元素后,其余的词集合为分词集合E,建立E表。[0021]优选的是,所述的基于内容的大文本高阶语义张量化分类方法中,步骤2.2中,首先得到E的独立一维向量,再从E独立一维向量张成CE张量照的具体方法包括:[0022]首先,按照D表和C表对大文本的D和C分词集合进行排序,构建D和C各自单独的一维向量,E分词集合按在E表中频次排序,得到E的独立一维向量;[0023]然后,构建一个大小和E向量一样的0向量,即每个元素都为0,将这个0向量和E向量按行组合为一个0—E向量对;将这个向量对按行重复η词,得到CE张量的候选集,其中η为C向量的维度;[0024]最后,根据C向量的大小得到在CE候选集中0—Ε对的分割序号向量,该分割序号向量和C向量相加,得到的集合即为从候选集中按C向量值挑选0向量或者E向量的序号,进行挑选,完成从E向量张成CE张量。[0025]优选的是,所述的基于内容的大文本高阶语义张量化分类方法中,步骤2.3中,从CE张量张成DEC张量的具体方法包括:[0026]将CE张量展平成为一阶向量,构造一个同样维度的0向量,构造0—CE向量对;[0027]将0—CE向量对按行扩展η倍,构成0—CE向量候选集,其中η是D向量的维数;[0028]按照D向量的维度确定0—CE对的序号向量;这个向量和D向量相加,得到DEC向量的序号;[0029]实施挑选,得到大文本的DEC张量。[0030]优选的是,所述的基于内容的大文本高阶语义张量化分类方法中,步骤1.1中,首先将每个不同格式的大文本转换为txt文件;每个大大文本的大文本词集合可对应多个类。[0031]优选的是,所述的基于内容的大文本高阶语义张量化分类方法中,在步骤3.2之后,步骤二之前,还包括如下步骤:[0032]3.3将该类的特征张量变换为适合调用的json字典格式,输出,作为步骤二中加载的输入。[0033]—种基于内容的大文本高阶语义张量化分类系统,包括:[0034]基础语料层,其用于存储DEC张量模型要素和DEC张量模型加工所需要的语料样本,所述语料样本包括大文件的分词结果、大文件名称以及大文件与类的对应关系,所述基础语料层包括;[0035]DEC语义处理层,其与所述基础语料层通讯连接,用于完成大文本的分词和DEC张量化,以及实现对张量模型的计算和调用;[0036]应用层,其与所述DEC语义处理层通讯连接,用于完成用户输入文本的接收和展示分类结果。[0037]优选的是,所述的基于内容的大文本高阶语义张量化分类系统中,所述基础语料层包括:[0038]模型要素模块,其与所述DEC处理模块连接,所述模型要素模块包括D表、C表和分类结构树,所述D表包含代表领域实体对象的多个词,且该多个词按照重要程度的先后次序排列,所述C表包含代表业务活动的多个词,且该多个词按照业务活动的重要程度的先后次序排列,所述分类结构树为描述业务逻辑的业务体系知识结构;[0039]分类语料模块,所述分类语料模块用于存储DEC张量模型加工所需要的所述语料样本。[0040]优选的是,所述的基于内容的大文本高阶语义张量化分类系统中,所述DEC语义处理层包括:[0041]3级分词模块,其按照2-3字分词、4字分词和5字以上分词的递增顺序,实现分词粒度的不断增大;[0042]DEC张量模型计算和调用模块,其包括DEC处理模块、分类模型计算模块和分类模型调用模块,所述DEC处理模块与所述基础语料层通讯连接,其用于完成对每个大文本的张量化过程,通过有序化,按照DEC规定的顺序,以DEC的整体为单位进行张量运算,重新建构文本,所述分类模型计算模块用于构建出每个类唯一的特征张量模型,所述分类模型调用模块与所述应用层通讯连接,用于应用时,通过调用已经计算出来的分类张量模型,计算新增大文本在DEC空间中的位置分布,得到输出分类结果。[0043]优选的是,所述的基于内容的大文本高阶语义张量化分类系统中,所述应用层包括:[0044]文本接受模块,其包括可编辑的输入文本框和接收按钮,所述文本接受模块与所述DEC处理模块通讯连接;[0045]分类结果显示模块,其包括用于显示的标签模块,用于显示结果。[0046]本发明至少包括以下有益效果:[0047]本发明通过DEC的语义张量模型,以词为基础恢复文本级的语义,最大限度的体现了文本的内容,速度快,对内容分类的准确率高,克服了基于句子的大计算量,以及基于篇章难以构建的困难。[0048]本发明以分词为基础建立文本级的DEC张量化模型,不对句子进行分析,不用计算句子之间的相似度,避免了大计算量带来的计算资源的浪费,速度快,又没有丧失对整个文本语义的把握,解决了计算资源不足和文本理解准确性之间矛盾。[0049]本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。附图说明[0050]图1为本发明其中一个实施例中所述的类的DEC张量模型的结构示意图;[0051]图2为本发明其中一个实施例中基于内容的大文本高阶语义张量化分类系统的示意图;[0052]图3为本发明其中一个实施例中基于内容的大文本高阶语义张量化建模流程图;[0053]图4为本发明其中一个实施例中基于内容的大文本高阶语义张量化模型调用流程图。具体实施方式[0054]下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。[0055]应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。[0056]如图1至4所示,本发明提供一种基于内容的大文本高阶语义张量化分类方法,包括如下步骤:[0057]步骤一、构造类的DEC张量模型:[0058]1.1对多个大文本的词语进行3级领域分词,并建立每个大大文本的大文本词集合与类的对应关系;[0059]2.1构件大文本的DEC张量:对每个类对应的每个大本文进行分词,得到代表其领域Domain的分词集合D、代表业务活动Concept的分词集合C和代表相关要素的分词集合EIement分词集合E;[0060]2.2首先得到E的独立一维向量,再从E独立一维向量张成CE张量;[0061]2.3从CE张量张成DEC张量;[0062]2.4从步骤2.3到2.1循环,完成整个类的张量构建;[0063]3.1任意选定一个类,剩余类张量相加得到该类的反例张量;[0064]3.2整个类的张量减去类的反例张量,得到该类的特征张量;[0065]步骤二、获取待分类的大文本中的部分文本,首先依照步骤2.1到2.3,利用该部分文本构建该待分类大文本的DEC张量,之后加载步骤一中的类的特征张量,将该待分类大文本的DEC张量和每个类的特征张量逻辑相乘,然后再将逻辑相乘后的类张量按照DEC的3个维度全部降维相加,得到待分类的大文本属于该类的强度,最后展示输出结果。[0066]在上述方案中,作为优选,在步骤一中,构造类的DEC张量模型时,还包括如下步骤:[0067]首先选取代表领域Domain的多个词作为领域词集合,且建立D表;选取代表业务活动Concept的多个词作为业务活动词集合,且建立C表;[0068]步骤2.1中,对每个大文本进行分词时,首先读取D表和C表,之后将大文本的分词集合排除掉D表和C表中的元素后,其余的词集合为分词集合E,建立E表。[0069]在上述方案中,作为优选,步骤2.2中,首先得到E的独立一维向量,再从E独立一维向量张成CE张量照的具体方法包括:[0070]首先,按照D表和C表对大文本的D和C分词集合进行排序,构建D和C各自单独的一维向量,E分词集合按在E表中频次排序,得到E的独立一维向量;[0071]然后,构建一个大小和E向量一样的0向量,即每个元素都为0,将这个0向量和E向量按行组合为一个0—E向量对;将这个向量对按行重复η词,得到CE张量的候选集,其中η为C向量的维度;[0072]最后,根据C向量的大小得到在CE候选集中0—Ε对的分割序号向量,该分割序号向量和C向量相加,得到的集合即为从候选集中按C向量值挑选0向量或者E向量的序号,进行挑选,完成从E向量张成CE张量。[0073]在上述方案中,作为优选,步骤2.3中,从CE张量张成DEC张量的具体方法包括:[0074]将CE张量展平成为一阶向量,构造一个同样维度的0向量,构造0—CE向量对;[0075]将0—CE向量对按行扩展η倍,构成0—CE向量候选集,其中η是D向量的维数;[0076]按照D向量的维度确定0—CE对的序号向量;这个向量和D向量相加,得到DEC向量的序号;[0077]实施挑选,得到大文本的DEC张量。[0078]在本发明的其中一个实施例中,作为优选,步骤1.1中,首先将每个不同格式的大文本转换为txt文件;每个大大文本的大文本词集合可对应多个类。[0079]在本发明的其中一个实施例中,作为优选,在步骤3.2之后,步骤二之前,还包括如下步骤:[0080]3.3将该类的特征张量变换为适合调用的json字典格式,输出,作为步骤二中加载的输入。[0081]—种基于内容的大文本高阶语义张量化分类系统,包括:[0082]基础语料层1,其用于存储DEC张量模型要素和DEC张量模型加工所需要的语料样本,所述语料样本包括大文件的分词结果、大文件名称以及大文件与类的对应关系,所述基础语料层包括;[0083]DEC语义处理层2,其与所述基础语料层通讯连接,用于完成大文本的分词和DEC张量化,以及实现对张量模型的计算和调用;[0084]应用层3,其与所述DEC语义处理层通讯连接,用于完成用户输入文本的接收和展示分类结果。[0085]在本发明的其中一个实施例中,作为优选,所述基础语料层1包括:[0086]模型要素模块110,其与所述DEC处理模块连接,所述模型要素模块包括D表111、C表112和分类结构树113,所述D表111包含代表领域实体对象的多个词,且该多个词按照重要程度的先后次序排列,所述C表112包含代表业务活动的多个词,且该多个词按照业务活动的重要程度的先后次序排列,所述分类结构树113为描述业务逻辑的业务体系知识结构;[0087]分类语料模块120,所述分类语料模块用于存储DEC张量模型加工所需要的所述语料样本。[0088]在本发明的其中一个实施例中,作为优选,所述DEC语义处理层2包括:[0089]3级分词模块210,其按照2-3字分词、4字分词和5字以上分词的递增顺序,实现分词粒度的不断增大;[0090]DEC张量模型计算和调用模块220,其包括DEC处理模块221、分类模型计算模块222和分类模型调用模块223,所述DEC处理模块与所述基础语料层通讯连接,其用于完成对每个大文本的张量化过程,通过有序化,按照DEC规定的顺序,以DEC的整体为单位进行张量运算,重新建构文本,所述分类模型计算模块用于构建出每个类唯一的特征张量模型,所述分类模型调用模块与所述应用层通讯连接,用于应用时,通过调用已经计算出来的分类张量模型,计算新增大文本在DEC空间中的位置分布,得到输出分类结果。[0091]在本发明的其中一个实施例中,作为优选,所述应用层3包括:[0092]文本接受模块310,其包括可编辑的输入文本框和接收按钮,所述文本接受模块与所述DEC处理模块通讯连接;[0093]分类结果显示模块320,其包括用于显示的标签模块,用于显示结果。[0094]为使本领域技术人员更好地理解本发明,现提供如下的实施例进行说明:[0095]本发明提出一种基于内容的大文本语义张量化分类方法和系统,如图1所示,主要方法是将整个文献的内容理解为,人们对某一领域Domain的相关要素Element进行了某种研究Concept,比如“鄂尔多斯盆地构造演化与下古生界碳酸盐岩层系天然气成藏历史研究”可以理解为,作者对D={鄂尔多斯盆,碳酸盐岩层系,天然气}的相关要素E={构造演化,成藏历史}进行了C={研究,成藏历史研究}。搭配预先文献中取得的E,按照重要次序进行DEC单独排序,构建DEC三维模型的基础框架;对每篇大文献按照DEC三个维度进行矢量化建模,每篇文献即为这个DEC三维空间中的一个点;每个类包含的所有文献为这个DEC三维空间中的一个区域。属于每个类的所有文献的区域为正例区域,属于其他类的文献区域为反例区域,正例区域和反例区域的空间有交叉的部分;正例区域排除掉所有反例区域,剩下的就是属于本类的唯一特征区域;所有类的独特区域组合在一起,就构成了整个分类系统的特征张量模型。在应用这个模型时,首先将文献进行DEC张量建模,得到这篇文献在DEC空间中的分布;然后确定这篇文献的分布落在每个单独类区域中的分布点数,即为文献属于该类的强度;对类强度进行排序,最终得到文献的分类结果。[0096]这种方法以分词为基础建立文本级的DEC张量化模型,不对句子进行分析,不用计算句子之间的相似度,避免了大计算量带来的计算资源的浪费,速度快,又没有丧失对整个文本语义的把握,解决了计算资源不足和文本理解准确性之间矛盾。[0097]本文所述大文本高阶语义张量化分类系统如图2所示。逻辑上系统分为基础语料层1、DEC语义处理层2和应用层3。基础语料层存储模型要素和模型加工所需要的所有语料样本;DEC语料处理层完成文本的DEC张量化,以及实现对模型的计算和调用;应用层完成用户输入文本的接收和最终分类结果的展示。[0098]所述基础语料层由模型要素模块110和分类语料模块120组成。所述模型要素模块110由D表111、C表112和分类结构树113组成;D表111是代表领域实体对象的一组词,按照重要度的先后次序排序,是一个以逗号分开的文本文件,如表1所示;C表112是跟业务活动有关的一组词,按照活动的重要程度进行排序,也是一个以逗号分开的文本文件,如表2所示;分类结构树113—般是经过权威机构评审和确认的稳定的业务体系,是同一领域的不同公司通用的描述业务逻辑的业务体系知识,是一个树形结构,如表3所示。分类语料模块2是一个文件存储系统,通过对每篇文献进行分词、清洗之后,按照每个文件的文件名、类和分词清洗后的分词结果进行存储,如表4所示,该表描述了样本的因素和结果之间的关系,所有模型参数都是基于这张表计算得来。[0099]表IC表[0100]优化技术,成藏历史研究,前景展望[0101]表2D表[0102]鄂尔多斯盘,层段,碳酸盐岩层系,台缘[0105]所述DEC语义处理层2由3级分词模块210以及DEC张量模型计算和调用模块220构成,完成对文本的分词和DEC张量化任务。其中3级分词模块210是一个通用的内部分词模块,按照2-3字分词、4字分词和5字以上分词的递增顺序,实现分词粒度的不断增大,也就是实现了由通用词向专用词、由文本向现实的语义理解转移过程。DEC张量模型计算和调用模块220由DEC处理模块221、分类模型计算模块222和分类模型调用模块223构成。所述DEC处理模块221的功能是完成对文本的张量化过程,通过有序化,使得打乱了语序的词几何,按照DEC规定的顺序,重新建构了文本的实际意义,也就使得样本在DEC三维空间中占据了一定范围的空间。DEC处理模块221的计算以DEC的整体为单位进行张量运算,不是分开成3个单维向量进行计算和整合。DEC处理模块221在构建DEC张量模型时,首先构建DCE的单维向量;然后按照C的赋值,通过选择O向量和E向量,实现对CE的扩展;最后按照D的赋值,选择O向量和CE向量,从而实现整个大文本的DEC张量构建。在模型计算的时候,DEC处理模块221是对语料进行DEC张量化;在模型调用的时候,DEC处理模块221是对输入的文本进行DEC张量化。分类模型计算模块222只在计算模型的时候使用,它整合所有样本文献占有的总空间,同时排除其他类所占的空间,构建出分类系统唯一的特征模型。分类模型计算模块222只在计算模型时,首先整理出类所包含的所有文献;然后对各个类的每篇文献DEC张量循环叠加,得到该类的DEC总张量模型;对所有类进行同样的操作,得到所有类的正例空间;将每个类以外的其他类都作为反例空间,所有反例空间累加,得到每个类的最终反例空间;然后由类的DEC张量减去反例张量DEC,得到整个类的DEC特征张量模型,也即计算出了类的特征。分类模型调用模块223只是在应用的时候,通过调用已经计算出来的分类张量模型,计算新增文献在DEC空间中的位置分布,得到输出分类结果。分类模型调用模块223将输入文献的DEC张量与整个类的DEC张量进行逻辑与运算,即逻辑相乘,得到各个类的DEC计算值;最后对各个类的张量值进行DEC三个维度的降维求和,得到文献在各个类中的分布总次数,也就是文献属于此类的强度。[0106]所述应用层3由输入文本接受模块310和分类结果显示模块320构成。文本接受模块310包括一个可编辑的输入文本框,和一个接收按钮;分类结果显示模块320由一个显示的标签模块组成。文本接受模块310接收的信息通过前端传入服务器,然后进入服务器的DEC语义处理层2,实现分类,再将分类结果传入前端分类结果显示模块320,实现对结果的显不O[0107]参照图3,基于内容的大文本语义张量化分类的建模具体方法如下:[0108]步骤SI:类4文件对应关系处理[0109]步骤S110:在存储目录下,对所有不同格式的文本进行格式转换为txt文件,3级领域分词,清洗得到有意义的干净的文献词集合,并存储在指定的一个新目录下;[0110]步骤S120:读取文本—类对应表;[0111]步骤SI30:将文本4类对应表转换为类4文本集对应关系,处理多分类问题,同一篇文献可以分配在不同的类中;[0112]步骤S2:构建文献的DEC张量;[0113]步骤S210:读取每个类下的每篇文献的分词集合;[0114]步骤S220:读取D表和C表,将文献的分词集合排除掉D表和C表元素后,剩下的词集合为E集合;[0115]步骤S230:步骤S231:按照D表、C表对文献的D、C集合进行排序,构建D、C单独的一维向量。E集合按在整个E表中频次排序,得到E的独立一维向量;[0116]步骤S232:构建一个大小和E向量一样的0向量,即每个元素都为0;将这个0向量和E向量按行组合为一个0—E向量对;将这个向量对按行重复η词,得到CE张量的候选集,其中η为C向量的维度;[0117]步骤S233:首先根据C向量的大小得到在CE候选集中0—E对的分割序号向量;该序号向量和C向量相加,得到的集合即为从候选集中按C向量值挑选〇向量或者E向量的序号;进行挑选,完成从E向量张成CE张量;[0118]步骤S240:实现从CE张量张成DEC张量;[0119]步骤S241:将CE张量展平成为一阶向量,构造一个同样维度的0向量,构造0—CE向量对;[0120]步骤S242:将0—CE向量对按行扩展η倍,构成0—CE向量候选集,其中η是D向量的维数;[0121]步骤S243:首先按照D向量的维度确定0—CE对的序号向量;这个向量和D向量相加,得至IjDEC向量的序号;实施挑选,得到最后的大文本DEC张量[0122]从步骤S243到步骤210循环,完成整个类的正例DEC张量构建;[0123]步骤S3:完成类特征的计算;[0124]步骤S310:任意选择一个类,其余类张量相加得到该类的反例张量;[0125]步骤S320:类的正例张量减去类的反例张量,得到该类的特征张量;[0126]步骤S330:将类张量变换为适合调用的json字典格式,输出,作为模型调用模块的输入。[0127]参照图4,基于内容的大文本语义张量模型调用流程描述如下:[0128]步骤S210:从前台读入文本,格式为txt;[0129]步骤S220:将文本3级分词,清洗,得到干净的文本词集合;[0130]步骤S230:读取D表和C表,计算E集合;[0131]步骤S240:构造CE向量,步骤同图3的2-3;[0132]步骤S250:构建输入文本的DEC张量,步骤同图3的2-4;[0133]步骤S260:加载类的DEC张量模型;[0134]步骤S270:将文本DEC张量和类张量逻辑相乘;[0135]步骤S280:将步骤7得到的类张量按照DEC的3个维度全部降维相加,得到文献属于该类的强度;[0136]步骤S290:按照展示要求整理类的输出结果。[0137]这里说明的模块数量和处理规模是用来简化本发明的说明的。对本发明的基于内容的大文本高阶语义张量化分类方法和系统的应用、修改和变化对本领域的技术人员来说是显而易见的。[0138]尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

权利要求:1.一种基于内容的大文本高阶语义张量化分类方法,其特征在于,包括如下步骤:步骤一、构造类的DEC张量模型:1.1对多个大文本的词语进行3级领域分词,并建立每个大大文本的大文本词集合与类的对应关系;2.1构件大文本的DEC张量:对每个类对应的每个大本文进行分词,得到代表其领域Domaiη的分词集合D、代表业务活动Concept的分词集合C和代表相关要素的分词集合EIement分词集合E;2.2首先得到E的独立一维向量,再从E独立一维向量张成CE张量;2.3从CE张量张成DEC张量;2.4从步骤2.3到2.1循环,完成整个类的张量构建;3.1任意选定一个类,剩余类张量相加得到该类的反例张量;3.2整个类的张量减去类的反例张量,得到该类的特征张量;步骤二、获取待分类的大文本中的部分文本,首先依照步骤2.1到2.3,利用该部分文本构建该待分类大文本的DEC张量,之后加载步骤一中的类的特征张量,将该待分类大文本的DEC张量和每个类的特征张量逻辑相乘,然后再将逻辑相乘后的类张量按照DEC的3个维度全部降维相加,得到待分类的大文本属于该类的强度,最后展示输出结果。2.如权利要求1所述的基于内容的大文本高阶语义张量化分类方法,其特征在于,在步骤一中,构造类的DEC张量模型时,还包括如下步骤:首先选取代表领域Domain的多个词作为领域词集合,且建立D表;选取代表业务活动Conc印t的多个词作为业务活动词集合,且建立C表;步骤2.1中,对每个大文本进行分词时,首先读取D表和C表,之后将大文本的分词集合排除掉D表和C表中的元素后,其余的词集合为分词集合E,建立E表。3.如权利要求2所述的基于内容的大文本高阶语义张量化分类方法,其特征在于,步骤2.2中,首先得到E的独立一维向量,再从E独立一维向量张成CE张量照的具体方法包括:首先,按照D表和C表对大文本的D和C分词集合进行排序,构建D和C各自单独的一维向量,E分词集合按在E表中频次排序,得到E的独立一维向量;然后,构建一个大小和E向量一样的0向量,S卩每个元素都为0,将这个0向量和E向量按行组合为一个0—E向量对;将这个向量对按行重复η词,得到CE张量的候选集,其中η为C向量的维度;最后,根据C向量的大小得到在CE候选集中0—Ε对的分割序号向量,该分割序号向量和C向量相加,得到的集合即为从候选集中按C向量值挑选响量或者E向量的序号,进行挑选,完成从E向量张成CE张量。4.如权利要求2所述的基于内容的大文本高阶语义张量化分类方法,其特征在于,步骤2.3中,从CE张量张成DEC张量的具体方法包括:将CE张量展平成为一阶向量,构造一个同样维度的0向量,构造0—CE向量对;将0—CE向量对按行扩展η倍,构成0—CE向量候选集,其中η是D向量的维数;按照D向量的维度确定0—CE对的序号向量;这个向量和D向量相加,得到DEC向量的序号;实施挑选,得到大文本的DEC张量。5.如权利要求1所述的基于内容的大文本高阶语义张量化分类方法,其特征在于,步骤1.1中,首先将每个不同格式的大文本转换为txt文件;每个大大文本的大文本词集合可对应多个类。6.如权利要求1所述的基于内容的大文本高阶语义张量化分类方法,其特征在于,在步骤3.2之后,步骤二之前,还包括如下步骤:3.3将该类的特征张量变换为适合调用的json字典格式,输出,作为步骤二中加载的输入。7.—种基于内容的大文本高阶语义张量化分类系统,其特征在于,包括:基础语料层,其用于存储DEC张量模型要素和DEC张量模型加工所需要的语料样本,所述语料样本包括大文件的分词结果、大文件名称以及大文件与类的对应关系,所述基础语料层包括;DEC语义处理层,其与所述基础语料层通讯连接,用于完成大文本的分词和DEC张量化,以及实现对张量模型的计算和调用;应用层,其与所述DEC语义处理层通讯连接,用于完成用户输入文本的接收和展示分类结果。8.如权利要求7所述的基于内容的大文本高阶语义张量化分类系统,其特征在于,所述基础语料层包括:模型要素模块,其与所述DEC处理模块连接,所述模型要素模块包括D表、C表和分类结构树,所述D表包含代表领域实体对象的多个词,且该多个词按照重要程度的先后次序排列,所述C表包含代表业务活动的多个词,且该多个词按照业务活动的重要程度的先后次序排列,所述分类结构树为描述业务逻辑的业务体系知识结构;分类语料模块,所述分类语料模块用于存储DEC张量模型加工所需要的所述语料样本。9.如权利要求7所述的基于内容的大文本高阶语义张量化分类系统,其特征在于,所述DEC语义处理层包括:3级分词模块,其按照2-3字分词、4字分词和5字以上分词的递增顺序,实现分词粒度的不断增大;DEC张量模型计算和调用模块,其包括DEC处理模块、分类模型计算模块和分类模型调用模块,所述DEC处理模块与所述基础语料层通讯连接,其用于完成对每个大文本的张量化过程,通过有序化,按照DEC规定的顺序,以DEC的整体为单位进行张量运算,重新建构文本,所述分类模型计算模块用于构建出每个类唯一的特征张量模型,所述分类模型调用模块与所述应用层通讯连接,用于应用时,通过调用已经计算出来的分类张量模型,计算新增大文本在DEC空间中的位置分布,得到输出分类结果。10.如权利要求7所述的基于内容的大文本高阶语义张量化分类系统,其特征在于,所述应用层包括:文本接受模块,其包括可编辑的输入文本框和接收按钮,所述文本接受模块与所述DEC处理模块通讯连接;分类结果显示模块,其包括用于显示的标签模块,用于显示结果。

百度查询: 北京智通云联科技有限公司 基于内容的大文本高阶语义张量化分类方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。