买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种低资源文档分类方法及分类系统_中国人民解放军战略支援部队信息工程大学_201811365384.1 

申请/专利权人:中国人民解放军战略支援部队信息工程大学

申请日:2018-11-16

公开(公告)日:2022-12-02

公开(公告)号:CN109522554B

主分类号:G06F40/289

分类号:G06F40/289;G06F16/35

优先权:["20181106 CN 2018113126133"]

专利状态码:有效-授权

法律状态:2022.12.02#授权;2019.04.19#实质审查的生效;2019.03.26#公开

摘要:本申请公开了一种低资源文档分类方法及分类系统,所述低资源文档分类方法基于迁移学习技术实现了无需低资源语言有标注训练样本下的文档分类。如基于迁移学习,将高资源有标注训练样本得到的高资源语言文档分类模型迁移至低资源语言的文档分类中,降低了低资源语言的研究门槛,为文档分类技术在低资源语言中的发展和应用提供了可能。

主权项:1.一种低资源文档分类方法,其特征在于,包括:构建句子平行语料库,所述句子平行语料库中存储有高资源语料和低资源语料的对应关系;将所述句子平行语料库中的高资源语料和低资源语料表示在同一向量空间中,以获得双语词向量;获取有标记的高资源文档,以所述高资源语言词向量作为文档特征表示,得到高资源训练样本;利用所述高资源训练样本训练预设高资源文档分类模型,以获得高资源语言文档分类模型;获取无标记的低资源文档,以所述低资源语言词向量作为文档特征表示,得到低资源训练样本;利用高资源语言文档分类模型对待分类低资源样本进行分类。

全文数据:一种低资源文档分类方法及分类系统本申请要求于2018年11月06日提交中国专利局、申请号为201811312613.3、发明名称为“一种低资源文档分类方法及分类系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。技术领域本申请涉及迁移学习技术领域,更具体地说,涉及一种低资源文档分类方法及分类系统。背景技术文档分类是指从一组已知的训练样本数据中训练分类模型,并使用这个分类模型识别待分类文档的过程,随着机器学习技术的不断发展,多语音文档分类已经成为大规模数据处理的热点之一。目前常用的分类方法有:K近邻法KNearestNeighbor,KNN、朴素贝叶斯NativeBes,NB、支持向量机SupportVectorMachine,SVM以及深度学习DeepLearning等,基于这些算法获得的分类模型的性能主要取决于分类模型训练过程中的有标注的训练样本的数量,特别是以数据驱动的深度学习算法,其获得的分类模型的性能更加依赖于有标注的训练样本的数量。但是标注labeling训练样本的过程是一个困难且需要消耗大量的人力物力的过程,特别是对于低资源语言而言,关于低资源语言的有标注的训练样本长期处于匮乏状态,并且低资源语言、语音的研究普遍比较落后,低资源语音的文档分类模型研究几乎是空白的,这些原因都严重的制约了文档分类技术在低资源语言中的发展和应用。发明内容为解决上述技术问题,本申请提供了一种低资源文档分类方法及分类系统,以实现在不需要低资源语言的训练样本的基础上,获得适用于低资源语言的高资源语言文档分类模型的目的。为实现上述技术目的,本申请实施例提供了如下技术方案:一种低资源文档分类方法,包括:构建句子平行语料库,所述句子平行语料库中存储有高资源语料和低资源语料的对应关系;将所述句子平行语料库中的高资源语料和低资源语料表示在同一向量空间中,以获得双语词向量;获取有标记的高资源文档,以所述高资源语言词向量作为文档特征表示,得到高资源训练样本;利用所述高资源训练样本训练预设高资源文档分类模型,以获得高资源语言文档分类模型;获取无标记的低资源文档,以所述低资源语言词向量作为文档特征表示,得到低资源训练样本;利用高资源语言文档分类模型对待分类低资源样本进行分类。可选的,所述构建句子平行语料库包括:通过同一媒体高资源和低资源收集高资源句子和低资源句子的对应关系;对收集到的高资源句子和低资源句子分别进行分词处理,以获得高资源语料和低资源语料;将所述高资源语料和低资源语料的对应关系进行存储,以获得所述句子平行语料库。可选的,所述将所述句子平行语料库中的高资源语料和低资源语料表示在同一向量空间包括:将高资源语料和低资源语料输入双语词向量生成模型,以获得表示在同一向量空间中的高资源词向量和低资源词向量。可选的,所述获取有标记的高资源文档,以所述高资源语言词向量作为文档特征表示,得到高资源训练样本包括:获取待分词高资源文档,并对所述待分词高资源文档中的高资源句子进行分词处理,以获得高资源语料表示的高资源文档;以所述高资源语言词向量作为高资源语言文档特征表示,将高资源语言文档向量化,以获得所述高资源训练样本。可选的,所述获取无标记的低资源文档,以所述低资源语言词向量作为文档特征表示,得到低资源训练样本包括:获取待分词低资源文档,并对所述待分词低资源文档中的低资源句子进行分词处理,获得低资源语料表示的低资源文档;以所述低资源语言词向量作为低资源语言文档特征表示,将低资源语言文档向量化,以获得所述低资源训练样本。一种低资源文档分类系统,包括:语料库构建模块,用于构建句子平行语料库,所述句子平行语料库中存储有高资源语料和低资源语料的对应关系;词向量表示模块,用于将所述句子平行语料库中的高资源语料和低资源语料表示在同一向量空间中,以获得双语词向量;训练样本获取模块,用于获取有标记的高资源文档,以所述高资源语言词向量作为文档特征表示,得到高资源训练样本;模型训练模块,用于利用所述高资源训练样本训练预设高资源文档分类模型,以获得高资源语言文档分类模型;低资源样本获取模块,用于获取无标记的低资源文档,以所述低资源语言词向量作为文档特征表示,得到低资源训练样本;分类模块,用于利用高资源语言文档分类模型对待分类低资源样本进行分类。可选的,所述语料库构建模块包括:句子收集单元,用于通过同一媒体高资源和低资源收集高资源句子和低资源句子的对应关系;第一分词单元,用于对收集到的高资源句子和低资源句子分别进行分词处理,以获得高资源语料和低资源语料;存储单元,用于将所述高资源语料和低资源语料的对应关系进行存储,以获得所述句子平行语料库。可选的,所述词向量表示模块将所述句子平行语料库中的高资源语料和低资源语料表示在同一向量空间中具体用于,将高资源语料和低资源语料输入双语词向量生成模型,以获得表示在同一向量空间中的高资源词向量和低资源词向量。可选的,所述训练样本获取模块包括:第二分词单元,用于获取待分词高资源文档,并对所述待分词高资源文档中的高资源句子进行分词处理,以获得高资源语料表示的高资源文档;训练样本获取单元,以所述高资源语言词向量作为高资源语言文档特征表示,将高资源语言文档向量化,以获得所述高资源训练样本。可选的,所述低资源样本获取模块包括:第三分词单元,用于获取待分词低资源文档,并对所述待分词低资源文档中的低资源句子进行分词处理,获得低资源语料表示的低资源文档;低资源样本获取单元,以所述低资源语言词向量作为低资源语言文档特征表示,将低资源语言文档向量化,以获得所述低资源训练样本。从上述技术方案可以看出,本申请实施例提供了一种低资源文档分类方法及分类系统,其中,所述低资源文档分类方法首先通过构建句子平行语料库,并将句子平行语料库中的高资源语料和低资源语料表示在同一向量空间,获得双语词向量空间;然后,以高资源语言词向量为文档表示特征,将高资源文档转换为向量表示的高资源训练样本,并利用这些有标记的高资源训练样本对成熟的预设高资源文档分类模型进行训练,获得高资源语言文档分类模型;最后直接利用所得高资源语言文档分类模型对待分类低资源样本进行分类。所述低资源文档分类方法基于迁移学习技术实现了在不需要低资源语言的训练样本的基础上,获得适用于低资源语言的文档分类模型的目的,如基于迁移学习,将有标注的高资源训练样本得到的高资源语言文档分类模型迁移至低资源语言的文档分类过程中,降低了低资源语言的研究门槛,为文档分类技术在低资源语言中的发展和应用提供了可能。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请的一个实施例提供的一种低资源文档分类方法的流程示意图;图2为本申请的另一个实施例提供的一种低资源文档分类方法的流程示意图;图3为本申请的又一个实施例提供的一种低资源文档分类方法的流程示意图;图4为本申请的一个优选实施例提供的一种低资源文档分类方法的流程示意图;图5为本申请的另一个优选实施例提供的一种低资源文档分类方法的流程示意图;图6为本申请的一个实施例提供的一种低资源文档分类系统的结构示意图;图7为本申请的另一个实施例提供的一种低资源文档分类系统的结构示意图;图8为本申请的又一个实施例提供的一种低资源文档分类系统的结构示意图;图9为本申请的再一个实施例提供的一种低资源文档分类系统的结构示意图。具体实施方式现有技术中常用的文档分类方法,例如K近邻法、支持向量机、朴素贝叶斯和神经网络等大都采用浅层结构,为了使利用这些方法获得文档分类模型具有较好的性能,系统必须融入大量的人工特征。这些人工特征的集合一般具有维度高、数据稀疏和特征间相关性大的特点,这就使得文档分类变得十分困难。而深度学习能够从数据中自动学习有效的语义特征表示,在自然语言处理中使用深度学习模型首先需要将特征表示从离散的one-hot向量表示转换为连续的稠密向量表示,称为词向量。词向量表示的一个优点是特征之间存在“距离”概念,即语义相似的词语在空间中的距离相近,解决了传统特征表示中“语义鸿沟”和“维灾难”的问题。多语词向量MultilingualWordEmbedding没有明确的定义,其概念来自双语词向量。将多种语言的词向量表示在同一向量空间,且同样满足两语义相似词语同语言或跨语言的词向量在向量空间上的距离也相近。利用上述现有方法进行低资源语言的文档分类无一例外地需要大量的有标记的低资源训练样本对文档分类模型进行训练,以保证获得的文档分类模型具有良好的性能。但是正如背景技术所述,关于低资源语言的有标注的训练样本长期处于匮乏状态,难以利用常规的文档分类模型的训练方法获得,因此,本申请实施例基于迁移学习理论,将高资源语言中成熟的文档分类模型迁移应用于低资源语言的文档分类过程中,实现了不需要低资源语言的训练样本的基础上,获得适用于低资源语言的高资源语言文档分类模型的目的。下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请实施例提供了一种低资源文档分类方法,如图1所示,包括:S101:构建句子平行语料库,所述句子平行语料库中存储有高资源语料和低资源语料的对应关系;需要说明的是,所述低资源语料是指以低资源语言表示的句子或词汇,所述低资源语言是指使用人数较少、语言和语音的研究比较落后的语言,例如小语种外语和少数民族语言,其中,少数民族语音包括但不限于蒙语、藏语、维吾尔语、壮语、锡伯语、乌孜别克语、柯尔克孜语、塔塔尔语、彝语、纳西语、苗语、景颇语、傈僳语、拉祜语和佤语;小语种外语包括但不限于波斯语、泰语、朝鲜语、韩语、越南语、阿拉伯语、日语、印度语、马来语、缅甸语、僧伽罗语、豪萨语、德语、法语、西班牙语、意大利语、葡萄牙语、俄语、乌克兰语、瑞典语、捷克语、阿尔巴尼亚语、波兰语和塞尔维亚语。同样的,所述高资源语料是指以高资源语言表示的句子或词汇,所述高资源语言是指使用人数较多,语言和语音研究比较领先的语言,包括但不限于汉语、英语、俄罗斯语和阿拉伯语。在图1所示实施例的基础上,在本申请的一个实施例中,如图2所示,所述构建句子平行语料库包括:S1011:通过同一媒体高资源和低资源收集高资源句子和低资源句子的对应关系;某一媒体的高资源是指某一媒体利用高资源语言表示的刊物版本,例如人民日报的汉语版;某一媒体的低资源是指某一媒体利用低资源语言表示的刊物版本,例如人民日报的藏语版。以汉语和藏语为例,在收集高资源句子和低资源句子时,可以通过诸如人民日报等媒体的汉语版和藏语版对照收集汉语句子和对应的藏语句子,其中,汉语句子和藏语句子相对应是指具有相同或相似的语义表达;以汉语和英语举例,汉语中的“我爱苹果”和英语中的“Iloveapples”为具有对应关系的句子。S1012:对收集到的高资源句子和低资源句子分别进行分词处理,以获得高资源语料和低资源语料;在对收集到的高资源句子和低资源句子进行分词处理时,可以采用现有的分词工具进行,仍以上述例子为例,以汉语为例,对汉语句子进行分词时可以采用“Jieba分词”进行;以藏语为例,对藏语句子进行分词时可以采用“藏语信息技术处理平台”中的分词工具进行。在对高资源句子和低资源句子进行分词处理后,得到的各个词汇可以作为对应的高资源语料和低资源语料,仍然以汉语句子“我爱苹果”为例,对其进行分词后,获得的汉语语料为“我”、“爱”、“苹果”这四个词汇;以英语句子“Iloveapples”为例,对其进行分词后,获得的英语语料为“I”“love”“apples”;那么在句子平行语料库中,这两个句子中的语料的对应关系为:“我”对应“I”,“爱”对应“love”,“苹果”对应“apples”。S1013:将所述高资源语料和低资源语料的对应关系进行存储,以获得所述句子平行语料库。S102:将所述句子平行语料库中的高资源语料和低资源语料表示在同一向量空间中,获得双语词向量空间,所述双语词向量空间中包括高资源词向量与高资源语料的对应关系,以及低资源词向量和低资源语料的对应关系;在上述实施例的基础上,在本申请的另一个实施例中,如图3所示,所述将所述句子平行语料库中的高资源语料和低资源语料表示在同一向量空间中包括:S1021:将高资源语料和低资源语料输入双语词向量生成模型,以获得表示在同一向量空间中的高资源词向量和低资源词向量。一般情况下,当双语词向量生成模型的性能较好时,获得的表示在同一向量空间中的高资源词向量和低资源词向量的距离越近,这样一来利用高资源词向量表示的高资源训练样本训练的高资源语言文档分类模型对于待分类低资源样本就有更好的适用性。在本申请的一个实施例中,可以采用BilBOWA双语词向量生成模型对高资源语料和低资源语料进行训练,获得表示在同一向量空间中的高资源词向量和低资源词向量。所述双语词向量空间的维度一般在100维-300维,具体视采用的双语词向量生成模型的种类和实际情况而定。S103:获取有标记的高资源文档,以所述高资源语言词向量作为文档特征表示,得到高资源训练样本;在上述实施例的基础上,在本申请的又一个实施例中,如图4所示,所述获取有标记的高资源文档,以所述高资源语言词向量作为文档特征表示,得到高资源训练样本包括:S1031:获取待分词高资源文档,并对所述待分词高资源文档中的高资源句子进行分词处理,以获得高资源语料表示的高资源文档;S1032:以所述高资源语言词向量作为高资源语言文档特征表示,将高资源语言文档向量化,以获得所述高资源训练样本。具体地,仍然以汉语作为高资源语言,假设某一汉语言文档仅包括“我爱苹果”这一个句子,该句子经过分词后获得“我”“爱”“苹果”三个汉语语料,通过在双语词向量空间中根据高资源词向量与高资源语料的对应关系,查找这三个汉语语料的汉语词向量表示,将“我爱苹果”这个句子利用汉语词向量表示,即获得“我爱苹果”这个句子对应的汉语词向量表示形式,也就是获得了该汉语言文档对应的汉语训练样本,在所述双语词向量空间中,该句子和低资源语言表示的同义句在该空间中的词向量表示相近,为实现共用文档分类模型提供了可能,也就是为实现跨语言的迁移学习提供了可能。S104:利用所述高资源训练样本训练预设高资源文档分类模型,以获得高资源语言文档分类模型;S105:获取无标记的低资源文档,以所述低资源语言词向量作为文档特征表示,得到低资源训练样本;在上述实施例的基础上,在本申请的一个具体实施例中,如图5所示,所述利用高资源语言文档分类模型对待分类低资源样本进行分类包括:S1051:获取待分词低资源文档,并对所述待分词低资源文档中的低资源句子进行分词处理,获得低资源语料表示的低资源文档;S1052:以所述低资源语言词向量作为低资源语言文档特征表示,将低资源语言文档向量化,以获得所述低资源训练样本。同样的,在对获取的低资源文档进行分类时,需要将其利用所述双语词向量空间中的低资源词向量进行表示,由于在所述双语词向量空间中的低资源词向量和高资源词向量具有非常相近的表示,因此,利用高资源语言的训练样本训练获得的高资源文档分类模型可以适用于对待分类低资源样本的分类。S106:利用高资源语言文档分类模型对待分类低资源样本进行分类。需要说明的是,低资源语言和高资源语言均为语言,有着语言的共性却并不相同,这里的语言共性是指:经过双语词向量生成模型的两种语言,语义相近或相似的词在同一向量空间中有着相似的词向量表达,词向量除了包含语义信息外,还隐含这词语的词性标签、依存关系等更多的潜在信息。这些潜在信息与语义相似度有着较强的关联:语义相似度相近的两个词,往往在这些潜在信息上也存在相似性,这为低资源语言可以共用利用高资源训练样本训练获得的高资源语言文档分类模型提供了前提,也就是说,低资源语言和高资源语言满足了迁移学习满足源领域和目标领域相关但不相同的条件;而迁移学习另一需要满足的条件是:源领域和目标领域的任务相同;在本申请中具体表现为低资源语言和高资源语言的处理任务均为文档分类,满足源领域和目标领域的任务相同的条件,因此可以实现跨语言的迁移学习,可以通过将高-低资源表示在同一向量空间,实现高资源语言向低资源语言的知识迁移。迁移学习是指利用更少的训练数据、运用已有的知识来学习与之相关的新知识。跨语言知识迁移,是指将一种语言上的处理技术和语言知识如词性标注和依存句法分析等向另一语言进行迁移。跨语言知识迁移的理论基础是迁移学习理论。迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种特殊的机器学习方法,它放宽了传统机器学习中的两个基本假设:1用于学习的训练样本与新的测试样本满足独立同分布的条件;2必须有足够可利用的训练样本才能学习得到一个好的分类模型。其目的是将已有知识进行迁移,用于解决目标领域中仅有少量有标注样本数据甚至没有的问题。跨语言知识迁移所要解决的问题有着类似的特点:高资源语言的标注语料资源多、常规处理技术成熟,低资源语言的语料资源少且无标注,常规处理技术无法适用。实现跨语言知识迁移就能够将高资源语言的语言知识迁移到低资源语言上,在无标注语料的情况下利用迁移的语言知识直接对低资源语言进行处理。从上述技术方案可以看出,本申请实施例提供的低资源文档分类方法首先通过构建句子平行语料库,并将句子平行语料库中的高资源语料和低资源语料表示在同一向量空间中,获得双语词向量空间;然后根据所述双语词向量空间,将高资源文档转换为高资源词向量表示的高资源训练样本,并利用这些高资源训练样本对成熟的预设高资源文档分类模型进行训练,获得高资源语言文档分类模型;最后利用高资源语言文档分类模型对待分类低资源样本进行分类。所述低资源文档分类方法基于迁移学习技术实现了在不需要低资源语言的训练样本的基础上,获得适用于低资源语言的高资源语言文档分类模型的目的,如基于迁移学习将通过高资源训练样本得到的高资源语言文档分类模型迁移应用于低资源语言的文档分类过程中,降低了低资源语言的研究门槛,为文档分类技术在低资源语言中的发展和应用提供了可能。相应的,本申请实施例还提供了一种低资源文档分类系统,如图6所示,包括:语料库构建模块100,用于构建句子平行语料库,所述句子平行语料库中存储有高资源语料和低资源语料的对应关系;词向量表示模块200,用于将所述句子平行语料库中的高资源语料和低资源语料表示在同一向量空间中,以获得双语词向量空间,所述双语词向量空间中包括高资源词向量与高资源语料的对应关系,以及低资源词向量和低资源语料的对应关系;训练样本获取模块300,用于获取有标记的高资源文档,以所述高资源语言词向量作为文档特征表示,得到高资源训练样本;模型训练模块400,用于利用所述高资源训练样本训练预设高资源文档分类模型,以获得高资源语言文档分类模型;低资源样本获取模块500,用于获取无标记的低资源文档,以所述低资源语言词向量作为文档特征表示,得到低资源训练样本;分类模块600,用于利用高资源语言文档分类模型对待分类低资源样本进行分类。需要说明的是,所述低资源语料是指以低资源语言表示的句子或词汇,所述低资源语言是指使用人数较少、语言和语音的研究比较落后的语言,例如小语种外语和少数民族语言,其中,少数民族语音包括但不限于蒙语、藏语、维吾尔语、壮语、锡伯语、乌孜别克语、柯尔克孜语、塔塔尔语、彝语、纳西语、苗语、景颇语、傈僳语、拉祜语和佤语;小语种外语包括但不限于波斯语、泰语、朝鲜语、韩语、越南语、阿拉伯语、日语、印度语、马来语、缅甸语、僧伽罗语、豪萨语、德语、法语、西班牙语、意大利语、葡萄牙语、俄语、乌克兰语、瑞典语、捷克语、阿尔巴尼亚语、波兰语和塞尔维亚语。同样的,所述高资源语料是指以高资源语言表示的句子或词汇,所述高资源语言是指使用人数较多,语言和语音研究比较领先的语言,包括但不限于汉语、英语、俄罗斯语和阿拉伯语。还需要说明的是,低资源语言和高资源语言均为语言,有着语言的共性却并不相同,这里的语言共性是指:经过双语词向量生成模型的两种语言,语义相近或相似的词在同一向量空间中有着相似的词向量表达,词向量除了包含语义信息外,还隐含这词语的词性标签、依存关系等更多的潜在信息。这些潜在信息与语义相似度有着较强的关联:语义相似度相近的两个词,往往在这些潜在信息上也存在相似性,这为低资源语言可以共用利用高资源训练样本训练获得的高资源语言文档分类模型提供了前提,也就是说,低资源语言和高资源语言满足了迁移学习满足源领域和目标领域相关但不相同的条件;而迁移学习另一需要满足的条件是:源领域和目标领域的任务相同;在本申请中具体表现为低资源语言和高资源语言的处理任务均为文档分类,满足源领域和目标领域的任务相同的条件,因此可以实现跨语言的迁移学习,可以通过将高-低资源表示在同一向量空间,实现高资源语言向低资源语言的知识迁移。迁移学习是指利用更少的训练数据、运用已有的知识来学习与之相关的新知识。跨语言知识迁移,是指将一种语言上的处理技术和语言知识如词性标注和依存句法分析等向另一语言进行迁移。跨语言知识迁移的理论基础是迁移学习理论。迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种特殊的机器学习方法,它放宽了传统机器学习中的两个基本假设:1用于学习的训练样本与新的测试样本满足独立同分布的条件;2必须有足够可利用的训练样本才能学习得到一个好的分类模型。其目的是将已有知识进行迁移,用于解决目标领域中仅有少量有标注样本数据甚至没有的问题。跨语言知识迁移所要解决的问题有着类似的特点:高资源语言的标注语料资源多、常规处理技术成熟,低资源语言的语料资源少且无标注,常规处理技术无法适用。实现跨语言知识迁移就能够将高资源语言的语言知识迁移到低资源语言上,在无标注语料的情况下利用迁移的语言知识直接对低资源语言进行处理。所述低资源文档分类系统首先通过构建句子平行语料库,并将句子平行语料库中的高资源语料和低资源语料表示在同一向量空间中,获得双语词向量空间;然后根据所述双语词向量空间,将高资源文档转换为高资源词向量表示的高资源训练样本,并利用这些高资源训练样本对成熟的预设高资源文档分类模型进行训练,获得高资源语言文档分类模型;最后利用高资源语言文档分类模型对待分类低资源样本进行分类。所述低资源文档分类方法基于迁移学习技术实现了在不需要低资源语言的训练样本的基础上,获得适用于低资源语言的高资源语言文档分类模型的目的,降低了低资源语言的研究门槛,为文档分类技术在低资源语言中的发展和应用提供了可能。在上述实施例的基础上,在本申请的一个实施例中,如图7所示,所述语料库构建模块100包括:句子收集单元110,用于通过同一媒体高资源和低资源收集高资源句子和低资源句子的对应关系;第一分词单元120,用于对收集到的高资源句子和低资源句子分别进行分词处理,以获得高资源语料和低资源语料;存储单元130,用于将所述高资源语料和低资源语料的对应关系进行存储,以获得所述句子平行语料库。需要说明的是,所述高资源是指某一媒体利用高资源语言表示的刊物版本,例如人民日报的汉语版;所述低资源是指某一媒体利用低资源语言表示的刊物版本,例如人民日报的藏语版。以汉语和藏语为例,在收集高资源句子和低资源句子时,可以通过诸如人民日报等媒体的汉语版和藏语版对照收集汉语句子和对应的藏语句子,其中,汉语句子和藏语句子相对应是指具有相同或相似的语义表达;以汉语和英语距离,汉语中的“我爱苹果”和英语中的“Iloveapples”为具有对应关系的句子;在对收集到的高资源句子和低资源句子进行分词处理时,可以采用现有的分词工具进行,以汉语为例,对汉语句子进行分词时可以采用“Jieba分词”进行;以藏语为例,对藏语句子进行分词时可以采用“藏语信息技术处理平台”中的分词工具进行;仍然以汉语句子“我爱苹果”为例,对其进行分词后,获得的汉语语料为“我”、“爱”、“苹果”这四个词汇;以英语句子“Iloveapples”为例,对其进行分词后,获得的英语语料为“I”“love”“apples”;那么在句子平行语料库中,这两个句子中的语料的对应关系为:“我”对应“I”,“爱”对应“love”,“苹果”对应“apples”。在上述实施例的基础上,在本申请的另一个实施例中,所述词向量表示模块200将所述句子平行语料库中的高资源语料和低资源语料表示在同一向量空间中具体用于,将高资源语料和低资源语料输入双语词向量生成模型,获得表示在同一向量空间中的高资源词向量和低资源词向量。一般情况下,当双语词向量生成模型的性能较好时,获得的表示在同一向量空间中的高资源词向量和低资源词向量的距离越近,这样一来利用高资源词向量表示的高资源训练样本训练的高资源语言文档分类模型对于待分类低资源样本就有更好的适用性;在本申请的一个实施例中,可以采用BilBOWA双语词向量生成模型对高资源语料和低资源语料进行训练,获得表示在同一向量空间中的高资源词向量和低资源词向量。所述双语词向量空间的维度一般在100维-300维,具体视采用的双语词向量生成模型的种类和实际情况而定。在上述实施例的基础上,在本申请的又一个实施例中,如图8所示,所述训练样本获取模块300包括:第二分词单元310,用于获取待分词高资源文档,并对所述待分词高资源文档中的高资源句子进行分词处理,以获得高资源语料表示的高资源文档;训练样本获取单元320,用于以所述高资源语言词向量作为高资源语言文档特征表示,将高资源语言文档向量化。具体地,仍然以汉语作为高资源语言,假设某一汉语言文档仅包括“我爱苹果”这一个句子,该句子经过分词后获得“我”“爱”“苹果”三个汉语语料,通过在双语词向量空间中根据高资源词向量与高资源语料的对应关系,查找这三个汉语语料的汉语词向量表示,将“我爱苹果”这个句子利用汉语词向量表示,即获得“我爱苹果”这个句子对应的汉语词向量表示形式,也就是获得了该汉语言文档对应的汉语训练样本,在所述双语词向量空间中,该句子和低资源语言表示的同义句在该空间中的词向量表示相近,为实现共用文档分类模型提供了可能,也就是为实现跨语言的迁移学习提供了可能。在上述实施例的基础上,在本申请的一个具体实施例中,如图9所示,所述低资源样本获取模块500包括:第三分词单元510,用于获取待分词低资源文档,并对所述待分词低资源文档中的低资源句子进行分词处理,获得低资源语料表示的低资源文档;低资源样本获取单元520,用于以所述低资源语言词向量作为低资源语言文档特征表示,将低资源语言文档向量化,以获得所述低资源训练样本。同样的,在对获取的低资源文档进行分类时,需要将其利用所述双语词向量空间中的低资源词向量进行表示,由于在所述双语词向量空间中的低资源词向量和高资源词向量具有非常相近的表示,因此,利用高资源语言的训练样本训练获得的高资源文档分类模型可以适用于对待分类低资源样本的分类。综上所述,本申请实施例提供了一种低资源文档分类方法及分类系统,其中,所述低资源文档分类方法首先通过构建句子平行语料库,并将句子平行语料库中的高资源语料和低资源语料表示在同一向量空间,获得双语词向量空间;然后,以高资源语言词向量为文档表示特征,将高资源文档转换为向量表示的高资源训练样本,并利用这些有标记的高资源训练样本对成熟的预设高资源文档分类模型进行训练,获得高资源语言文档分类模型;最后直接利用所得高资源语言文档分类模型对待分类低资源样本进行分类。所述低资源文档分类方法基于迁移学习技术实现了在不需要低资源语言的训练样本的基础上,获得适用于低资源语言的文档分类模型的目的,如基于迁移学习,将有标注的高资源训练样本得到的高资源语言文档分类模型迁移至低资源语言的文档分类过程中,降低了低资源语言的研究门槛,为文档分类技术在低资源语言中的发展和应用提供了可能。本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

权利要求:1.一种低资源文档分类方法,其特征在于,包括:构建句子平行语料库,所述句子平行语料库中存储有高资源语料和低资源语料的对应关系;将所述句子平行语料库中的高资源语料和低资源语料表示在同一向量空间中,以获得双语词向量;获取有标记的高资源文档,以所述高资源语言词向量作为文档特征表示,得到高资源训练样本;利用所述高资源训练样本训练预设高资源文档分类模型,以获得高资源语言文档分类模型;获取无标记的低资源文档,以所述低资源语言词向量作为文档特征表示,得到低资源训练样本;利用高资源语言文档分类模型对待分类低资源样本进行分类。2.根据权利要求1所述的方法,其特征在于,所述构建句子平行语料库包括:通过同一媒体高资源和低资源收集高资源句子和低资源句子的对应关系;对收集到的高资源句子和低资源句子分别进行分词处理,以获得高资源语料和低资源语料;将所述高资源语料和低资源语料的对应关系进行存储,以获得所述句子平行语料库。3.根据权利要求1所述的方法,其特征在于,所述将所述句子平行语料库中的高资源语料和低资源语料表示在同一向量空间包括:将高资源语料和低资源语料输入双语词向量生成模型,以获得表示在同一向量空间中的高资源词向量和低资源词向量。4.根据权利要求1所述的方法,其特征在于,所述获取有标记的高资源文档,以所述高资源语言词向量作为文档特征表示,得到高资源训练样本包括:获取待分词高资源文档,并对所述待分词高资源文档中的高资源句子进行分词处理,以获得高资源语料表示的高资源文档;以所述高资源语言词向量作为高资源语言文档特征表示,将高资源语言文档向量化,以获得所述高资源训练样本。5.根据权利要求1所述的方法,其特征在于,所述获取无标记的低资源文档,以所述低资源语言词向量作为文档特征表示,得到低资源训练样本包括:获取待分词低资源文档,并对所述待分词低资源文档中的低资源句子进行分词处理,获得低资源语料表示的低资源文档;以所述低资源语言词向量作为低资源语言文档特征表示,将低资源语言文档向量化,以获得所述低资源训练样本。6.一种低资源文档分类系统,其特征在于,包括:语料库构建模块,用于构建句子平行语料库,所述句子平行语料库中存储有高资源语料和低资源语料的对应关系;词向量表示模块,用于将所述句子平行语料库中的高资源语料和低资源语料表示在同一向量空间中,以获得双语词向量;训练样本获取模块,用于获取有标记的高资源文档,以所述高资源语言词向量作为文档特征表示,得到高资源训练样本;模型训练模块,用于利用所述高资源训练样本训练预设高资源文档分类模型,以获得高资源语言文档分类模型;低资源样本获取模块,用于获取无标记的低资源文档,以所述低资源语言词向量作为文档特征表示,得到低资源训练样本;分类模块,用于利用高资源语言文档分类模型对待分类低资源样本进行分类。7.根据权利要求6所述的系统,其特征在于,所述语料库构建模块包括:句子收集单元,用于通过同一媒体高资源和低资源收集高资源句子和低资源句子的对应关系;第一分词单元,用于对收集到的高资源句子和低资源句子分别进行分词处理,以获得高资源语料和低资源语料;存储单元,用于将所述高资源语料和低资源语料的对应关系进行存储,以获得所述句子平行语料库。8.根据权利要求6所述的系统,其特征在于,所述词向量表示模块将所述句子平行语料库中的高资源语料和低资源语料表示在同一向量空间中具体用于,将高资源语料和低资源语料输入双语词向量生成模型,以获得表示在同一向量空间中的高资源词向量和低资源词向量。9.根据权利要求6所述的系统,其特征在于,所述训练样本获取模块包括:第二分词单元,用于获取待分词高资源文档,并对所述待分词高资源文档中的高资源句子进行分词处理,以获得高资源语料表示的高资源文档;训练样本获取单元,以所述高资源语言词向量作为高资源语言文档特征表示,将高资源语言文档向量化,以获得所述高资源训练样本。10.根据权利要求6所述的系统,其特征在于,所述低资源样本获取模块包括:第三分词单元,用于获取待分词低资源文档,并对所述待分词低资源文档中的低资源句子进行分词处理,获得低资源语料表示的低资源文档;低资源样本获取单元,以所述低资源语言词向量作为低资源语言文档特征表示,将低资源语言文档向量化,以获得所述低资源训练样本。

百度查询: 中国人民解放军战略支援部队信息工程大学 一种低资源文档分类方法及分类系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。