买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于倒排索引的评估类文档不定长词句的查询方法_哈尔滨工业大学_201811153438.8 

申请/专利权人:哈尔滨工业大学

申请日:2018-09-30

公开(公告)日:2022-02-08

公开(公告)号:CN109284352B

主分类号:G06F16/31(20190101)

分类号:G06F16/31(20190101);G06F40/289(20200101);G06F40/242(20200101)

优先权:

专利状态码:有效-授权

法律状态:2022.02.08#授权;2019.03.01#实质审查的生效;2019.01.29#公开

摘要:一种基于倒排索引的评估类文档不定长词句的查询方法,它涉及数据科学领域的索引方法以及NLP领域的分词方法,解决了评估类文档不定长词句的查询问题。本发明的步骤为:一、对待查询文档进行数据预处理,利用jieba分词方法进行分词处理,得到单词词典与词频信息;二、基于完全重建策略的倒排索引原理建立自适应倒排表;三、结合待查找不定长词句的信息,通过自适应倒排表索引词句中各个单词位置信息,识别不定长词句位置信息并索引其所在段落,来完成评估类文档不定长词句的查询功能。本发明的基本思想是对文本数据进行分词,建立倒排索引,进而实现快速搜索不定长词句,从而实现对评估类文档的查询功能。应用场景广泛,因而具有很高的社会经济价值。

主权项:1.一种基于倒排索引的评估类文档不定长词句的查询方法,其特征在于它包括以下步骤:步骤一:将待查询文档进行数据预处理,统一转换为纯文本格式存储,并添加自定义词典和停用词表,利用jieba分词方法,采用Tire树结构存储单词,生成DAG图并基于DP算法计算最优切分方案,并通过中文词汇BMES状态表记法来进行分词处理,得到单词词典与词频信息;步骤二:基于完全重建策略的倒排索引原理,通过调整存储结构、强化单词位置信息、压缩存储空间,建立自适应倒排表和倒排生成文件,实现快速提取单词位置、频率信息;步骤三:结合所需要查找不定长词句的信息,通过倒排表索引词句中各个分词位置信息,基于字符串匹配方法识别不定长词句位置信息并索引其所在段落,来完成评估类文档不定长词句的查询功能。

全文数据:一种基于倒排索引的评估类文档不定长词句的查询方法技术领域本发明涉及数据科学领域的数据索引方法以及自然语言处理领域的分词方法,具体涉及一种基于倒排索引的评估类文档不定长词句的查询方法。背景技术随着信息时代数据量的爆炸式增长,人们发现海量数据的的背后隐藏着巨大的数据价值,这吸引了越来越多的研究人员对数据进行研究。对于结构化数据的数据价值,应用传统或者现代的数据挖掘手段都可以得到较好的结果,但是对于非结构化数据,如海量评估类文本报告等数据的数据价值,则需要现代数据挖掘手段以及自然语言处理等领域的方法来提取信息价值。评估类文档的特点是数字评价及文字评价并存,且没有明确的评价准则或评价公式,以非结构化数据的形式广泛存在于教育机构、研究机构及统计机构等数据库中。目前,多数情况下是使用人工筛选的方式对海量文本数据来检索并提取所需信息,这不但需要耗费大量的人力资源还需要大量的时间成本。本专利提供的方法能够对大量文本数据针对其评估类文档建立检索词库,可以在短时间内查找所需信息,从而可以大幅改善改进评估机制体系。利用分词技术和倒排索引原理进行词汇检索在国内外已经取得了一些研究成果,但针对评估类文档不定长词句的快速检索技术的研究较少,仍处于探索阶段。中文分词是指将文本数据中的字序列切分成若干个单独的词的过程。目前中文分词主要思想可以分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。倒排索引源于实际应用中需要根据属性的值来查找记录,通过建立倒排表,其中每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引。倒排索引实现的步骤包括获取关键字、建立倒排索引、索引实现和压缩算法。目前存在的检索技术都是针对大规模数据的快速检索方法,但是为了具有普适性而对专业领域进行检索时,往往会查询不到合适的结果,本发明通过对倒排索引结构进行调整,不仅能够对所需信息进行快速检索,确保了查询结果的快速性。此外,还能结合评估类文档的数据库对不定长的专业词句进行检索,保证了查询结果的准确性。这些创新性方法可以帮助我们在评估类文本的非结构化数据中快速准确地实现挖掘检索从而得到理想的查询结果。发明内容由于目前非结构化文本数据量逐年提高,传统人工检索评估类文档词句信息的方法需要耗费大量人力与时间成本,而且准确率与完整度不高。本发明的目的在于克服现有人工检索评估类文档词句信息的不足,提供一种基于倒排索引的评估类文档不定长词句的查询方法,从而可以快速准确地从文本数据中检索信息,挖掘数据价值。本发明的目的是通过以下技术方案实现的:首先,将待查询文档进行数据预处理,将文档数据统一为纯文本格式存储,并跟据评估类文档常用词库来添加自定义词典和停用词表,利用jieba分词方法进行分词处理,得到单词词典与词频信息;然后,基于完全重建策略的倒排索引原理建立自适应倒排表和倒排生成文件,提取分词位置、频率等信息;最后,结合所需要查找不定长词句的信息,通过倒排表索引词句中各个分词位置信息,基于字符串匹配方法识别不定长词句位置信息并索引其所在段落,来完成评估类文档不定长词句的查询功能。本发明的流程图如图1所示,具体步骤如下:步骤一:将待查询文档数据预处理为纯文本格式,存储在同一目录下,记为数据集D。在进行jieba分词前,须添加自定义词典和停用词表,设jieba分词词典为S0,自定义词典包含专业领域术语记为U,停用词表主要为日常用语,其特点是词语出现频率高但数据价值低,因此引入停用词表使其可以在分词过程中将这些词语屏蔽,减少计算量,提高分词效率。则自定义单词词典集合S′可表示为:S′=S0∪U;其中S0为jieba分词词典中所有单词构成的集合,U代表评估类文档中专业领域术语所构成的集合。停用词表包含常用词库,记为C1;数字,记为C2;字母,记为C3,停用词表C可表示为:C=C1∪C2∪C3;其中C1为包含日常用语等常用词汇的单词所构成的集合,因为日常用语具有出现频率高,但价值意义低的特点,因此将其加入到停用词表中可以提高检索效率;C2为数字0至9所构成的集合;C3为阿拉伯字母所构成的集合。在得到自定义词典S′和停用词表C后,最终单词词典S可以表示为:S=S′-C∪C′;C′={c′1,c′2,...,c′n}。其中C′表示具有特殊含义的字母与数字组合而成的集合,在自定义词典S′与停用词表C做差集后,与C′做并集运算得到单词词典S。自定义词典与停用词表采用与jieba词典相同的存储格式,即每个词作为一个元素占一行,每一行分为三个部分:词语、词频可省略、词性可省略,用空格隔开,不可颠倒,文件以UTF-8编码格式保存。在精确模式下对待处理文档数据进行改进的jieba分词,得到分词结果以及词频统计信息并保存,改进的jieba分词具体步骤如下:1依据单词词典S对数据集D中的所有句子进行切分,将所有可以切分成词的单词存储到Tiie树中字典树,一种树形存储结构,查询效率较高,哈希树的变种,同时将每个词的出现次数转换为频率,通过快速词图扫描,将所有可能的分词情况生成DAG图DirectedAcyclicGraph,有向无环图;2在得到了多种情况下的切分方案后,采用DP算法DynamicProgramming,动态规划算法来查找最大概率路径Rmax,对于DAG中的每个节点,其权重为对应词语的词频,记为wi,计算方法如下:由DAG图构成切分路径Route集合,包含k个切分方案:Route={R1,R2,...,Rk}。其中任意一个切分方案ri是由m个具有顺序结构关系的单词构成的序列:Ri=[word1,word2,...,wordm]i∈[1,k]。对于DAG中k个切分方案所包含的全部n个节点单词,其出现的概率为对应单词词频在所有单词词频之和中的占比,可表示为:为了选取最大概率路径Rmax,须使其路径上的单词权重概率之和W最大:对于整个句子的最优路径Rmax和末端节点wx,对于其可能存在的多个前驱节点wi,wj,wk,...,wz设达到wi,wj,wk,wz的最大路径分别为Rmaxi,Rmaxj,Rmaxk,Rmaxz有:Rmax=maxRmaxi,Rmaxj,Rmaxk,...,Rmaxz+WeightwxRmax∈Route。于是问题转化为求Rmaxi,Rmaxj,Rmaxk,...,Rmaxz组成的最优路径,其中的最优解是全局的最优解的一部分,因此状态转移方程为:Rmax=max{maxRmaxi,Rmaxj,Rmaxk,...,Rmaxz+Weightwx}Rmax∈Route。3对于单词词典S中未登录的词,通过建立HMMHiddenMarkovModel,隐马尔科夫模型,用于描述一个含有隐含未知参数的马尔可夫过程,采用Viterbi路径方法来寻找分词结果,其方法描述如下:假设给定HMM模型状态空间,共有k个状态,初始状态i的概率为πi,从状态i到状态j的转移概率为ai,j。设观察到的输出为y1,...,yT。产生观察结果的最有可能的状态序列x1,...,xT由递推关系给出:其中Vt,k是前t个最终状态为k的观测结果最有可能对应的状态序列的概率。通过保存向后指针记录在上式中用到的状态x可以获得Viterbi路径。声明一个函数Ptrk,t,若它返回t>1时计算Vt,k用到的x值,或若t=1时的k,则有:通过对中文词汇按照BMES四个状态来进行标记,B是begin开始位置,M是middle中间位置,E是end结束位置,S是single单独成词的位置。通过构建的HMM模型对大量语料进行训练后,依靠Viterbi路径方法就可以得到一个概率最大的BMES序列,基于这个序列对句子结构进行重新组合,即可得到分词结果。步骤二:基于完全重建策略的倒排索引原理,基于单词词典SD和数据集D构建单词-文档矩阵模型,并生成自适应倒排表和倒排表生成文件,以便提取单词位置、频率等信息,具体步骤如下:1通过Trie树中的单词信息与数据集D构建单词词典,其中记录数据集D中所有的单词信息、单词频率以及可以反映单词位置的数字指针;2基于单词词典信息建立自适应倒排表。由于原始单词与文档的关系为:“文档”对“文档中所有的单词”。倒排索引把这个关系倒过来,变成:“单词”对“拥有该单词的所有文档”。以n个单词Word作为key,m个文档信息DocID作为value,此外还需记录单词的字符位置LocString,即记录该词是文章中第几个字符优点是单词定位快;单词位置LocWord,即记录该词是文章中第几个单词优点是节约索引空间,词组查询快;以及单词词频F,自适应倒排表记录存储方式如下:3对词典文件中的单词进行压缩,调整倒排表存储结构,减少搜索运算次数,节省检索时间,保存生成的倒排表和倒排表生成文件。倒排表记录了每个单词在对应的文档中的字符位置和单词位置,便于快速搜索单词位置;倒排表生成文件以字符串形式压缩了倒排表中的数据信息,节约存储空间。步骤三:结合所需要查找不定长词句的信息,通过倒排表索引词句中各个分词位置信息,并通过字符串匹配方法识别不定长词句位置信息并索引其所在段落,来完成评估类文档不定长词句的查询功能,具体步骤如下:1对待查找不定长词句Sentence进行分词,切分得由n个单词组成的具有顺序结构的序列:Sentence=[Word1,Word2,...,Wordn]。2结合步骤二中得到的倒排表逐词匹配切分词的文章信息和位置信息:在倒排表中对Word1进行匹配得到其文档信息DocIDi、字符位置LocStringwordi、单词位置LocWord和单词词频F,设待匹配字符位置为LocStringk:LocStringk=LocStringwordi+1i∈[1,n]。若LocStringk=LocStringwordi+1,即待匹配字符与不定长词句中下一个单词匹配,则匹配成功,以此类推匹配直至Wordn,当所有单词匹配完毕后,将结果保存到集合Ds中,进行下一个文档DocIDi+1中的字符位置匹配;若LocStringk≠LocStringwordi+1,即匹配字符与不定长词句中下一个单词不匹配,则不保存该单词位置,进行下一个文档DocIDi+1中的字符位置匹配。3当Sentence中的所有单词匹配完成后,集合Ds可表示为:Ds={sentence1,sentence2,...,sentencen};sentencei=[DocIDi,LocSentencei,Fsi]i∈[1,n]。其中每个sentencei记录了对应文档信息DocIDi、sentencei位置不定长词句所包含的所有字符的位置信息、和sentencei频率Fsi;4对Ds中的Sentence提取sentencei位置,并双向搜索回车符,以各方向搜索得到的第一个回车符位置为界,截取回车符内文字即为该sentence所在段落信息;5显示查询的不定长词句所在文档信息,总计出现的文档频率信息以及对应文档中出现的频率信息,并摘录显示其文章段落;6对每个不定长词句的查询结果,生成一个纯文本文档,并以UTF-8编码格式保存查询结果以及段落文摘。本发明与现有技术相比具有如下优点:本发明采用了jieba分词方法,基于评估类文档特点对单词词典中的自定义词典和停用词表进行改进,优化了词典中的数据内容,提高了分词效率;并采用Tire树结构存储单词,减少了索引次数从而提高了查询效率;生成DAG图并基于DP算法来计算最优的切分方案,提高了分词的准确率;通过中文词汇BMES状态标记法来建立HMM模型并基于Viterbi路径方法来对未登录词进行分词处理,从而提高了分词的容错性。同时,本发明基于完全重建策略的倒排索引原理,在建立自适应倒排表时调整了倒排表存储结构,强化了分词在文档中的位置信息,不但提高了检索效率,还节约了存储空间;在查询不定长词句时利用排序检索方法可以快速匹配分析位置信息,从而在大量文本数据中查询得到所需文本的位置信息从而进行检索和文摘,满足使用者对评估类文档的数据检索需求,并提高了检索效率,节约查询与检索的时间。目前已存在的一些文本数据查询技术仅适用于少量文本数据查询,而且对于专业词语和不定长词句的查询一般很难检索得到结果。本发明针对评估类文档的不定长词句建立自定义词典和停用词表,基于完全重建策略的倒排索引原理建立了强化分词位置信息的自适应倒排表,从而可以在文本报告中快速查询不定长词句,并对其进行段落文摘,可以快速高效满足评估研究人员的信息检索需求。附图说明图1为本发明方法的流程图。图2为Tire树结构示例图。图3为DAG图示例图。图4为倒排表示例图。图5为倒排表生成文件示例图。图6为不定长词句查询示例图1。图7为不定长词句查询示例图2。具体实施方式下面结合高校审核评估数据阐述本发明的具体实施方式:高校审核评估数据主要为Word、PDF格式的文本报告,其中包含了对高校教学质量的定量的数字型评估,以及定性的文字型评估。其中文字型评估是评估报告的主体部分,在寻找高校间的共性问题与个体问题时,都需要对评估数据进行关键词句尤其是不定长词句的检索。执行步骤一:将待处理的评估报告进行数据预处理,统一转换为纯文本格式存储在同一目录下,如表1所示。表1待处理数据示例表序号文件名称文件类型文件格式文件大小1吉林警察学院评估类文档Word文件.doc64KB2浙江外国语学院会议类文档Word文件.doc73KB3黑龙江外国语评估类文档文本文件.txt12KB4集宁师范学院评估类文档文本文件.txt19KB5齐鲁师范学院报告类文档Word文件.doc68KB6青岛黄海学院评估类文档PDF文件.pdf349KB7齐鲁理工学院会议类文档文本文件.txt20KB8江西警察学院录音稿类文档Word文件.doc82KB9福州外语外贸学院报告类文档PDF文件.pdf450KB10文山学院评估类文档Word文件.doc75KB11保山学院评估类文档文本文件.txt15KB12山东协和会议类文档Word文件.doc109KB13新余学院报告类文档Word文件.doc98KB14湖南财政经济学院评估类文档文本文件.txt13KB15沧州师范学院录音稿类文档Word文件.doc82KB16南昌工学院评估类文档文本文件.txt20KB17广东科技学院报告类文档Word文件.doc20KB设置自定义词典和停用词表。首先将jieba分词词典与教育领域的专业词汇词典合并,其次与日常用语、数字及字母构成的停用词表集合做差集,最后为了补充常见数字及字母组合而成的特殊词汇如C9、G20等将其与差集结果做并集运算得到最终的单词词典。其中jieba词典如表2所示,词性解释如表3所示。词典文件以UTF-8编码格式存储。表2jieba词典示例表部分序号词语词频词性1一万二千余2m2一万两千名3m3一万五6m4一万五千45m5一万五千家2m6一万亿3m7一万亿美元5m8一万余41m9一万余吨2m10一万余顷2m11一万元61m12一展长才3i13一山一水5i14一展风采2i15一带一路3nz16二龙戏珠3i17二十元3m表3jieba词典词性解释表常见词性词性标注词性标注解释a形容词取英语形容词adjective的第1个字母。ad副形词直接作状语的形容词。形容词代码a和副词代码d并在一起。an名形词名词功能的形容词。形容词代码a和名词代码n并在一起。c连词取英语连词conjunction的第1个字母。d副词取adverb的第2个字母,因其第1个字母已用于形容词。f方位词取汉字“方”。i成语取英语成语idiom的第1个字母。m数词取英语numeral的第3个字母,n,u已有他用。n名词取英语名词noun的第1个字母。nr人名名词代码n和“人ren”的声母并在一起。ns地名名词代码n和处所词代码s并在一起。nt机构团体“团”的声母为t,名词代码n和t并在一起。nz其他专名“专”的声母的第1个字母为z,名词代码n和z并在一起。p介词取英语介词prepositional的第1个字母。q量词取英语quantity的第1个字母。r代词取英语代词pronoun的第2个字母,因p已用于介词。u助词取英语助词auxiliary。v动词取英语动词verb的第一个字母。vd副动词直接作状语的动词。动词和副词的代码并在一起。vn名动词指具有名词功能的动词。动词和名词的代码并在一起。w标点符号标点符号。依据单词词典对待处理数据进行分词处理,将所有可以切分成词的单词存储到Tire树中,在表2中jieba词典中的词语,Tire树结构将具有相同前缀的词作为树的枝干,不同的后缀作为枝叶,如图2所示。这种存储结构在执行查询操作的时,具有相同前缀的词只需要查询一次,因此可以减少计算次数从而提高查询效率。将每个词的出现次数转换为频率,通过快速词图扫描,将所有可能的分词情况生成DAG图。如图3所示,在“有意见分歧”的切分词图中“有”这条边的起点是0,终点是1;“有意”这条边的起点是0,终点是2,以此类推。切分方案就是从源点0到终点5之间的路径,共存在两条切分路径。路径1:0-1-3-5,对应切分方案S1:“有意见分歧”;路径2:0-2-3-5,对应切分方案S2:“有意见分歧”。根据DP算法计算最大概率路径,由于路径1上单词权重概率之和大于路径2单词权重路径之和,因此选择切分方案S1为最优方案。对于未登录的词句,通过建立HMM模型采用Viterbi路径方法来寻找分词结果。如“上海计划到本世纪末实现人均国内生产总值五千美元。”采用BMES四个状态进行标记可以标记为:“上B海E计B划E到S本S世B纪E末S实B现E人B均E国B内E生B产E总B值E五B千M美M元E。S”根据标注BMES实现了分词。执行步骤二:通过Tire树中的单词信息与待处理数据构建的单词词典,得到待处理数据中所有的单词信息、单词词频、以及可以反映单词位置的数字指针。得到各个文档的关键词集合。基于完全重建策略建立倒排索引,将词语作为key,拥有该词语的所有文档作为value建立倒排索引,记录字符位置,即记录该词语是文章中第几个字符优点是关键词定位快,同时记录词语位置,即记录该词是文章中第几个关键词优点是节约索引空间,词组查询快。为了减小索引文件的大小,首先对词典文件中的关键词进行压缩,其次是对数字的压缩,数字只保存与上一个值的差值,这样可以有效减小数字的长度,进而减少保存该数字所需要的字节数。并且用字符串表示汉字以进一步压缩文件空间,最后保存生成的倒排表和倒排表生成文件。如图4所示为倒排表文件,图5所示为倒排表生成文件。通过将词语的词典文件、频率文件以及位置文件保存。其中词典文件不仅保存了每个词语,还保留了指向频率文件和位置文件的指针,通过指针可以找到该词语的频率信息和位置信息。此后即可通过建立的倒排列表对词语进行查询操作。执行步骤三:对于jieba词典里不存在的不定长词句如“立德树人”,首先对其进行分词得到“立德”、“树”和“人”三个词的信息,在步骤二建立好的自适应倒排表中首先检索“立德”,得到其位置集合S1。将检索得到的S1中的“立德”字符位置加一后对自适应倒排表中“树”的位置信息进行匹配,若位置信息相同,则匹配成功,保存位置信息;若位置信息不相同,则匹配不成功,继续匹配“树”的下一个位置信息。将匹配成功的位置集合记为S2。用相同的方法将S2中“树”的字符位置加一后对自适应倒排表中“人”的位置信息进行匹配,若位置信息相同,则匹配成功,保存位置信息;若位置信息不相同,则匹配不成功,继续匹配“人”的下一个位置信息,最终匹配成功的位置集合为S3。则S3中所包含的位置信息即为不定长词句“立德树人”的位置信息,因此搜索S3中的位置信息即可得到“立德树人”的查询结果。依据得到的S3位置集合,分别向前向后双向搜索回车符位置,以搜索得到的回车符为界截取得到对应不定长词句“立德树人”所在段落的位置信息,截取前后两个回车符内的文字内容,从而进行段落文摘,得到所有包含不定长词句“立德树人”的段落信息。最后保存查询结果,在S3中提取对应文档ID和不定长词句“立德树人”的频率信息,显示对应文档中不定长词句“立德树人”出现的频率,并通过段落文摘显示不定长词句“立德树人”所在的段落信息,如图6和图7所示。本实施例中图6和图7的人机界面,以及jieba分词和倒排索引的算法实现都是基于3.6.3版本Python编写的,但是本发明专利的实施并不局限于Python语言的开发,采用其他语言及开发环境进行该专利方法的编程实现,都应在本专利的保护范围之内。

权利要求:1.一种基于倒排索引的评估类文档不定长词句的查询方法,其特征在于它包括以下步骤:步骤一:将待查询文档进行数据预处理,统一转换为纯文本格式存储,并添加自定义词典和停用词表,利用jieba分词方法,采用Tire树结构存储单词,生成DAG图并基于DP算法计算最优切分方案,并通过中文词汇BMES状态表记法来进行分词处理,得到单词词典与词频信息;步骤二:基于完全重建策略的倒排索引原理,通过调整存储结构、强化单词位置信息、压缩存储空间,建立自适应倒排表和倒排生成文件,实现快速提取单词位置、频率等信息;步骤三:结合所需要查找不定长词句的信息,通过倒排表索引词句中各个分词位置信息,基于字符串匹配方法识别不定长词句位置信息并索引其所在段落,来完成评估类文档不定长词句的查询功能。2.根据权利要求1所述的基于倒排索引的评估类文档不定长词句的查询方法,其特征在于所述的步骤一具体包括:将待查询文档数据预处理为纯文本格式,存储在同一目录下,记为数据集D;在进行jieba分词前,须添加自定义词典和停用词表,设jieba分词词典为S0,自定义词典包含专业领域术语记为U;则自定义单词词典集合S′可表示为:S′=S0∪U;其中S0为jieba分词词典中所有单词构成的集合,U代表评估类文档中专业领域术语所构成的集合;停用词表包含常用词库,记为C1;数字,记为C2;字母,记为C3,停用词表C可表示为:C=C1∪C2∪C3;其中C1为包含日常用语等常用词汇的单词所构成的集合;C2为数字0至9所构成的集合;C3为阿拉伯字母所构成的集合;在得到自定义词典S′和停用词表C后,最终单词词典S可以表示为:S=S′-C∪C′;C′={c′1,c′2,...,c′n};其中C′表示具有特殊含义的字母与数字组合而成的集合,在自定义词典S′与停用词表C做差集后,与C′做并集运算得到单词词典S;在精确模式下对待处理文档数据进行改进的jieba分词,得到分词结果以及词频统计信息并保存,改进的jieba分词具体步骤如下:1依据单词词典S对数据集D中的所有句子进行切分,将所有可以切分成词的单词存储到Trie树中,同时将每个词的出现次数转换为频率,通过快速词图扫描,将所有可能的分词情况生成DAG图DirectedAcyclicGraph,有向无环图;2在得到了多种情况下的切分方案后,采用DP算法DynamicProgramming,动态规划算法来查找最大概率路径Rmax,对于DAG中的每个节点,其权重为对应词语的词频,记为wi,计算方法如下:由DAG图构成切分路径Route集合,包含k个切分方案:Route={R1,R2,...,Rk};其中任意一个切分方案ri是由m个具有顺序结构关系的单词构成的序列:Ri=[word1,word2,...,wordm]i∈[1,k];对于DAG中k个切分方案所包含的全部n个节点单词,其出现的概率为对应单词词频在所有单词词频之和中的占比,可表示为:为了选取最大概率路径Rmax,须使其路径上的单词权重概率之和W最大:对于整个句子的最优路径Rmax和一个末端节点wx,对于其可能存在的多个前驱节点wi,wj,wk,…,wz设达到wi,wj,wk,wz的最大路径分别为Rmaxi,Rmaxj,Rmaxk,Rmaxz有:Rmax=maxRmaxi,Rmaxj,Rmaxk,...,Rmaxz+WeightwxRmax∈Route;于是问题转化为求Rmaxi,Rmaxj,Rmaxk,…,Rmaxz组成的最优路径,其中的最优解是全局的最优解的一部分,因此状态转移方程为:Rmax=max{maxRmaxi,Rmaxj,Rmaxk,...,Rmaxz+Weightwx}Rmax∈Route;3对于单词词典S中未登录的词,通过建立HMMHiddenMarkovModel,隐马尔科夫模型,用于描述一个含有隐含未知参数的马尔可夫过程,采用Viterbi路径方法来寻找分词结果,其方法描述如下:假设给定HMM模型状态空间,共有k个状态,初始状态i的概率为πi,从状态i到状态j的转移概率为ai,j;设观察到的输出为y1,...,yT;产生观察结果的最有可能的状态序列x1,...,xT由递推关系给出:其中Vt,k是前t个最终状态为k的观测结果最有可能对应的状态序列的概率,通过保存向后指针记录在上式中用到的状态x可以获得Viterbi路径,声明一个函数Ptrk,t,若它返回t>1时计算Vt,k用到的x值,或若t=1时的k,则有:通过对中文词汇按照BMES四个状态来进行标记,B是begin开始位置,M是middle中间位置,E是end结束位置,S是single单独成词的位置;通过构建的HMM模型对大量语料进行训练后,依靠Viterbi路径方法就可以得到一个概率最大的BMES序列,基于这个序列对句子结构进行重新组合,即可得到分词结果。3.根据权利要求1所述的基于倒排索引的评估类文档不定长词句的查询方法,其特征在于所述的步骤二具体包括:基于完全重建策略的倒排索引原理,基于单词词典SD和数据集D构建单词-文档矩阵模型,并生成自适应倒排表和倒排表生成文件,以便提取单词位置、频率等信息,具体步骤如下:1通过Trie树中的单词信息与数据集D构建单词词典,其中记录数据集D中所有的单词信息、单词频率以及可以反映单词位置的数字指针;2基于单词词典信息建立自适应倒排表;以n个单词Word作为key,m个文档信息DocID作为value,此外还需记录单词的字符位置LocString,即记录该词是文章中第几个字符优点是单词定位快;单词位置LocWord,即记录该词是文章中第几个单词优点是节约索引空间,词组查询快;以及单词词频F,自适应倒排表记录存储方式如下:3对词典文件中的单词进行压缩,调整倒排表存储结构,减少搜索运算次数,节省检索时间,保存生成的自适应倒排表和倒排表生成文件。4.根据权利要求1所述的基于倒排索引的评估类文档不定长词句的查询方法,其特征在于所述的步骤三具体包括:结合所需要查找不定长词句的信息,通过倒排表索引词句中各个分词位置信息,并通过字符串匹配方法识别不定长词句位置信息并索引其所在段落,来完成评估类文档不定长词句的查询功能,具体步骤如下:对待查找不定长词句Sentence进行分词,切分得到由n个单词组成的具有顺序结构的序列:Sentence=[Word1,Word2,…,Wordn];结合步骤二中得到的倒排表逐词匹配切分词的文章信息和位置信息:在倒排表中对Word1进行匹配得到其文档信息DocIDi、字符位置LocStringwordi、单词位置LocWord和单词词频F,设待匹配字符位置为LocStringk:LocStringk=LocStringwordi+1i∈[1,n];若LocStringk=LocStringwordi+1,即待匹配字符与不定长词句中下一个单词匹配,则匹配成功,以此类推匹配直至Wordn,当所有单词匹配完毕后,将结果保存到集合Ds中,进行下一个文档DocIDi+1中的字符位置匹配;若LocStringk≠LocStringwordi+1,即匹配字符与不定长词句中下一个单词不匹配,则不保存该单词位置,进行下一个文档DocIDi+1中的字符位置匹配;当Sentence中的所有单词匹配完成后,集合Ds可表示为:Ds={sentence1,sentence2,...,sentencen};sentencei=[DocIDi,LocSentencei,Fsi]i∈[1,n];其中每个sentencei记录了对应文档信息DocIDi、sentencei位置不定长词句所包含的所有字符的位置信息、和sentencei频率Fsi;对Ds中的Sentence提取sentencei位置,并双向搜索回车符,以各方向搜索得到的第一个回车符位置为界,截取回车符内文字即为该sentence所在段落信息;显示查询的不定长词句所在文档信息,出现频率信息,并摘录显示其文章段落;以纯文本格式保存查询结果以及段落文摘。

百度查询: 哈尔滨工业大学 一种基于倒排索引的评估类文档不定长词句的查询方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。