买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】词素分析装置和词素分析方法_富士通株式会社_201810686874.5 

申请/专利权人:富士通株式会社

申请日:2018-06-28

公开(公告)日:2019-01-15

公开(公告)号:CN109213992A

主分类号:G06F17/27(2006.01)I

分类号:G06F17/27(2006.01)I

优先权:["2017.07.06 JP 2017-133065"]

专利状态码:失效-发明专利申请公布后的视为撤回

法律状态:2023.07.28#发明专利申请公布后的视为撤回;2019.02.12#实质审查的生效;2019.01.15#公开

摘要:本发明提供词素分析装置和词素分析方法,用于提高词素分析的分析精度。词素分析装置具有:存储部,其存储匹配辞典,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串、以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果;第1分析部,其针对分析对象文本中的与包含于所述匹配辞典中的所述字符串一致的字符串输出所述第1词素分析结果;以及第2分析部,其针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,并使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。

主权项:1.一种计算机可读取的记录介质,其存储有词素分析程序,该词素分析程序使具有存储部的计算机执行如下处理,该存储部存储匹配辞典,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果,该处理为:针对分析对象文本中的与包含于所述匹配辞典中的所述字符串一致的字符串输出所述第1词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。

全文数据:词素分析装置和词素分析方法技术领域本发明涉及词素分析装置和词素分析方法。背景技术近些年来,因特网上的信息飞跃性地增多,使用大数据的商务增加,因此希望高效地处理大数据。在如日语、中文或韩文的文档那样,是单词与单词间未被空格等的分隔文字分隔开来的表述的文档的情况下,为了计算单词的出现频度而进行词素分析。词素分析是将文本分割为词素,对各词素赋予词性信息的处理。通过词素分析而得到的词素有时被作为单词进行处理。通过进行这种词素分析,确定文档中的单词间的关系和单词的词性,能够将文档中的文本分割为单词。然而,词素分析的处理负载较大,因此处理大量的文本需要较长的时间。在词素分析中,从辞典中提取出与分析对象的字符串的表述部分一致的所有单词,进行使用作为列举出单词的候选分析候选的图表结构的点阵lattice的分析。图1是表示点阵的示例的图。在图1中,示出构建了针对作为分析对象的输入文=“被送来”的点阵的情况。在词素分析中,对所构建的点阵考虑上下文前后的词素,确定正确的词素串。由此,“被送来”的词素分析结果成为“送ら动词·未然形|れて接尾词|きた接尾词”。点阵的构建的计算成本较大,比较耗费时间。在词素分析中,已知不进行计算成本较大的点阵的构建,而通过使用图形匹配来实现高速化的方法例如,参照非专利文献1。已知将句子高速分割为2个以上的单词的单词分割装置例如,参照专利文献1。还已知得到精度较高的单词分割用辞典的辞典登记装置例如,参照专利文献2。在先技术文献专利文献专利文献1:日本特开2014-106707号公报专利文献2:日本特开2014-120007号公报非专利文献非专利文献1:ManabuSassano,“DeterministicWordSegmentationUsingMaximumMatchingwithFullyLexicalizedRules”,Proceedingsofthe14thConferenceoftheEuropeanChapteroftheAssociationforComputationalLinguistics,pages79–83,Gothenburg,Sweden,April26-302014然而,在非专利文献1所述的词素分析方法中,虽然能够通过图形匹配来高速地进行词素分析,然而存在有时输出错误的分析结果,分析精度较低的问题。发明内容本发明的一个方面的目的在于,提高词素分析的分析精度。实施方式的词素分析程序使计算机执行如下的处理,该计算机具有存储匹配辞典的存储部,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串、以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果。所述计算机针对分析对象文本中的与包含在所述匹配辞典中的所述字符串一致的字符串,输出所述第1词素分析结果。所述计算机针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵。所述计算机使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。发明效果根据实施方式,能够提高词素分析的分析精度。附图说明图1是表示点阵的示例的图。图2是实施方式的词素分析装置的结构图。图3是上下文独立辞典的示例。图4是上下文依赖字符串和分析结果的示例。图5是表示实施方式的词素分析处理的图。图6是表示实施方式的词素分析处理的图。图7是实施方式的上下文独立辞典生成处理的流程图。图8是实施方式的词素分析处理的流程图。图9是表示关于未分析的字符串及其前后的词素的点阵的图。图10是表示关于未分析的字符串及其前后的词素的点阵的图。图11是表示作为针对未分析的字符串的分析结果的词素串的图。图12是表示作为针对未分析的字符串的分析结果的词素串的图。图13是实施方式的词素分析处理的变形例的流程图。图14是表示包含未分析的字符串的输入文的点阵的图。图15是表示包含针对未分析的字符串的分析结果的输入文的词素串的图。图16是信息处理装置的结构图。标号说明101:词素分析装置,201:辞典生成部,211:上下文独立辞典构建部,221:词素分析部,231:依赖性判定部,301:词素分析部,311:上下文独立字符串分析部,321:上下文依赖字符串分析部,322:点阵构建部,323:词素串选择部,401:存储部,411:语料库,421:上下文独立辞典,431:输入文,441:分析结果。具体实施方式以下,参照附图对实施方式进行说明。首先说明使用非专利文献1所述的现有技术,进行词素分析的情况。在现有技术中,首先通过使用辞典的最长一致法,输出针对分析对象的句子的词素串,将错误输出的词素串中的与置换图形一致的词素串按照该置换图形置换为正确的词素串。基于现有技术的词素分析的第1例针对作为分析对象的输入文=“评价当然是非常好的”,基于最长一致法的词素分析的结果为“非常に|評判|が|いいわけ|だ”。在现有技术中,为了修正错误的分析结果,参照置换图形,修正一致的词素串。这里,具有将“が|いいわけ|だ”修正为“が|いい|わけだ”的置换图形。这种情况下,“非常に|評判|が|いいわけ|だ”被修正为“非常に|評判|が|いい|わけだ”。这样,存在适当的置换图形的情况下,作为“评价当然是非常好的”的分析结果,可得到作为正确的分析结果的“非常に|評判|が|いい|わけだ”。然而,不存在上述那样的适当的置换图形的情况下,词素串未被修正,因此作为针对“评价当然是非常好的”的词素分析的结果,得到作为错误的分析结果的“非常に|評判|が|いい|わけだ”。基于现有技术的词素分析的第2例针对输入文=“虽说人手不足然而是借口”,基于最长一致法的词素分析的结果为“人手|不足|と|言う|が|いいわけ|だ”。在现有技术中,为了修正错误的分析结果,参照置换图形,修正一致的词素串。这里,不存在对“人手|不足|と|言う|が|いいわけ|だ”中包含的词素串进行修正的置换图形的情况下,不修正分析结果,而得到作为正确的分析结果的“人手|不足|と|言う|が|いいわけ|だ”。这里,具有将“が|いいわけ|だ”修正为“が|いい|わけだ”的置换图形。这种情况下,“人手|不足|と|言う|が|いいわけ|だ”被修正为“人手|不足|と|言う|が|いい|わけだ”。通过使用置换图形,作为针对“虽说人手不足然而是借口”的词素分析的结果,得到作为错误的分析结果的“人手|不足|と|言う|が|いい|わけだ”。这样,置换图形未成为考虑到上下文的规则,通过使用置换图形,有时会得到错误的分析结果。图2是实施方式的词素分析装置的结构图。词素分析装置101具有辞典生成部201、词素分析部301和存储部401。辞典生成部201具有上下文独立辞典构建部211、词素分析部221和依赖性判定部231。上下文独立辞典构建部211使用词素分析部221和依赖性判定部231的判定结果来生成上下文独立辞典421。词素分析部221进行语料库411的词素分析。词素分析部221例如使用既存的词素分析方法进行词素分析。依赖性判定部231判定字符串是否是基于上下文而词素分析的结果不同依赖于上下文的字符串。在实施方式中,将基于上下文而词素分析的结果不同的字符串称作上下文依赖字符串。此外,在实施方式中,将基于上下文而词素分析的结果不变化的字符串称作上下文独立字符串。词素分析部301具有上下文独立字符串分析部311和上下文依赖字符串分析部321。上下文独立字符串分析部311使用上下文独立辞典421,通过图形匹配来进行输入文431的词素分析。通过上下文独立字符串分析部311来进行输入文431中的上下文独立字符串的词素分析。上下文依赖字符串分析部321具有点阵构建部322和词素串选择部323。上下文依赖字符串分析部321进行输入文431中的未被上下文独立字符串分析部311分析的字符串即,上下文依赖字符串的词素分析。点阵构建部322构建未分析的字符串的点阵。点阵也称作单词点阵是从词素分析辞典中提取出与分析对象的字符串的表述部分一致的所有单词,列举出单词的候选分析结果的候选的图表结构。词素串选择部323在所构建的点阵中,选择作为文章被认为最可靠的单词的排列路径。词素串选择部323例如使用Viterbi算法,选择使评价值为最小的路径。此外,词素串选择部323不限于使用Viterbi算法,还可以使用束搜索等的方法。存储部401存储在词素分析装置101中使用的数据和程序等。存储部401存储语料库411、上下文独立辞典421、输入文431和分析结果441。此外,存储部401存储包含在点阵构建部322和词素分析部221构建点阵时使用的多个单词词素的词素分析辞典未图示。语料库411是多个句子的集合。语料库411在由辞典生成部201生成上下文独立辞典421时使用。上下文独立辞典421是表示上下文独立字符串和针对上下文独立字符串的词素分析的结果的信息。上下文独立辞典421是匹配辞典的一例。输入文431是成为词素分析部301的词素分析的对象句子。输入文431是分析对象文本的一例。分析结果441是输入文431的词素分析的结果。图3是上下文独立辞典的例子。上下文独立辞典421是表示作为基于上下文而词素分析的结果不变化的字符串的上下文独立字符串的信息。上下文独立辞典421包括字符串和词素串。上下文独立辞典421中对应地记录有字符串和词素串。字符串是上下文独立字符串。词素串是针对字符串的词素分析的结果。词素串是通过词素分析而对字符串进行分割后的多个词素的集合。在说明书和附图中,词素串的“|”表示词素间的边界。此外,词素串可以被附加表示各词素的词性和活用形的信息。例如,图3的上下文独立辞典421作为字符串包含“晚上或休息日”,作为对应的词素串包含“晚上|或|休息日”。此外,图3的上下文独立辞典421作为字符串包含“瓦砾的山”,作为对应的词素串包含“瓦砾|的|山”。“晚上或休息日”是基于“晚上或休息日”的前后的上下文而词素分析的结果不变化的字符串。即,针对“晚上或休息日”的词素分析的结果始终相同。若对“晚上或休息日”进行词素分析,则被分割为“晚上|或|休息日”那样。关于“瓦砾的山”,词素分析的结果也同样始终被分割为“瓦砾|的|山”那样。上述的上下文独立字符串无论字符串的前后的上下文如何而词素分析的结果都始终相同,因此仅凭上下文独立字符串就能够得到正确的分析结果。此外,在上下文独立辞典421中,作为字符串可以登记型号、人名、表情文字、定型语句、英文单词或表示标签或换行的控制用记号等。型号、人名、表情文字、定型语句、英文单词和控制用记号是无论字符串的前后的上下文如何而词素分析的结果都始终相同的字符串。此外,上下文独立辞典421可以包含如下信息,该信息表示字符串是括弧时的针对括弧的词素分析的结果以及字符串是连续数值那样的数值表现时的针对数值表现的词素分析的结果。括弧和数值表现是无论字符串的前后的上下文如何而词素分析的结果都始终相同的字符串。下面,说明作为基于上下文而词素分析的结果不同的字符串的上下文依赖字符串。图4是上下文依赖字符串和分析结果的示例。这里,作为上下文依赖字符串说明“因为知道的很清楚”、“休息日或晚上”以及“雪山”这3个例子。1“因为知道的很清楚”若针对“因为知道的很清楚”进行词素分析,则根据“因为知道的很清楚”的前后的上下文,被分割为“よく|知っている|から|だ”或“よく|知っている|から体”那样。2“休息日或晚上”在“休息日或晚上”之前附加有“本周的”情况下,若对“本周的休息日或晚上”进行词素分析,则被分割为“今週|の|休日|や|夜間”那样。在“休息日或晚上”之前附加有”医院的规定”的情况下,若对“医院的规定休息日或晚上”进行词素分析,则被分割为“病院|の|定休日|や|夜間”那样。3“雪山”在“雪山”后附有“看”的情况下,若对“看雪山”进行词素分析,则被分割为“雪|の|山|を|見る”那样。在“雪山”之前附有“大”且在“雪山”之后附有“形县”的情况下,若对“大雪山形县”进行词素分析,则被分割为“大雪|の|山形|県”那样。上述那样的上下文依赖字符串基于字符串的前后的上下文而词素分析的结果不同,因此仅凭上下文依赖字符串难以得到正确的分析结果。下面,示出实施方式的词素分析处理的例子。图5是表示实施方式的词素分析处理的图。在图5中,说明作为输入文431而进行“评价当然是非常好的”的词素分析的情况。此外,上下文独立辞典421包含字符串=“评价非常好”和词素串=“非常に|評判|が|いい”。上下文独立字符串分析部311针对输入文=“评价当然是非常好的”,进行基于使用上下文独立辞典421的最长一致法的分析。图5中,输入文=“评价当然是非常好的”中的“评价非常好”与上下文独立辞典421的字符串一致。因此,输入文=“评价当然是非常好的”中的“评价非常好”的词素分析的结果成为“非常に|評判|が|いい”。下面,由上下文依赖字符串分析部321进行输入文中的未被上下文独立字符串分析部311分析的剩余的字符串的词素分析。即,上下文依赖字符串分析部321进行输入文=“评价当然是非常好的”中的未被上下文独立字符串分析部311分析的剩余的字符串=“わけだ”的词素分析。点阵构建部322构建剩余的未分析的字符串=“わけだ”及其前后的分析完毕的字符串=“评价当然是非常好的”的点阵。词素串选择部323在所构建的点阵中,选择作为文章被认为最可靠的单词的排列路径。其结果是,未分析的字符串=“わけだ”的分析结果成为“わけだ”。以上,输入文=“评价当然是非常好的”的词素分析的结果成为“非常に|評判|が|いい|わけだ”。下面,说明包含在输入文中的字符串不包含在上下文独立辞典421中的情况。说明在上下文独立辞典421中使用的语料库的大小较小,在上下文独立辞典421中不包含字符串=“评价非常好”的情况。图6是表示实施方式的词素分析处理的图。图6中,与图5同样地说明作为输入文431进行“评价当然是非常好的”的词素分析的情况。此外,上下文独立辞典421不包含字符串=“评价非常好”。上下文独立字符串分析部311针对输入文=“评价当然是非常好的”进行基于使用上下文独立辞典421的最长一致法的分析。图6中,输入文=“评价当然是非常好的”中的一致的字符串不包含在上下文独立辞典421中。因此,输入文=“评价当然是非常好的”中的任意一个字符串也不被上下文独立字符串分析部311分析。下面,由上下文依赖字符串分析部321进行输入文中的未被上下文独立字符串分析部311分析的剩余的字符串的词素分析。即,上下文依赖字符串分析部321进行输入文=“评价当然是非常好的”的词素分析。点阵构建部322构建剩余未分析的字符串=“评价当然是非常好的”的点阵。词素串选择部323在所构建的点阵中,选择作为文章被认为最可靠的单词的排列路径。其结果是,未分析的字符串=“评价当然是非常好的”的分析结果成为“非常に|評判|が|いい|わけだ”。以上,输入文=“评价当然是非常好的”的词素分析的结果成为“非常に|評判|が|いい|わけだ”。这样,包含在输入文中的字符串不包含在上下文独立辞典421中的情况下,也能够正确地进行词素分析。图7是实施方式的上下文独立辞典生成处理的流程图。这里,语料库401包含句子sii=0~N。在实施方式中,如下示出句子s1,s2,s12,s15,s20,s30,s35。句子s1=“朝日新闻东京本社”向筑地派出所报告有人通过快递送来了两箱可疑的瓦楞板纸箱”。”句子s2=“这是因为需要这样做。”句子s12=“负责人回答了朝日新闻的采访。”句子s15=“请注意身体和健康。”句子s20=“朝日新闻东京本社位于大江户线筑地市场站前。”句子s30=“本社具有决定权。”句子s35=“发行方的日本公司负有责任。”此外,句子si的i是句子si的句子ID。步骤S501是对应于步骤S506的终端的循环的始端。变量i的初始值是0,执行循环的条件是i在N以下,每当循环结束时都使i增加1。在步骤S502中,词素分析部221读出语料库401,进行包含在语料库401中的句子si的词素分析。例如,词素分析部221构建针对句子si的点阵,进行词素分析。将作为针对句子si的词素分析的结果的词素串设为词素串s’i。句子s1的词素分析的结果s’1成为s’1=“朝日|新闻|东京|本社|是|”|~”。此外,词素串s’i的i是词素串s’i的句子ID。步骤S503是对应于步骤S505的终端的循环的始端。依赖性判定部231选择包含在词素串s’i中的连续的部分词素串中的1个未选择的连续的部分词素串。所选择的部分词素串n标记为n=字符串p,词素串m,句子ID。字符串p是连接词素串m的字符串,词素串m是构成所选择的部分词素串的词素串,句子ID是含有所选择的部分词素串n的词素串s’i或句子si的句子ID。例如,n=朝日新闻,朝日|新闻,1。此外,n=新闻东京本社,新闻|东京|本社,1。在步骤S504中,依赖性判定部231按照每个字符串p,将词素串m和句子ID的排列分别保存在T[p].M,T[p].H中。例如,字符串p=“朝日新闻”的情况下,成为T[朝日新闻].M=[朝日|新闻],T[朝日新闻].H=[1、12,~]。此外,字符串p=“身体”的情况下,成为T[身体].M=[因为|是、身体体]、T[身体].H=[2、15,~]。即,字符串=“身体”的词素分析的结果示出“因为|是”或“身体体”。此外,T[身体].H=[2、15,~]表示字符串=“身体”包含在文s2,s15中。步骤S505是对应于步骤S503的始端的循环的终端。在将包含于词素串s’i的连续的部分词素串全部选择完毕的情况下,控制进入步骤S506,在词素串s’i中存在未选择的连续的部分词素串的情况下,控制返回步骤S503。步骤S506是对应于步骤S501的始端的循环的终端。在i大于N的情况下,处理进入步骤S507,i在N以下的情况下,i增加1,控制返回步骤S501。步骤S507是对应于步骤S516的终端的循环的始端。依赖性判定部231选择排列T[p]的字符串p中的1个未选择的字符串p。以下,步骤S508~S515的字符串p是所选择的字符串p。在步骤S508中,依赖性判定部231判定排列T[p].M的要素的数|T[p].M|是否为1。在排列T[p].M的要素的数是1的情况下,控制进入步骤S510,T[p].M的要素的数是1以外的情况下,控制进入步骤S509。例如,字符串p=“身体”的情况下,成为T[身体].M=[因为|是、身体体],因此为|T[p].M|=2,控制进入步骤S509。例如,字符串p=“东京本社是“快递”的情况下,是T[东京本社是“快递].M=[东京本社是“快递],因此|T[p].M|=1,控制进入步骤S510。在步骤S508中,检查字符串p的词素分析的结果是否具有多个,换言之字符串p的词素分析是否始终相同。在步骤S509中,废弃字符串p。在步骤S510中,依赖性判定部231判定排列T[p].H的要素的数|T[p].H|是否大于1。在排列T[p].H的要素的数大于1的情况下,控制进入步骤S512,T[p].H的要素的数在1以下的情况下,控制进入步骤S511。例如,字符串p=“东京本社是“快递”的情况下,是T[东京本社是“快递].H=[1],因此成为|T[p].H|=1,控制进入步骤S511。例如,字符串p=“朝日新闻东京本社”的情况下,是T[朝日新闻东京本社].H=[1、12、30],因此成为|T[p].H|=3,控制进入步骤S512。在步骤S511中,废弃字符串p。在步骤S512中,依赖性判定部231得到作为包含字符串p的句子集合的句子ID的Hp’。例如,字符串p=“本社”的情况下,包含“本社”的句子是文s1、s20、s30、s35,因此成为Hp’=1、20、30、35。在步骤S513中,依赖性判定部231判定排列T[p].H与句子集合Hp’是否等同。在排列T[p].H与句子集合Hp’等同的情况下,控制进入步骤S515,在排列T[p].H与句子集合H’不等同的情况下,控制进入步骤S514。例如,字符串p=“本社”的情况下,排列T[p].H=[1、12、30],Hp’=1、20、30、35,排列T[p].H与Hp’不等同,因此控制进入步骤S514。在步骤S513中,检测是否为词素串的边界不同的情况。在步骤S514中,废弃字符串p。在步骤S515中,将字符串p和作为该字符串p的分析结果的词素串登记在上下文独立辞典421中。字符串p=“朝日新闻东京本社”的情况下,成为T[朝日新闻东京本社].M=[朝日|新闻|东京|本社],T[朝日新闻东京本社].H=[1、12、30],字符串p=“朝日新闻东京本社”和词素串=“朝日|新闻|东京|本社”被登记于上下文独立辞典421。步骤S516是对应于步骤S507的始端的循环的终端。图8是实施方式的词素分析处理的流程图。在步骤S601中,上下文独立字符串分析部311读出输入文431。将包含在输入文431中的文字从前到后按顺序标记为c0,c1,~,cN。此外,变量i=0。在实施方式中,输入文=“通过快递给朝日新闻东京本社可疑的瓦楞板纸箱”。在步骤S602中,上下文独立字符串分析部311进行输入文431与上下文独立辞典421的图形匹配,从输入文431中检测与包含在上下文独立辞典421中的字符串一致的字符串。具体地,上下文独立字符串分析部311检索上下文独立辞典421,检索与包含在上下文独立辞典421中的字符串匹配的以ci为起始的最长的字符串ci~cj。例如,i=0时,c0~c7=“朝日新闻东京本社”。i=8时,不存在匹配的字符串。i=9时,c9~c11=“快递”。i=12时,不存在匹配的字符串。i=13时,c13~c22=“可疑的瓦楞板纸箱”。在步骤S603中,上下文独立字符串分析部311检查与以ci为起始的字符串一致的字符串是否存在于上下文独立辞典421。在一致的字符串存在于上下文独立辞典421的情况下,控制进入步骤S605,一致的字符串不存在于上下文独立辞典421的情况下,控制进入步骤S604。在步骤S604中,上下文独立字符串分析部311使变量i增加1。在步骤S605中,上下文独立字符串分析部311将变量i设定为j+1。例如,i=0时,如在步骤S602中所述那样c0~c7=“朝日新闻东京本社”,由于j=7,因此i被设定为8=7+1。在步骤S606中,上下文独立字符串分析部311将针对字符串ci~cj的分析结果作为分析结果441而保存于存储部401。例如,i=0时,将针对c0~c7=“朝日新闻东京本社”的分析结果=“朝日|新闻|东京|本社”作为分析结果441保存于存储部401。i=9时,将针对c9~c11=“快递”的分析结果=“|快递”作为分析结果441保存于存储部401。i=13时,将针对c13~c22=“で不番な段ボール箱”的分析结果=“で|不番な|段ボール|箱|”作为分析结果441保存于存储部401。在步骤S607中,上下文独立字符串分析部311判定变量i是否大于N。在变量i大于N的情况下,控制进入步骤S608,变量i在N以下的情况下,控制返回步骤S602。在步骤S608中,将输入文431中的在上下文独立字符串分析部311中未分析的字符串设为s0,s1,~,sM。此外,变量k=0。在实施方式中,输入文=“朝日新闻东京本社“被快递可疑的瓦楞板纸箱”中的“朝日新闻东京本社”、“快递”和“で不番な段ボール箱”已分析完毕,因此未分析的字符串为s0=“が”,s1=“便”。在步骤S609中,点阵构建部322针对字符串sk和字符串sk的前后的分析完毕的词素,使用包含多个单词的辞典来构建点阵。图9示出字符串s0=“是”及其前后的分析完毕的词素的点阵。图10示出字符串s1=“便”及其前后的分析完毕的词素的点阵。在步骤S610中,词素串选择部323在所构建的点阵中,选择作为文章被认为最可靠的单词的排列路径。词素串选择部323例如使用Viterbi算法,选择使评价值为最小的路径。例如,针对字符串s0=“が”,作为分析结果选择“が助词”。图11示出字符串s0=“が”的分析结果和包含字符串s0的前后的分析完毕的词素的词素串。例如,针对字符串s1=“便”,作为分析结果选择“便bin”。图12示出字符串s1=“便”的分析结果和包含字符串s1的前后的分析完毕的词素的词素串。在步骤S611中,词素串选择部323使变量k增加1。在步骤S612中,词素串选择部323判定变量k是否大于M。在变量k大于M的情况下,控制进入步骤S613,变量k在M以下的情况下,控制返回步骤S609。在步骤S613中,将针对字符串s1~sM的词素分析的结果作为分析结果441保存于存储部401。如图8所示词素分析处理那样,针对未分析的字符串,可以不按照每个未分析的字符串进行词素分析,而是使用包含所有的未分析的字符串的输入文整体的点阵来进行词素分析。图13是实施方式的词素分析处理的变形例的流程图。与图8的词素分析处理同样地,输入文=“朝日新闻东京本社”被快递可疑的瓦楞板纸箱”。步骤S1601~S1608的处理分别与图8的步骤S601~S607的处理同样,因此省略说明。在步骤S1609中,点阵构建部322针对字符串sk和字符串sk的前后的分析完毕的词素,使用包含多个单词的辞典来构建点阵。在步骤S1610中,词素串选择部323使变量k增加1。在步骤S1611中,词素串选择部323判定变量k是否大于M。在变量k大于M的情况下,控制进入步骤S1612,变量k在M以下的情况下,控制返回步骤S1609。在实施方式中,变量k大于M的情况下,构建图14所示的包含未分析的字符串s0=“が”,s1=“便”的输入文整体的点阵。在步骤S1612中,词素串选择部323在所构建的点阵中,选择作为文章被认为最可靠的单词的排列路径。词素串选择部323例如使用Viterbi算法,选择使评价值为最小的路径。例如,针对字符串s0=“が”,作为分析结果选择“が助词”。例如,针对字符串s1=“便”,作为分析结果选择“便bin”。图15示出包含字符串s0=“が”,s1=“便”的分析结果的输入文整体的词素串。通过构建输入文整体的点阵来进行词素分析,由此相比如图9、10那样仅根据未分析的字符串及其前后的词素串的点阵进行词素分析的情况而言,能够提高精度。在步骤S613中,将针对字符串s1~sM的词素分析的结果作为分析结果441保存于存储部401。根据实施方式的词素分析装置,通过图形匹配进行词素分析,针对与图形匹配不一致的文本构建点阵来进行分析,从而能够在保持词素分析的精度的同时实现高速化。根据实施方式的词素分析装置,仅针对与图形匹配不一致的文本构建点阵来进行词素分析,因此相比构建分析对象的文本整体的点阵进行词素分析的情况而言,能够降低计算成本。图16是信息处理装置的结构图。图2的词素分析装置101例如可使用图16所示那样的信息处理装置计算机10实现。图16的信息处理装置包括中央处理单元CentralProcessingUnitCPU1、存储器2、输入装置3、输出装置4、辅助存储装置5、介质驱动装置6和网络连接装置7。这些构成要素通过总线8而相互连接。存储器2例如是只读存储器ReadOnlyMemoryROM、随机存取存储器RandomAccessMemoryRAM、闪存等的半导体存储器。存储器2储存用于词素分析处理的程序和数据。存储器2可用作存储部401。CPU1处理器例如使用存储器2执路径序,从而作为上下文独立辞典构建部211、词素分析部221、依赖性判定部231、上下文独立字符串分析部311、点阵构建部322和词素串选择部323进行动作。输入装置3例如是键盘指示设备等,在来自用户或操作者的指示和信息的输入时使用。输出装置4例如是显示装置、打印机、扬声器等,在向用户或操作者的询问和处理结果的输出时使用。处理结果可以是词素分析的结果。辅助存储装置5例如是磁盘装置、光盘装置、光磁盘装置、磁带装置等。辅助存储装置5可以是硬盘驱动器或闪存。信息处理装置在辅助存储装置5中储存好程序和数据,可以将它们读取到存储器2中使用。辅助存储装置5可用作存储部401。介质驱动装置6驱动便携型记录介质9,访问该记录内容。便携型记录介质9是存储设备、挠性磁盘、光盘、光磁盘等。便携型记录介质9可以是压缩盘只读存储器CompactDiskReadOnlyMemoryCD-ROM、数字通用光盘DigitalVersatileDiskDVD、通用串行总线UniversalSerialBusUSB存储器等。用户或操作者预先在该便携型记录介质9中储存好程序和数据,能够将它们读取到存储器2中使用。这样,储存程序和数据的计算机可读取的记录介质是存储器2、辅助存储装置5和便携型记录介质9那样的物理的非暂时性的记录介质。网络连接装置7是与局域网LocalAreaNetworkLAN、因特网等的通信网络连接,进行伴随于通信的数据转换的通信接口。信息处理装置通过网络连接装置7从外部的装置接收程序和数据,能够将它们读取到存储器2中使用。信息处理装置通过网络连接装置7从用户终端接收指示和信息,进行词素分析处理,还能够将处理结果发送给用户终端。另外,信息处理装置无需包含图16的所有的构成要素,还可以根据用途和条件来受理一部分构成要素。例如,在不进行来自用户或操作者的指示和信息的输入的情况下,可以省略输入装置3,在不进行向用户或操作者的询问和处理结果的输出的情况下,可以省略输出装置4。在信息处理装置不访问便携型记录介质9或通信网络的情况下,可以省略介质驱动装置6或网络连接装置7。关于以上的实施方式,还公开了以下的附记。附记1一种词素分析程序,其使具有存储部的计算机执行如下处理,该存储部存储匹配辞典,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串、以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果:针对分析对象文本中的与包含于所述匹配辞典中的所述字符串一致的字符串输出所述第1词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。附记2根据附记1所述的词素分析程序,其中,该词素分析程序还使所述计算机执行如下处理:进行所述多个句子的词素分析,包含在所述多个句子中的字符串的词素分析结果都相同的情况下,将所述字符串登记于所述匹配辞典。附记3根据附记1所述的词素分析程序,其中,该词素分析程序还使所述计算机执行如下处理:所述匹配辞典包含多个字符串和所述多个字符串的多个词素分析结果,所述多个字符串包含分别包含在所述多个句子中的字符串和其他的字符串,所述多个词素分析结果包含所述第1词素分析结果和所述其他的字符串的词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串分别一致的多个字符串输出所述多个词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串不一致的剩余的字符串,使用所述词素分析辞典生成所述点阵,使用所述点阵进行针对与所述多个字符串不一致的剩余的字符串的词素分析。附记4一种词素分析装置,其具有:存储部,其存储匹配辞典,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串、以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果;第1分析部,其针对分析对象文本中的与包含在所述匹配辞典中的所述字符串一致的字符串,输出所述第1词素分析结果;以及第2分析部,其针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,并使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。附记5根据附记4所述的词素分析装置,其中,该词素分析装置还具有辞典生成部,该辞典生成部进行所述多个句子的词素分析,包含在所述多个句子中的字符串的词素分析结果都相同的情况下,将所述字符串登记于所述匹配辞典。附记6根据附记4所述的词素分析装置,其中,所述匹配辞典包含多个字符串和所述多个字符串的多个词素分析结果,所述多个字符串包含分别包含在所述多个句子中的字符串和其他的字符串,所述多个词素分析结果包含所述第1词素分析结果和所述其他的字符串的词素分析结果,所述第1分析部针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串分别一致的多个字符串输出所述多个词素分析结果,所述第2分析部针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串不一致的剩余的字符串,使用所述词素分析辞典生成所述点阵,使用所述点阵进行针对与所述多个字符串不一致的剩余的字符串的词素分析。附记7一种词素分析方法,其具有由词素分析装置执行的如下处理,该词素分析装置具有存储匹配辞典的存储部,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串、以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果,该词素分析装置进行如下处理:针对分析对象文本中的与包含在所述匹配辞典中的所述字符串一致的字符串,输出所述第1词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。附记8根据附记7所述的词素分析方法,其中,该词素分析方法还具有如下处理:进行所述多个句子的词素分析,包含在所述多个句子中的字符串的词素分析结果都相同的情况下,将所述字符串登记于所述匹配辞典。附记9根据附记7所述的词素分析方法,其中,该词素分析方法还具有如下处理:所述匹配辞典包含多个字符串和所述多个字符串的多个词素分析结果,所述多个字符串包含分别包含在所述多个句子中的字符串和其他的字符串,所述多个词素分析结果包含所述第1词素分析结果和所述其他的字符串的词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串分别一致的多个字符串输出所述多个词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串不一致的剩余的字符串,使用所述词素分析辞典生成所述点阵,使用所述点阵进行针对与所述多个字符串不一致的剩余的字符串的词素分析。

权利要求:1.一种计算机可读取的记录介质,其存储有词素分析程序,该词素分析程序使具有存储部的计算机执行如下处理,该存储部存储匹配辞典,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果,该处理为:针对分析对象文本中的与包含于所述匹配辞典中的所述字符串一致的字符串输出所述第1词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。2.根据权利要求1所述的计算机可读取的记录介质,其中,该词素分析程序还使所述计算机执行如下处理:进行所述多个句子的词素分析,并在分别包含在所述多个句子中的字符串的词素分析结果全部相同的情况下,将所述字符串登记于所述匹配辞典中。3.根据权利要求1所述的计算机可读取的记录介质,其中,所述匹配辞典包含多个字符串和所述多个字符串的多个词素分析结果,所述多个字符串包含分别包含在所述多个句子中的字符串和其他的字符串,所述多个词素分析结果包含所述第1词素分析结果和所述其他的字符串的词素分析结果,该词素分析程序还使所述计算机执行如下处理:针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串分别一致的多个字符串输出所述多个词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串不一致的剩余的字符串,使用所述词素分析辞典生成所述点阵,使用所述点阵进行针对与所述多个字符串不一致的剩余的字符串的词素分析。4.一种词素分析装置,其具有:存储部,其存储匹配辞典,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果;第1分析部,其针对分析对象文本中的与包含在所述匹配辞典中的所述字符串一致的字符串,输出所述第1词素分析结果;以及第2分析部,其针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,并使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。5.根据权利要求4所述的词素分析装置,其中,该词素分析装置还具有辞典生成部,进行所述多个句子的词素分析,并在分别包含在所述多个句子中的字符串的词素分析结果全部相同的情况下,辞典生成部将所述字符串登记于所述匹配辞典中。6.根据权利要求4所述的词素分析装置,其中,所述匹配辞典包含多个字符串和所述多个字符串的多个词素分析结果,所述多个字符串包含分别包含在所述多个句子中的字符串和其他的字符串,所述多个词素分析结果包含所述第1词素分析结果和所述其他的字符串的词素分析结果,所述第1分析部针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串分别一致的多个字符串输出所述多个词素分析结果,所述第2分析部针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串不一致的剩余的字符串,使用所述词素分析辞典生成所述点阵,使用所述点阵进行针对与所述多个字符串不一致的剩余的字符串的词素分析。7.一种词素分析方法,包括由词素分析装置执行的如下处理,该词素分析装置具有存储匹配辞典的存储部,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果,该处理为:针对分析对象文本中的与包含在所述匹配辞典中的所述字符串一致的字符串,输出所述第1词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。8.根据权利要求7所述的词素分析方法,其中,该词素分析方法还包括如下处理:进行所述多个句子的词素分析,并在分别包含在所述多个句子中的字符串的词素分析结果全部相同的情况下,将所述字符串登记于所述匹配辞典中。9.根据权利要求7所述的词素分析方法,其中,所述匹配辞典包含多个字符串和所述多个字符串的多个词素分析结果,所述多个字符串包含分别包含在所述多个句子中的字符串和其他的字符串,所述多个词素分析结果包含所述第1词素分析结果和所述其他的字符串的词素分析结果,该词素分析方法还包括如下处理:针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串分别一致的多个字符串输出所述多个词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串不一致的剩余的字符串,使用所述词素分析辞典生成所述点阵,使用所述点阵进行针对与所述多个字符串不一致的剩余的字符串的词素分析。

百度查询: 富士通株式会社 词素分析装置和词素分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。