【发明授权】信息处理装置_三菱电机株式会社_201680090376.3

导航：龙图腾网> 最新专利技术> 信息处理装置_三菱电机株式会社_201680090376.3

申请/专利权人：三菱电机株式会社

申请日：2016-11-04

公开（公告）日：2023-01-06

公开（公告）号：CN109891409B

主分类号：G06F40/166

分类号：G06F40/166;G06F40/20;G06F16/332

优先权：

专利状态码：有效-授权

法律状态：2023.01.06#授权;2019.07.09#实质审查的生效;2019.06.14#公开

摘要：信息处理装置10具有：词素分析部11a、11b，其将报道中包含的报道正文和图像的字幕分割成词素；文节取得部12，其根据词素分析部11b的词素分析结果，将报道正文分割成文节；以及对应关系决定部13，其根据词素分析部11a的词素分析结果，计算字幕与报道正文的各文节之间的相关性，决定报道正文的各文节与图像之间的对应关系。

主权项：1.一种信息处理装置，该信息处理装置具有：词素分析部，其将报道中包含的报道正文和图像的字幕分割成词素；文节取得部，其根据所述词素分析部的词素分析结果，将所述报道正文分割成文节；字幕概述部，其对所述字幕进行概述而生成字幕概述；以及对应关系决定部，其根据所述词素分析部的词素分析结果，计算所述字幕概述与所述报道正文的各文节之间的相关性，决定所述报道正文的各文节与所述图像之间的对应关系。

全文数据：信息处理装置和信息处理方法技术领域本发明涉及对信息进行处理的信息处理装置和信息处理方法。背景技术在画面上显示新闻或博客等文章或报道的应用被广泛地实际应用。例如，可列举在汽车导航系统、电梯内显示器或智能手机的画面上显示新闻的新闻应用。上述应用显示的报道大多带有图像来作为补充信息。此外，图像中有时附加有说明该图像的内容的字幕caption。当报道带有图像时，用户容易理解报道的内容。另一方面，如果显示有不与画面中显示的语句或通过语音朗读的语句对应的图像时，存在用户感到混乱而不易传达内容的问题。例如，在报道带有多个图像的情况下，如果同样地显示全部图像，则不易知晓当前画面正显示的或正通过语音朗读的语句在对哪个图像进行说明。此外，在如智能手机那样画面的显示区域较窄，只能显示多个图像中的一幅图像的情况下，需要显示与画面正显示的或正通过语音朗读的语句对应的图像。作为选择与文档相符的图像的技术的一例，存在专利文献1中记载的技术。专利文献1的文档装饰辅助系统分析文档，提取特征词，计算针对模板图像的评价值，按照评价值从高到低的顺序来显示模板图像。此外，作为增强正通过语音朗读的语句的技术的一例，存在专利文献2中记载的技术。专利文献2的显示控制装置从显示数据中提取包含文本的文本区域，计算各文本区域内与朗读原稿数据中包含的各原稿要素之间的相关性，决定文本区域与原稿要素之间的对应关系，增强显示与输出语音数据的原稿要素对应的文本区域。现有技术文献专利文献专利文献1：日本特开2011-113289号公报专利文献2：日本特开2012-185567号公报发明内容发明要解决的课题在上述专利文献1、2中，是按照文档或语句等输入单位求出与图像之间的对应关系。因此，即使应用采用专利文献1中记载的技术而在画面上显示了报道正文和图像，在一个报道有多个图像的情况下，也存在画面正显示的报道正文与图像不对应的课题。同样，即使应用采用专利文献2中记载的技术而在通过语音朗读报道正文的同时显示了图像，在一个报道有多个图像的情况下，也存在正通过语音朗读的报道正文与画面中显示的图像不对应的课题。本发明正是为了解决上述课题而完成的，其目的在于，正确地决定画面中显示的或通过语音朗读的报道正文与画面中显示的图像之间的对应关系。用于解决课题的手段本发明的信息处理装置具有：词素分析部，其将报道中包含的报道正文和图像的字幕分割成词素；文节取得部，其根据词素分析部的词素分析结果，将报道正文分割成文节；以及对应关系决定部，其根据词素分析部的词素分析结果，计算字幕与报道正文的各文节之间的相关性，决定报道正文的各文节与图像之间的对应关系。发明效果根据本发明，计算字幕与报道正文的各文节之间的相关性，决定报道正文的各文节与图像之间的对应关系，因此，能够正确地决定画面中显示的或通过语音朗读的报道正文与画面中显示的图像之间的对应关系。附图说明图1是示出使用了本发明实施方式1的信息处理装置的语音引导装置的结构例的框图。图2是示出使用了本发明实施方式1的信息处理装置的语音引导装置的硬件结构的一例的图。图3是示出使用了本发明实施方式1的信息处理装置的语音引导装置的硬件结构的另一例的图。图4是示出本发明实施方式1的信息处理装置处理的报道的一例的图。图5是示出本发明实施方式1的信息处理装置的动作的流程图。图6是示出图5的步骤ST4的细节的流程图。图7是示出本发明实施方式1中的文节与字幕之间的独立词一致数的图。图8是示出使用了本发明实施方式2的信息处理装置的语音引导装置的结构例的框图。图9是示出本发明实施方式2的信息处理装置的动作的流程图。图10是示出本发明实施方式2的信息处理装置处理的报道的一例的图。图11是示出由本发明实施方式1的信息处理装置对图10的报道进行了处理时的、文节与字幕之间的独立词一致数的图。图12是示出由本发明实施方式2的信息处理装置对图10的报道进行了处理时的、文节与字幕之间的独立词一致数的图。图13是示出使用了本发明实施方式3的信息处理装置的语音引导装置的结构例的框图。图14是示出本发明实施方式3的信息处理装置的动作的流程图。图15是示出本发明实施方式3的信息处理装置的关联性分析部对图4的报道进行关联性分析而得到的结果的图。图16是示出使用了本发明实施方式4的信息处理装置的语音引导装置的结构例的框图。图17是示出本发明实施方式4的信息处理装置的动作的流程图。图18是示出本发明实施方式4的信息处理装置处理的报道和正文概述部生成的报道正文概述的一例的图。图19是示出使用了本发明实施方式5的信息处理装置的语音引导装置的结构例的框图。图20是示出本发明实施方式5的信息处理装置的动作的流程图。图21是示出使用了本发明实施方式6的信息处理装置的语音引导装置的结构例的框图。图22是示出本发明实施方式6的信息处理装置的动作的流程图。图23是示出本发明实施方式6的信息处理装置中的单词重要度信息的一例的图。图24是示出使用了本发明实施方式7的信息处理装置的语音引导装置的结构例的框图。图25是示出使用了本发明实施方式7的信息处理装置的语音引导装置的硬件结构的一例的图。图26是示出使用了本发明实施方式7的信息处理装置的语音引导装置的硬件结构的另一例的图。具体实施方式以下，为了更详细地说明本发明，按照附图说明用于实施本发明的方式。实施方式1图1是示出使用了本发明实施方式1的信息处理装置10的语音引导装置20的结构例的框图。信息处理装置10具有词素分析部11a、词素分析部11b、文节取得部12和对应关系决定部13。在图1的例子中，信息处理装置10与语音引导装置20一体地构成。语音引导装置20具有信息处理装置10、控制部21、语音输出部22和显示部23。图2和图3是示出使用了本发明实施方式1的信息处理装置10的语音引导装置20的硬件结构例的图。语音引导装置20中的词素分析部11a、词素分析部11b、文节取得部12、对应关系决定部13和控制部21的各功能通过处理电路来实现。即，语音引导装置20具有用于实现上述各功能的处理电路。处理电路可以是执行存储器102中储存的程序的处理器101，也可以是作为专用硬件的处理电路107。如图2所示，在处理电路为处理器101的情况下，词素分析部11a、词素分析部11b、文节取得部12、对应关系决定部13和控制部21的各功能通过软件、固件或软件和固件的组合来实现。软件或固件被记述为程序，储存在存储器102中。或者，也可以储存在硬盘驱动器103中。处理器101通过读出并执行存储器102中储存的程序，实现各部分的功能。即，语音引导装置20具有用于储存程序的存储器102，当由处理器101执行该程序时，作为结果执行后述的图5等流程图所示的步骤。此外，也可以说该程序是使计算机执行词素分析部11a、词素分析部11b、文节取得部12、对应关系决定部13和控制部21的过程或方法的程序。这里，处理器101是指CPUCentralProcessingUnit：中央处理单元、处理装置、运算装置、微处理器或微型计算机等。存储器102可以是RAMRandomAccessMemory：随机存取存储器、ROMReadOnlyMemory：只读存储器、EPROMErasableProgrammableROM：电可擦除可编程只读存储器或闪存等非易失性或易失性的半导体存储器，也可以是CDCompactDisc：压缩光盘或DVDDigitalVersatileDisc：数字多功能光盘等光盘。如图3所示，在处理电路为专用硬件的情况下，处理电路107例如是单一电路、复合电路、程序化的处理器、并行程序化的处理器、ASICApplicationSpecificIntegratedCircuit：面向特定用途的集成电路、FPGAFieldProgrammableGateArray：现场可编程门阵列或对它们进行组合而得到的硬件。词素分析部11a、词素分析部11b、文节取得部12、对应关系决定部13和控制部21的功能可以通过多个处理电路107来实现，也可以由一个处理电路107集中实现各部的功能。另外，对于词素分析部11a、词素分析部11b、文节取得部12、对应关系决定部13和控制部21的各功能，可以通过软件或固件来实现一部分，并通过专用硬件来实现一部分。这样，语音引导装置20中的处理电路能够通过软件、固件、硬件或它们的组合来实现上述各功能。语音引导装置20中的语音输出部22是扬声器104。语音引导装置20中的显示部23是显示器105。处理器101或处理电路107、硬盘驱动器103、扬声器104以及显示器105通过总线106等连接，使得能够进行信息的收发。接着，对使用了信息处理装置10的语音引导装置20的动作进行说明。图4是示出本发明实施方式1的信息处理装置10处理的报道的一例的图。报道包含报道正文、图像和字幕的信息。字幕是说明与其成对的图像内容的语句。图5是示出本发明实施方式1的信息处理装置10的动作的流程图。这里，假设将图4所示的报道的信息输入到信息处理装置10的情况。在步骤ST1中，词素分析部11a对字幕进行词素分析而分割成词素，取得分配给各词素的读音和词类。在步骤ST2中，词素分析部11b对报道正文进行词素分析而分割成词素，取得分配给各词素的读音和词类。在步骤ST3中，文节取得部12根据由词素分析部11b得到的报道正文的词素分析结果，将报道正文分割成文节。更具体而言，针对报道正文的各词素，文节取得部12考虑词类和词尾变化来判断其是独立词还是附属词，取得作为它们的组合的文节。文节在非常简化的定义中，呈现在1个以上的独立词之后连续接着0个以上的附属词的形式。文节取得部1的处理例如能够通过利用“入門自然言語処理”StevenBird等、第4版、O'ReillyJapan、2012年1月17日、p.498～499中记载的技术来实现。在步骤ST4中，对应关系决定部13根据由词素分析部11a得到的字幕的词素分析结果和由文节取得部12得到的报道正文的文节，计算字幕与报道正文的各文节之间的相关性，决定报道正文的各文节与图像之间的对应关系。更具体而言，对应关系决定部13计算报道正文的各文节与字幕之间的相关性，将对应于与某文节相关性最高的字幕的图像决定为与该文节对应的图像。接着，说明步骤ST4的细节。图6是示出图5的步骤ST4的细节的流程图。这里，将报道中包含的多个图像中的1个图像带有的字幕称作字幕c。此外，将报道正文中包含的多个文节中的一个称作文节p。在步骤ST41中，对应关系决定部13根据由词素分析部11a得到的字幕c的词类，取得字幕c的独立词，生成独立词列表。另外，作为独立词的取得方法，存在各种方法。对应关系决定部13例如可以取得除了停止词助词和助动词以外的全部词素作为独立词，也可以仅取得名词作为独立词。在步骤ST42中，对应关系决定部13计算报道正文的文节p与字幕c之间的相关性。作为相关性的计算方法，存在各种方法。例如，对应关系决定部13根据文节p包含几个字幕c的独立词列表中的单词，求出文节p与字幕c之间的相关性。在步骤ST43中，对应关系决定部13将与文节p相关性最高的字幕c决定为对应的图像。然后，对应关系决定部13输出文节与图像之间的对应关系。图7是示出本发明实施方式1中的文节与字幕之间的独立词一致数的图。字幕和文节的“”表示词素的分割位置。根据图7，字幕“山田太郎氏”与文节“山田太郎氏の”的相关性为“3”，比与其他字幕“佐藤花子元防衛相”和“鈴树一郎元総務相”的相关性“0”高。因此，作为与文节“山田太郎氏の”对应的图像，适合的是带有字幕“山田太郎氏”的图像。除此以外，相关性的计算方法例如有：在文节与字幕之间求出被称作Levenshtein距离或编辑距离的值的方法，或者通过word2vec方法将文节和字幕表现为向量并求出两向量的相似性的方法等。控制部21根据由对应关系决定部13得到的图像与文节之间的对应关系，控制语音输出部22和显示部23，使得在通过语音朗读报道正文的文节时，显示与该文节对应的图像。语音输出部22在控制部21的控制下，通过语音朗读报道正文。显示部23在控制部21的控制下显示图像。例如，在语音输出部22正朗读图7的最初的文节“山田太郎氏の”的期间，显示部23显示带有字幕“山田太郎氏”的图像。接着，在语音输出部22正朗读第2个文节“辞職に”至第10个文节“同党衆院議員の”的期间，显示部23不显示任何图像。接着，在语音输出部22正朗读第11个文节“佐藤花子元防衛相に対し、”的期间，显示部23显示带有字幕“佐藤花子元防衛相”的图像。或者，在语音输出部22正朗读第2个文节“辞職に”至第10个文节“同党衆院議員の”的期间，显示部23也可以继续显示带有与最初的文节“山田太郎氏の”对应的字幕“山田太郎氏”的图像。另外，在实施方式1中，构成为语音引导装置20通过语音来朗读报道正文，但语音朗读不是必需的结构。例如，也可以构成为替代语音朗读而高亮显示文节并显示与该文节对应的图像。此外，也可以构成为在画面内显示有报道正文的一部分时，显示或增强与显示着的报道正文的一部分对应的图像。如上所述，实施方式1的信息处理装置10构成为具有：词素分析部11a、11b，其将报道中包含的报道正文和图像的字幕分割成词素；文节取得部12，其根据词素分析部11b的词素分析结果，将报道正文分割成文节；以及对应关系决定部13，其根据词素分析部11a的词素分析结果，计算字幕与报道正文的各文节之间的相关性，决定报道正文的各文节与图像之间的对应关系。由此，能够正确地决定画面中显示的或通过语音朗读的报道正文与画面中显示的图像之间的对应关系。实施方式2图8是示出使用了本发明实施方式2的信息处理装置10的语音引导装置20的结构例的框图。实施方式2的信息处理装置10是对图1所示的实施方式1的信息处理装置10追加字幕概述部14而得到的结构。在图8中，对与图1相同或对应的部分标注相同标号并省略说明。字幕概述部14通过图2所示的处理器101执行存储器102中储存的程序来实现。或者，字幕概述部14通过图3所示的处理电路107来实现。图9是示出本发明实施方式2的信息处理装置10的动作的流程图。图9的步骤ST1～ST3是与图5的步骤ST1～ST3相同的处理，因此省略说明。在步骤ST1的下一步骤ST5中，字幕概述部14使用由词素分析部11a得到的字幕的词素分析结果中的词类等信息对字幕进行概述，生成字幕概述。作为字幕的概述方法，存在使用关联性构造的方法和使用TF-IDFTermFrequency-InverseDocumentFrequency：词频-逆文档频率的方法等各种方法。IDF是预先按照每个单词决定的值，是表示单词的出现频率的值。TF是表示单词在作为朗读对象的一个报道内的出现频率的值。通过将TF的值和IDF的值相乘来计算TF-IDF。这里，字幕概述部14使用如下方法：根据字幕的词素分析结果，提取在字幕的最后出现的名词的块作为字幕概述。特别是新闻报道等图像的字幕大多是体言终止形的，使用该特征是有效的。在步骤ST4A中，对应关系决定部13根据由字幕概述部14得到的字幕概述和由文节取得部12得到的报道正文的文节，计算字幕概述与报道正文的各文节之间的相关性，决定报道正文的各文节与图像之间的对应关系。图10是示出本发明实施方式2的信息处理装置10处理的报道的一例的图。图11是示出由本发明实施方式1的信息处理装置10对图10的报道进行了处理时的、文节与字幕之间的独立词一致数的图。图12是示出由本发明实施方式2的信息处理装置10对图10的报道进行了处理时的、文节与字幕之间的独立词一致数的图。在实施方式1中，对应关系决定部13是使用对字幕整体进行词素分析而得到的结果来计算相关性。但是，在图10所示的报道的情况下，如果直接使用长语句的字幕，则无法计算正确的相关性。如图11所示，尽管是“斉藤次郎弁護士”的图像，但与没有直接关系的“大船興産”的相关性较高，作为针对文节“大船興産の”的图像，选择带有字幕“大船興産経営陣との協議後、記者団の取材に応じる創業家側代理人の斉藤次郎弁護士”的图像。另一方面，在实施方式2中，如图12所示，使用对字幕进行概述而得到的字幕概述来计算相关性。在图12中，通过字幕概述部14，提取在字幕的最后出现的名词的块“斉藤次郎弁護士”和“三菱太郎社長”作为字幕概述。由此，无需计算字幕中包含的噪声的部分与报道正文的文节之间的相关性，能够更适当地进行对应关系的决定。如上所述，实施方式2的信息处理装置10构成为具有对字幕进行概述来生成字幕概述的字幕概述部14，对应关系决定部13计算字幕概述与报道正文的各文节之间的相关性，决定报道正文的各文节与图像之间的对应关系。由此，即使在对字幕进行了概述的情况下，也能够正确地决定画面中显示的或通过语音朗读的报道正文与画面中显示的图像之间的对应关系。实施方式3图13是示出使用了本发明实施方式3的信息处理装置10的语音引导装置20的结构例的框图。实施方式3的信息处理装置10是对图8所示的实施方式2的信息处理装置10追加关联性分析部15而得到的结构。在图13中，对与图8相同或对应的部分标注相同标号并省略说明。关联性分析部15通过图2所示的处理器101执行存储器102中储存的程序来实现。或者，关联性分析部15通过图3所示的处理电路107来实现。图14是示出本发明实施方式3的信息处理装置10的动作的流程图。图14的步骤ST1～ST3、ST5是与图9的步骤ST1～ST3、ST5相同的处理，因此省略说明。在步骤ST3的下一步骤ST6中，关联性分析部15根据由文节取得部12得到的报道正文的文节，求出文节间的关联性关系，将报道正文分割成意思集合。在步骤ST4B中，对应关系决定部13根据由字幕概述部14得到的字幕概述和由关联性分析部15得到的报道正文的意思集合，计算字幕概述与报道正文的各意思集合之间的相关性，决定报道正文的各意思集合与图像之间的对应关系。图15是示出本发明实施方式3的信息处理装置10的关联性分析部15对图4的报道进行关联性分析而得到的结果的图。这里，对未图示的字幕进行概述，假设已成为字幕概述“佐藤花子元防衛相”和“鈴木一郎元総務相”。关联性分析结果成为将末尾的文节“見通し。”作为根的树结构，将其称作关联性分析树。在对应关系决定部13计算该关联性分析树与字幕概述之间的相关性时，在包含用黑体表示的部分的三个文节“佐藤花子元防衛相に対し、”、“総務相も”以及“鈴木一郎氏が”中，相关性较高。对应关系决定部13能够取得对在关联性分析树中处于相关性较高的文节之上即在从根远离的方向上延伸的分枝进行汇总而得到的意思集合，决定意思集合与图像之间的对应关系。在图15中，带有字幕概述“佐藤花子元防衛相”的图像与意思集合“民衆党県連を批判しながら出馬表明した同党衆院議員の佐藤花子元防衛相に対し、”对应。此外，带有字幕概述“鈴木一郎元総務相”的图像与意思集合“前県知事で総務相も務めた鈴木一郎氏が”对应。另外，除此以外，取得意思集合的方法还有利用句号。或顿号、进行分隔的方法等。此外，在与意思集合对应的图像一个也没有的情况下，还能够采用如下方法：继续对应与该意思集合之前的意思集合中的文节对应的图像，直到下一次出现与图像之间的相关性较高的文节为止。在实施方式2中，是按照报道正文的每个文节计算与字幕概述之间的相关性，决定与每个文节对应的图像。但是，在按照每个文节对应图像时，显示图像的时间有时极短。另一方面，通过如实施方式3所示进行关联性分析，能够知晓相关文节与被相关的文节之间的关系，求出由多个文节构成的“意思集合”。因此，能够针对更长的文节列且意思上错误少的文节列，决定与图像之间的对应关系。如上所述，实施方式3的信息处理装置10构成为具有：字幕概述部14，其对字幕进行概述来生成字幕概述；以及关联性分析部15，其求出报道正文的文节间的关联性关系，将报道正文分割成意思集合，对应关系决定部13计算字幕概述与报道正文的各意思集合之间的相关性，决定报道正文的各意思集合与图像之间的对应关系。由此，能够更正确地决定画面中显示的或通过语音朗读的报道正文与画面中显示的图像之间的对应关系。此外，能够抑制显示图像的时间变得极短，能够容易地看到图像。另外，在实施方式3中，示出了信息处理装置10具有字幕概述部14的结构，但也可以不具有字幕概述部14。该情况下，对应关系决定部13计算字幕与报道正文的各意思集合之间的相关性，决定报道正文的各意思集合与图像之间的对应关系。实施方式4图16是示出使用了本发明实施方式4的信息处理装置10的语音引导装置20的结构例的框图。实施方式4的信息处理装置10是对图13所示的实施方式3的信息处理装置10追加正文概述部16而得到的结构。在图16中，对与图13相同或对应的部分标注相同标号并省略说明。正文概述部16通过图2所示的处理器101执行存储器102中储存的程序来实现。或者，正文概述部16通过图3所示的处理电路107来实现。实施方式1～3中，在对报道正文进行概述的情况下，由于未考虑与图像字幕之间的对应，因此在报道正文的概述语句中可能不包含与图像对应的部分。但是，考虑到在报道中带有图像的部分比较重要，因此，优选在报道正文的概述语句中包含与图像显示对应的部分。图17是示出本发明实施方式4的信息处理装置10的动作的流程图。图17的步骤ST1～ST3、ST5、ST6是与图14的步骤ST1～ST3、ST5、ST6相同的处理，因此省略说明。在步骤ST6的下一步骤ST7中，正文概述部16使用由关联性分析部15得到的关联性分析结果对报道正文进行概述，生成报道正文概述。图18是示出本发明实施方式4的信息处理装置10处理的报道和正文概述部16生成的报道正文概述的一例的图。报道正文中的黑体部分是报道正文概述。作为报道正文的概述方法，存在各种方法。正文概述部16例如计算语句中包含的单词的重要度，将语句中包含的单词的重要度之和作为该语句的重要度，从重要度较高的语句中提取指定字符数以内的字符串。作为单词的重要度，例如采用TF-IDF的值。此时，正文概述部16也可以通过提高由字幕概述部14得到的字幕概述中包含的单词的重要度，使得报道正文概述中容易包含与字幕概述之间的相关性较高的语句。由此，能够容易地生成表示图像内容的报道正文概述。在步骤ST4C中，对应关系决定部13根据由字幕概述部14得到的字幕概述和由正文概述部16得到的报道正文概述，计算字幕概述与报道正文概述中包含的各文节之间的相关性，决定报道正文概述的各文节与图像之间的对应关系。在具有正文概述部16的语音引导装置20中，语音输出部22通过语音朗读的或显示部23显示在画面上的语句可以是报道正文，也可以是报道正文概述。如上所述，实施方式4的信息处理装置10构成为具有：字幕概述部14，其对字幕进行概述来生成字幕概述；以及正文概述部16，其对报道正文进行概述来生成报道正文概述，对应关系决定部13计算字幕概述与报道正文概述中包含的各文节之间的相关性，决定报道正文概述的各文节与图像之间的对应关系。由此，即使在对字幕和报道正文进行了概述的情况下，也能够正确地决定画面中显示的或通过语音朗读的报道正文与画面中显示的图像之间的对应关系。另外，在实施方式4中，示出了信息处理装置10具有字幕概述部14的结构，但也可以不具有字幕概述部14。该情况下，对应关系决定部13计算字幕与报道正文概述中包含的各文节之间的相关性，决定报道正文概述的各文节与图像之间的对应关系。此外，对应关系决定部13也可以计算字幕或字幕概述与报道正文概述中包含的各意思集合之间的相关性，决定报道正文概述的各意思集合与图像之间的对应关系。实施方式5图19是示出使用了本发明实施方式5的信息处理装置10的语音引导装置20的结构例的框图。实施方式5的信息处理装置10是与图16所示的实施方式4的信息处理装置10相同的结构，但箭头从正文概述部16延伸到字幕概述部14这一点不同。图20是示出本发明实施方式5的信息处理装置10的动作的流程图。图20的步骤ST1～ST3、ST4C、ST6、ST7是与图17的步骤ST1～ST3、ST4C、ST6、ST7相同的处理，因此省略说明。在步骤ST7的下一步骤ST8中，字幕概述部14使用由词素分析部11a得到的字幕的词素分析结果和由正文概述部16得到的报道正文概述对字幕进行概述，生成字幕概述。此时，字幕概述部14例如如实施方式4所示，根据TF-IDF等，以包含报道正文概述的方式生成字幕概述。由此，在显示字幕的区域有限的情况下等，提高报道正文概述中包含的单词或文节的重要度而使得该单词或文节容易包含在字幕概述中，由此，正通过语音朗读的报道正文概述与图像之间的对应更准确，从而容易知晓。此外，字幕概述部14将字幕概述输出到控制部21。控制部21控制显示部23，使得在正通过语音朗读报道正文概述的文节时，将与该文节对应的图像和由字幕概述部14得到的字幕概述一起显示在画面上。显示部23在控制部21的控制下显示图像和字幕概述。如上所述，实施方式5中的字幕概述部14构成为以包含报道正文概述的方式生成字幕概述。由此，即使在对字幕和报道正文进行了概述的情况下，也能够正确地决定画面中显示的或通过语音朗读的报道正文与画面中显示的图像之间的对应关系。另外，在实施方式5中，示出了对应关系决定部13计算字幕概述与报道正文概述中包含的各文节之间的相关性，决定报道正文概述的各文节与图像之间的对应关系的结构，但也可以构成为计算字幕概述与报道正文概述中包含的各意思集合之间的相关性，决定报道正文概述的各意思集合与图像之间的对应关系。此外，在实施方式5中，示出了显示部23将字幕概述部14生成的字幕概述显示在画面上的结构，但也可以不将字幕概述显示在画面上。此外，在实施方式2～4中，也可以如实施方式5所示，构成为显示部23将字幕概述显示在画面上。实施方式6图21是示出使用了本发明实施方式6的信息处理装置10的语音引导装置20的结构例的框图。实施方式6的信息处理装置10是对图19所示的实施方式5的信息处理装置10追加第2对应关系决定部17而得到的结构。在图21中，对与图19相同或对应的部分标注相同标号并省略说明。另外，正文概述部16可以如实施方式4所示，以包含字幕概述的方式生成报道正文概述。或者，字幕概述部14可以如实施方式5所示，以包含报道正文概述的方式生成字幕概述。第2对应关系决定部17通过图2所示的处理器101执行存储器102中储存的程序来实现。或者，第2对应关系决定部17通过图3所示的处理电路107来实现。实施方式5构成为决定文节或意思集合与图像之间的对应关系，因此，图像的显示切换频率有时会较高。在实施方式6中，在一个语句中存在多个文节，且多个图像与一个语句对应的情况下，第2对应关系决定部17求出各文节的重要度，将与重要度较高的文节对应的图像决定为与该语句对应的图像。另外，对应图像的单位不限于一个语句，也可以是段落等一个语句以上的语句集合，还可以是对报道正文进行概述而得到的报道正文概述。图22是示出本发明实施方式6的信息处理装置10的动作的流程图。图22的步骤ST1～ST8是与图20的步骤ST1～ST8相同的处理，因此省略说明。在步骤ST4C的下一步骤ST9中，第2对应关系决定部17根据由对应关系决定部13得到的报道正文的各文节与图像之间的对应关系，确认与报道正文中的一个语句以上的语句集合处于对应关系的图像是否有多个。当存在多个与上述语句集合处于对应关系的图像的情况下，第2对应关系决定部17根据表示每个单词的重要度的单词重要度信息，求出报道正文的各文节的重要度，将与在上述语句集合中具有最高重要度的文节对应的一幅图像决定为与上述语句集合处于对应关系的图像，输出上述语句集合与一幅图像之间的对应关系。另一方面，在与上述语句集合处于对应关系的图像为一幅的情况下，第2对应关系决定部17输出上述语句集合与该图像之间的对应关系。另外，第2对应关系决定部17可以不按照每个文节求出重要度，而是按照每个意思集合求出重要度。单词重要度信息例如是指TF-IDF的值。该情况下，第2对应关系决定部17计算文节或意思集合中包含的单词的重要度，将文节或意思集合中包含的单词的重要度之和作为该文节或意思集合的重要度。此外，也可以将如下信息等设为单词重要度信息：使用历史信息将之前已处理的报道中包含的单词的重要度设定为较高或较低的信息，或者使用取得用户说出的语音的数据而将用户喜欢的关键词列表化而得到的信息，将关键词中包含的单词的重要度设定为较高的信息。之前已处理的报道中包含的单词即用户之前经常看的报道中包含的单词可认作是用户感兴趣的内容，因此如果提高那样的单词的重要度，则容易选择用户感兴趣的部分。另一方面，用户不是总看相同内容的报道，还有可能想阅读没看过的新内容的报道。在那样的情况下，将之前经常看的报道中包含的单词的重要度设定为较低，由此不容易选择用户已知的单词而容易选择未知的内容。基于上述考虑，可以根据目的，将之前已处理的报道中包含的单词的重要度设为较高或较低。由此，能够优先显示适于用户的图像。图23是示出本发明实施方式6的信息处理装置10中的单词重要度信息的一例的图。在该单词重要度信息中，“佐藤花子”的单词重要度被决定为“6”，“鈴木一郎”的单词重要度被决定为“2”。例如，假设针对图15所示的报道正文中的一个语句决定一幅图像的情况。通过对应关系决定部13，带有字幕概述“佐藤花子元防衛相”的图像与意思集合“民衆党県連を批判しながら出馬表明した同党衆院議員の佐藤花子元防衛相に対し、”对应。此外，带有字幕概述“鈴树一郎元総務相”的图像与意思集合“前県知事で総務相も務めた鈴木一郎氏が”对应。即，两幅图像对应于图15所示的一个语句。此时，如果使用图23所示的单词重要度，则与包含“鈴木一郎”的意思集合的重要度相比，包含“佐藤花子”的意思集合的重要度较高，因此，选择带有字幕“佐藤花子元防衛相”的图像，作为与该一个语句对应的图像。如上所述，实施方式6的信息处理装置10构成为具有第2对应关系决定部17，当存在多个与报道正文中的一个语句以上的语句集合处于对应关系的图像的情况下，该第2对应关系决定部17根据表示每个单词的重要度的单词重要度信息，求出报道正文的文节或意思集合的重要度，将与在语句集合中具有最高重要度的文节或意思集合对应的图像决定为与语句集合处于对应关系的图像。由此，能够决定一幅最适于语句或文章的图像。此外，能够抑制显示图像的时间变得极短，能够容易地看到图像。实施方式7图24是示出使用了本发明实施方式7的信息处理装置10的语音引导装置20的结构例的框图。实施方式7的信息处理装置10是对图1所示的实施方式1的信息处理装置10追加语音取得部24和语音识别部25而得到的结构。在图24中，对与图1相同或对应的部分标注相同标号并省略说明。在实施方式7中，不对信息处理装置10输入报道正文，而是输入对语音数据进行语音识别而得到的字符串。图25和图26是示出使用了本发明实施方式7的信息处理装置10的语音引导装置20的硬件结构的一例的图。在图25和图26中，对与图2相同或对应的部分标注相同标号并省略说明。在图25所示的硬件结构例中，信息处理装置10中的语音取得部24是麦克风等取得语音的传感器108。信息处理装置10中的语音识别部25通过处理器101执行存储器102中储存的程序来实现。或者，也可以如图26所示的硬件结构例那样，语音识别部25通过作为专用硬件的处理电路107来实现。语音引导装置20具有：语音取得部24，其取得用户说出的语音作为语音数据；以及语音识别部25，其对由语音取得部24取得的语音数据进行语音识别而生成字符串。语音识别部25生成的字符串被输入到信息处理装置10的词素分析部11b。信息处理装置10对通过对语音数据进行语音识别而得到的字符串，进行与报道正文相同的处理。由此，语音引导装置20能够显示或增强与用户说出的内容对应的图像。该语音引导装置20除了能够用于演讲等以外，还能够用于如下用途等：在通过语音识别结果控制信息设备的情况下，当通过语音选择按钮时增强显示相应的按钮图像。另外，在实施方式1～6中，也能够构成为不对信息处理装置10输入报道正文，而是输入对语音数据进行语音识别而得到的字符串。此外，在实施方式1～7中，构成为词素分析部11a对字幕进行词素分析，词素分析部11b对报道正文进行词素分析，但也可以构成为一个词素分析部对字幕和报道正文进行词素分析。此外，在实施方式1～7中，说明了将日语作为对象的信息处理装置10和语音引导装置20，但信息处理装置10和语音引导装置20作为对象的语言不限于日语。此外，在实施方式1～7中，构成为对通过语音朗读报道正文的语音引导装置20使用信息处理装置10，但也可以构成为对画面显示报道正文的信息提示装置使用信息处理装置10。此外，在实施方式1～7中，构成为语音引导装置20内置有信息处理装置10，但也可以是，信息处理装置10与语音引导装置20分开构成，并以能够进行信息收发的方式连接。除了上述以外，本发明能够在其发明范围内进行各实施方式的自由组合、各实施方式的任意结构要素的变形或者各实施方式的任意结构要素的省略。产业上的可利用性本发明的信息处理装置能够正确地决定画面中显示的或通过语音朗读的报道正文与画面中显示的图像之间的对应关系，因此，适合用于汽车导航系统、电梯内显示器、广告牌、智能手机和电视的节目表朗读等对信息进行画面显示的信息提示装置和通过语音朗读信息的语音引导装置等。标号说明10：信息处理装置；11a：词素分析部；11b：词素分析部；12：文节取得部；13：对应关系决定部；14：字幕概述部；15：关联性分析部；16：正文概述部；17：第2对应关系决定部；20：语音引导装置；21：控制部；22：语音输出部；23：显示部；24：语音取得部；25：语音识别部；101：处理器；102：存储器；103：硬盘驱动器；104：扬声器；105：显示器；106：总线；107：处理电路；108：传感器。

权利要求：1.一种信息处理装置，该信息处理装置具有：词素分析部，其将报道中包含的报道正文和图像的字幕分割成词素；文节取得部，其根据所述词素分析部的词素分析结果，将所述报道正文分割成文节；以及对应关系决定部，其根据所述词素分析部的词素分析结果，计算所述字幕与所述报道正文的各文节之间的相关性，决定所述报道正文的各文节与所述图像之间的对应关系。2.根据权利要求1所述的信息处理装置，其特征在于，该信息处理装置具有字幕概述部，该字幕概述部对所述字幕进行概述而生成字幕概述，所述对应关系决定部计算所述字幕概述与所述报道正文的各文节之间的相关性，决定所述报道正文的各文节与所述图像之间的对应关系。3.根据权利要求1所述的信息处理装置，其特征在于，该信息处理装置具有关联性分析部，该关联性分析部求出所述报道正文的文节间的关联性关系，将所述报道正文分割成意思集合，所述对应关系决定部计算所述字幕与所述报道正文的各意思集合之间的相关性，决定所述报道正文的各意思集合与所述图像之间的对应关系。4.根据权利要求3所述的信息处理装置，其特征在于，该信息处理装置具有字幕概述部，该字幕概述部对所述字幕进行概述而生成字幕概述，所述对应关系决定部计算所述字幕概述与所述报道正文的各意思集合之间的相关性，决定所述报道正文的各意思集合与所述图像之间的对应关系。5.根据权利要求1所述的信息处理装置，其特征在于，该信息处理装置具有正文概述部，该正文概述部对所述报道正文进行概述而生成报道正文概述，所述对应关系决定部计算所述字幕与所述报道正文概述中包含的各文节之间的相关性，决定所述报道正文概述的各文节与所述图像之间的对应关系。6.根据权利要求5所述的信息处理装置，其特征在于，该信息处理装置具有字幕概述部，该字幕概述部对所述字幕进行概述而生成字幕概述，所述对应关系决定部计算所述字幕概述与所述报道正文概述中包含的各文节之间的相关性，决定所述报道正文概述的各文节与所述图像之间的对应关系。7.根据权利要求6所述的信息处理装置，其特征在于，所述字幕概述部以包含所述报道正文概述的方式，生成所述字幕概述。8.根据权利要求1所述的信息处理装置，其特征在于，该信息处理装置具有第2对应关系决定部，当存在多个与所述报道正文中的一个语句以上的语句集合处于对应关系的图像的情况下，所述第2对应关系决定部根据表示每个单词的重要度的单词重要度信息，求出所述报道正文的文节或意思集合的重要度，将与在所述语句集合中具有最高重要度的文节或意思集合对应的图像决定为与所述语句集合处于对应关系的图像。9.根据权利要求1所述的信息处理装置，其特征在于，所述报道正文是对语音数据进行语音识别而得到的字符串。10.一种信息处理方法，该信息处理方法具有以下步骤：词素分析部将报道中包含的报道正文和图像的字幕分割成词素；文节取得部根据所述词素分析部的词素分析结果，将所述报道正文分割成文节；以及对应关系决定部根据所述词素分析部的词素分析结果，计算所述字幕与所述报道正文的各文节之间的相关性，决定所述报道正文的各文节与所述图像之间的对应关系。

百度查询：三菱电机株式会社信息处理装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

【发明授权】信息处理装置_三菱电机株式会社_201680090376.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务