买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种用于计算相关性分数的计算系统、方法_奥多比公司_201711339155.8 

申请/专利权人:奥多比公司

申请日:2017-12-14

公开(公告)日:2024-04-19

公开(公告)号:CN108629266B

主分类号:G06V10/74

分类号:G06V10/74;G06V10/82;G06V10/762;G06V20/70;G06F16/55;G06F16/583

优先权:["20170320 US 15/463,769"]

专利状态码:有效-授权

法律状态:2024.04.19#授权;2020.02.04#实质审查的生效;2018.10.09#公开

摘要:本申请的各实施方式涉及使用图像到题目嵌入的大规模图像加标记。提供了一种框架以用于利用嵌入学习来将图像与题目相关联。框架利用图像而被训练,每个图像具有多个视觉特性和与其相关联的多个关键词标签。视觉特征利用卷积神经网络从视觉特性被计算,并且图像特征矢量从视觉特性被生成。关键词标签被用于通过计算词矢量表示的加权平均来生成针对每个图像的加权词矢量或者“软题目特征矢量”,词矢量表示表示与图像相关联的关键词标签。图像特征矢量和软题目特征矢量在共用嵌入空间中被对齐,并且相关性分数针对关键词标签中的每个关键词标签被计算。一旦经训练,框架就可以自动地标记图像,并且基于文本的搜索引擎可以基于预测的相关性分数、相对于查询的关键词来对图像相关性排名。

主权项:1.一种用于计算相关性分数的计算系统,包括一个或者多个处理器;以及存储计算机可用指令的一个或者多个计算机存储介质,所述计算机可用指令在由所述一个或者多个处理器使用时,使得所述一个或者多个处理器:接收多个图像,所述多个图像中的每个图像与多个标签相关联;以及针对所述多个图像中的每个主体图像:从相关联的所述多个标签生成加权词矢量;从与所述主体图像相关联的一个或者多个视觉特征生成图像特征矢量;在共用嵌入空间中将所述图像特征矢量与所述加权词矢量对齐;以及使用对齐的所述矢量,针对相关联的所述多个标签中的每个标签,在其属于所述主体图像时计算相关性分数。

全文数据:使用图像到题目嵌入的大规模图像加标记技术领域[0001]本申请的各实施方式涉及使用图像到题目嵌入的大规模图像加标记。背景技术[0002]利用因特网的信息搜索在年轻人和老年人等等中是广泛发展的实践。一般地,希望获得与特定题目或者事物有关的知识或者以其他方式对它们有兴趣)的人导航至在线搜索引擎,并且将查询输入到合适的查询输入字段中。然后对查询发起,并且与输入的查询相关的搜索结果的选择被呈现以用于由用户检验和或用户的享受。随着这样的基于查询的搜索实践的普遍扩散,用于响应于输入的查询来定位和呈现相关信息的方法和系统已经变得越来越重要。例如,想要成为用户的用于进行在线搜索的首选g〇-to资源的搜索引擎正在继续精华其用以确定对输入的搜索查询的潜在搜索结果的相关性的系统和方法。[0003]在线信息搜索中的另一发展趋势是在除了基于文本的文档之外或者代替基于文本的文档的,对在线图像的搜索。图像搜索的两种主要方法已经被广泛使用。在第一方法中,用户输入一个或者多个文本关键词,并且作为响应,与关键词相关的图像被呈现。例如,在进行关键词搜索时,可以向输入文本关键词“狗”的用户呈现示出狗的图片的多个图像。在第二方法中,例如,当用户想要查看类似图像和或检查关于输入图像中所描绘的内容的文本信息时,利用图像作为输入的查询。通过示例的方式,在执行图像搜索之后,可以向输入文森特•梵高的“繁星之夜”图像的用户呈现文森特•梵高的其他作品和或关于艺术家、绘画等有关的基于文本的彳目息。[0004]关于是响应于基于文本的查询还是基于图像的查询来呈现图像,确定特定图像的相对于所查询的信息的相关性可能是艰苦的工作。在一些情况下,用户可以手动地将关键词与图像数据库中包括的图像相关联,和或可以从结合图像获得和或与图像接近的信息提取关键词。这样的关键词然后可以作为关键词标签与图像相关联。随后,当用户利用至少类似于与给定图像相关联的关键词标签的关键词来搜索图像时,可以响应于查询来呈现该给定图像。类似地,具有与其相关联的关键词作为关键词标签的输入图像在被搜索时,可以提示类似地具有与其相关联的关键词(或者类似关键词)作为关键词标签的其他图像的返回。然而,诸如这些的基于标签的方法和系统经常呈现与给定查询仅略微相关的图像,特别是在与图像相关联的关键词标签由于多个项目正在图像中被描绘而变化的情况中。[0005]在其他情况中,搜索系统可以从给定图像提取视觉特性,并且试图将这样的特性与图像数据库中的图像的类似视觉特性匹配,以用于响应于查询来向用户呈现。例如,由于图像中可能包括大量视觉信息并且仅其一部分可能与输入查询相关,所以诸如这些类似的基于视觉特性的方法和系统可能呈现与给定查询仅略微相关的图像。发明内容[0006]除了其他内容以外,本发明的实施方式涉及一种用于利用嵌入学习来将图像与题目相关联的框架,这些题目指示图像的主题。框架使用多个图像被训练,每个图像具有相关联的视觉特性和关键词标签。关于视觉特性,图像特征矢量从计算自图像的一个或者多个视觉特征被生成。关于标签信息,关键词标签被用来生成针对每个图像的加权词矢量也就是,词矢量表示从关键词标签得到的主体图像中主导的概念)。加权词矢量和图像特征矢量在共用嵌入空间被对齐(即,使得尽可能彼此接近)。利用对齐的矢量,相关性分数针对属于主体图像的关键词标签中的每个关键词标签被计算例如,利用欧几里德距离计算)。一旦经训练,在此描述的框架就可以被用来自动地将关键词标签与附加输入图像关联,并且基于相关联的相关性分数、相对于查询的关键词来对图像的相关性排名。[0007]提供了本发明内容以便以简化形式引入概念的选择,其将在下文具体实施方式中被进一步描述。被发明内容不旨在标识所要求保护的主题的关键特征或者本质特征,也不旨在被用作帮助确定所要求保护的主题的范围。附图说明[0008]下文参考附图对本发明进行详细描述,其中:[0009]图1是图示了根据本公开内容的一些实现方式的示例性图像到题目关联和加标记系统的框图;[0010]图2是图示了根据本公开内容的一些实现方式的图像加标记与基于本文的图像搜索之间的不例性关系的不意图;[0011]图3是图示了根据本公开内容的一些实现方式的示例性图像到题目关联和加标记系统的不意图;[0012]图4是图示了根据本公开内容的一些实现方式的利用图像到题目嵌入系统、针对输入图像而被返回的示例性搜索结果的示意图;[0013]图5是图示了根据本公开内容的一些实现方式的用于利用软题目来嵌入学习的示例性嵌入网络的示意图;[00M]图6是图示了根据本公开内容的一些实现方式的用于利用硬题目的特征训练的示例性方法的示意图;[0015]图7是图示了根据本公开内容的一些实现方式的用于利用图像到查询嵌入的图像搜索排名优化的示例性方法的示意图;[0016]图8是图示了根据本公开内容的一些实现方式的用于图像到题目关联和加标记的示例性方法的流程图;以及[0017]图9是根据本公开内容的一些实现方式的适合使用的示例性计算环境的框图。具体实施方式[0018]除了其他内容以外,本发明的实施方式涉及一种用于利用嵌入学习来将图像与指示图像的主题的题目相关联的框架。框架利用多个图像被训练,每个图像具有相关联的视觉特性和关键词标签。关于视觉特性,图像特征矢量从一个或者多个计算出的视觉特征被生成。关于标签信息,关键词标签被用来生成针对每个图像的加权词矢量或者“软题目特征矢量”(也就是,表示从关键词标签得到的主体图像的主导概念的特征矢量)。软题目特征矢量加权词矢量和图像特征矢量被映射至共用嵌入空间,其中软题目特征矢量和图像特征矢量被对齐即,被使得尽可能彼此接近)。利用对齐的矢量,相关性分数针对关键词标签中的每个关键词标签、在其属于主体图像时被计算例如,使用欧几里德距离计算),相关性分数表示特定标签与嵌入的图像特征矢量之间的相似性程度。一旦经训练,在此描述的框架就可以被用来自动地将关键词标签与附加输入图像相关联,并且基于相关联的相关性分数、相对于查询的关键词来对图像的相关性排名。[0019]在线图像搜索的传统方法受制于其响应于输入查询来充分地标识并且呈现可得的最相关图像的能力。关于是响应于基于文本的查询还是基于图像的查询来呈现图像,精化用于确定相对于查询的信息的特定图像的相关性的方法和系统是针对搜索引擎和采用在线搜索功能的其他实体而在进行的工作。基于元数据关键词标签的方法和系统经常呈现与给定查询仅松散相关的图像,特别是在与图像相关联的关键词标签由于图像中描绘的多个项目而变化的情况中。类似地,基于视觉特性的方法和系统可能呈现与给定查询仅松散相关的图像,例如,由于图像中可能包括大量视觉信息,而仅仅其一部分可能与输入查询相关。[0020]本发明的各种实施方式通过提供允许利用嵌入学习将图像与指示图像的主题的题目相关联的方法,解决了如下技术挑战,即响应于输入搜索查询来适当地标识和呈现可得的最相关图像。在训练阶段期间,多个图像被接收,每个图像具有相关联的视觉特性和关键词标签。在一些实施方式中,关键词标签是用户提供的。关于与图像相关联的视觉特性,针对每个图像,一个或者多个视觉特征被计算,并且视觉特征被用来创建针对每个图像的图像特征矢量。在关键词方面,在训练阶段期间,关键词标签被用来创建图像特定的软题目特征矢量或者加权词矢量)。更特别地,词矢量表示针对与图像相关联的每个关键词标签被生成,并且所生成的词矢量表示的加权平均被计算以生成针对图像的软题目特征或者加权词)矢量,即,表示关键词标签中的主导概念的特征矢量。软题目特征矢量在嵌入空间中被归一化,并且图像特征矢量被映射至嵌入空间,在嵌入空间,归一化的软题目特征矢量和图像特征矢量被对齐(即,被使得尽可能彼此接近,例如,利用余弦相似性损失)。利用对齐的矢量,相关性分数针对关键词标签中的每个关键词标签、在其属于主体图像时被计算。[0021]—旦经训练,框架就可以利用在此描述的系统和方法来自动地对附加输入图像加标记,并且基于文本的搜索引擎可以基于预测的相关性分数、相对于查询的关键词来对图像相关性排名。类似地,通过反向应用,由图像自动加标记系统生成的相关性分数可以被用来建立用于标识与输入的搜索查询相关的图像的搜索引擎,输入的搜索查询是基于文本的或者基于图像的查询。[0022]现在参考附图,图1是图示了根据本公开内容的实现的用于图像到题目关联和加标记的示例性系统100的框图。应当理解,在此描述的这一布置和其他布置仅作为示例被阐述。除了所示出的那些之外或者代替所示出的那些,可以使用其他布置和元件例如,机器、接口、功能、顺序和功能的分组等等),并且一些元件可以被完全省略。而且,在此描述的元件中的很多元件是可以被实现为以任何适当的组合和位置的分立的或者分布式组件或者与其他组件相结合的功能实体。由一个或者多个实体执行的在此描述的各种功能可以由硬件、固件和或软件实现。例如,各种功能可以由执行在存储器中存储的指令的处理器实现。[0023]系统100是用于实现本公开内容的某些方面的适当架构的示例。在未示出的其他组件之间,系统100包括用户设备102,其与图像嵌入系统104交互,以利用嵌入学习来将图像与指示包含在其中的主题的题目相关联。图1中所示的组件中的每个组件可以在一个或者多个计算机设备诸如以下讨论的图9的计算设备900上被提供。如图1中所示,用户设备102和图像嵌入系统104可以经由网络106通信,网络106可以包括但不限于一个或者多个局域网(LAN和或广域网WAN。这样的联网环境是办公室、企业范围的计算机网络、内联网和因特网中常见的。因此,在此不再进一步描述网络106。应当理解,在本公开内容的实现的范围内,在系统100内可以采用任意数目的用户设备和图像嵌入系统。每个可以包括单个设备或者在分布式环境中协作的多个设备。例如,图像嵌入系统104可以由共同地提供如在此描述的图像嵌入系统104的功能的多个服务器设备提供。另外,未示出的其他组件也可以被包括在网络环境内。[0024]图像嵌入系统104具有对数据存储108的访问权。在本公开内容的实现中,数据存储库108被配置为针对与其相关联地被存储的项目中的一个或者多个项目可搜索。应当理解,与数据存储108相关联地被存储的信息可以是可配置的,并且可以包括相对于(仅以示例的方式)图像、关键词标签、软题目、视觉特征、图像矢量等等的任何信息。这样的信息的内容和量并不旨在以任何方式限制本技术的方面的范围。而且,数据存储库108可以是单个的独立的组件如所示或者多个存储设备,例如,数据库集群,其部分可以与图像嵌入系统104、另一外部计算设备未示出)和或其任何组合相关联地驻留。另外,在本技术的实施方式的范围内,数据存储库108可以包括多个不相关的数据存储库。[0025]图像嵌入系统104—般被配置用于从用户设备诸如用户设备102接收图像,并且利用嵌入学习来将这样的图像与指示包含在其中的主题的题目相关联。用户设备102可以经由web浏览器或者在用户设备102上运行的其他应用来访问图像嵌入系统104以及与之通信。图像嵌入系统104包括图像标签接收组件110,其被配置用于接收多个图像以用于图像到题目关联和加标记。图像接收组件110被配置用于接收包括一个或者多个视觉特性以及与其相关联的一个或者多个关键词标签例如,用户提供的关键词标签)的图像,以用于训练图像嵌入系统104的目的。图像接收组件110还被配置用于接收没有相关联的关键词标签的图像,例如,用于基于与其他图像的比较来关联关键词标签和或标识相似图像的目的。[0026]图像嵌入系统104还包括图像嵌入矢量生成组件112。图像嵌入矢量生成组件112被配置用于从图像的视觉特性计算一个或者多个视觉特征,从一个或者多个视觉特征生成固定维度的图像特征矢量,并且利用卷积神经网络来从图像特征矢量生成嵌入矢量。卷积神经网络是相关领域普通技术人员已知的,在此不再进一步描述。[0027]而且,图像嵌入系统104包括软题目特征矢量或者加权词矢量生成组件114。软题目特征矢量生成组件114被配置用于针对与图像相关联的多个关键词标签中的每个关键词标签来生成词矢量表示,并且计算生成的词矢量表示的加权平均,以生成软题目特征或者加权词矢量。软题目特征矢量表示与图像相关联的关键词标签的粗略概要,并且存在于连续词矢量空间中。[0028]图像嵌入系统104还包括对齐组件116。对齐组件116被配置用于将图像特征矢量与软题目特征矢量对齐也就是,使得尽可能彼此接近),以计算与关联于图像的每个关键词标签对应的相关性分数。软题目特征矢量是图像特定的。[0029]根据本公开内容的实现方式,一旦框架被训练,框架的自动加标记功能性就可以被用来预测输入针对图像的关键词标签和相关联的相关性分数的列表。类似地,并且通过反向应用的方式,由图像自动加标记系统生成的相关性分数可以被用来建立用于标识与输入的搜索查询相关的图像的搜索引擎,输入的搜索查询是基于文本的或者基于图像的查询。图2的示意图图示了图像自动加标记与基于文本的图像搜索之间的这一关系。根据本公开内容的实现方式的自动加标记功能性列向(212操作,以填入针对每个图像的相关性分数,并且基于文本的搜索系统行向(210操作,以基于预测的相关性分数来对图像排名。在实施方式中,评分函数f:,其中::是图像空间,'是标签词典,并且fI,w量化图像与标签〔之间的相关性。在学习了评分函数f之后,针对给定图像自动加标记系统利用fI,w通过对排行来预测关键词标签。针对查询文本,基于文本的图像搜索引擎利用fI,w来对图像I排名。[0030]本公开内容的实现利用图像到题目嵌入方法。图3中示出了图示了根据本公开内容的实现方式的示例性总体嵌入学习框架300的示意图。框架300—般被配置用于从计算自图像的视觉特征创建图像特征矢量,从与图像相关联的关键词标签创建软题目特征加权词矢量,并且利用嵌入学习来将图像特征矢量与软题目特征矢量在共用嵌入空间中对齐。训练集合被表示为其中,I是图像,并且W1是相关联的关键词标签,其例如由用户提供。为了利用标签关联性,针对每个^使用词矢量表示。嵌入网络被学习以将图像特征矢量映射至嵌入空间(通过将软题目特征矢量归一化而被形成,如下文更加全面地描述的),如e=embed_netI,其中,,其具有维度D。继而,在这一空间中可以通过以下公式来直接测量I与W之间的相似性分数:[0031]对于所有的[0033]根据本公开内容的实现方式,逐点互信息PMI被用来将标签表示为词矢量。如相关领域普通技术人员所知的,PMI是在信息理论和统计中被利用的关联的度量。其被计算为:[0035]因此,矩阵M的大小是VXV,其中V是标签词典的大小,并且M考虑训练语料库中标签的共现。本征矢量分解继而被应用以将矩阵M分解为则列截短的子矩阵的每行被用作针对所有V个标签的词矢量表示。根据其示例性实现,被设置为4096。PMI对相关领域普通技术人员是已知的,因此在此不再进一步描述。[0036]在获得针对每个标签的词矢量表示之后,针对与给定图像相关联的用户提供的标签的集合W1,W2,...,wn的编码方案被计算。根据本公开内容的示例性实现方式,软题目t被生成作为词矢量集合的加权平均。利用以下公式:[0038]其中t表示软题目特征矢量,i=1表示主体图像,Wi表示主体标签,η表示标签的量,并且ai表示加权函数。[0039]这一编码方案在此被称为“软题目”。软题目是用户提供的标签的粗略汇总,并且其存在于连续词矢量空间中(与硬题目的硬指派相对,以下更加全面地说明)。根据其实现方式而被生成的软题目允许在关键词标签的集合中发现一个或者多个主导概念,从而使系统能够对“嘈杂”的注释鲁棒,也就是,注释具有关于图像的有限的有用信息。[0040]根据本公开内容的实现方式可以利用加权函数Ci1的若干选择。仅通过示例的方式,可以均匀地计算Ct1,从而提供具有相等权重的所有关键词标签。通过另一示例的方式,可以利用标签顺序来计算Ct1。标签顺序假设由用户提供的标签是按时间顺序提供的,该时间顺序与其对图像的相关性具有某些关联性。由此,当第一标签在第二标签之前被提供时,第一关键词标签被指派比第二标签更大的权重。通过又一示例的方式,可以利用逆文档频率IDF来计算Ct1。利用IDF,特定标签越频繁地与图像的数据集中的任何图像相关联,就被给予越小的权重。而元数据关键词越罕见,就被给予越高的权重。本领域普通技术人员将理解和领会,在此描述的加权方案仅通过示例的方式被提供。根据本公开内容的实现方式,可以利用任意数目的加权方案。任何以及所有这样的变型及其任何组合被视作在在本发明的实施方式的范围内。[0041]在图4的示意图中图示了从示例性软题目生成的代表性搜索结果。针对样本图像410和原始关键词标签412,通过公式3形成软题目特征矢量414。软题目特征矢量414然后被用于在具有相似软题目特征矢量的数据集中取回图像416。可以看出,取回的图像416都在题目“花园花”下,并且来自软题目特征矢量414的恢复的关键词标签418与原始关键词标签412相似,并且在一些情况下相同。[0042]除了关键词标签之外,数据集中的图像也包括多个视觉特性。根据本发明的实现方式,从视觉特性计算视觉特征。仅通过示例的方式,视觉特征可以包括较低水平特征诸如,线、曲线等和或较高水平特征诸如形状、(人或其他的)身体部分等等。在实现方式中,利用相关领域普通技术人员已知的卷积神经网络、深度网络功能来计算视觉特征。根据视觉特征,从一个或者多个视觉特征生成N维图像特征矢量(S卩,固定维度特征矢量,其中N=正整数)。[0043]然后采用卷积神经网络来将图像特征矢量和软题目特征矢量映射到共用嵌入空间ε中。更具体地,每个图像I被传递通过剩余网络,并且倒数第二层被提取并且用作图像特征矢量V。示例性嵌入网络500在图5中被示出。所图示的嵌入网络500是三层510、512、514全连接卷积神经网络,其中每个全连接层之后是批归一化层和ReLU非线性激活层。卷积神经网络和所图示的层及其功能对于相关领域的普通技术人员是已知的,因此在此不再进一步描述。[0044]例如,利用余弦相似性损失来对齐图像嵌入e516和软题目特征矢量t518:[0046]利用硬题目的区别特征训练[0047]如上所述,针对每个图像I,利用图像特征矢量作为图像表示。根据本公开内容的示例性实现方式,单独的特征学习步骤用于训练区别视觉特征。[0048]首先,通过K均值聚类相关领域的普通技术人员已知的矢量量化方法对针对训练图像的子集的软题目聚类以形成K个集群中心。通过硬指派向每个软题目指派集群中心中的一个集群中心。硬指派在此被称为“硬题目”。根据其实现方式,并且如图6的示意图中所图示的,利用柔性最大值softmax层采用剩余网络来预测针对每个图像的硬题目指派。[0049]针对如在此公开的特征学习的一个备选是卷积神经网络和嵌入网络一起的端对端微调。虽然所公开的自动加标记性能与利用硬题目的特征学习相似,但是软题目特征和硬题目特征具有不同的性质。例如,利用软题目而被学习的特征倾向于在语义上更相似于输入查询图像,而利用硬题目被学习的特征倾向于在视觉上更相似于输入查询图像。由此,本公开内容的实现方式将加权软题目嵌入与硬题目特征学习相结合以实现更加鲁棒和精确的框架。[0050]通过图像到查询嵌入的图像搜索排名优化[0051]除了用户提供的关键词标签之外,根据本公开内容的实现方式利用的训练督导的另一源是点击率数据挖掘,其例如来自服务器日志。点击率日志中的每个条目是如下的元组:[0052]click_entry=queryphraseq,clickedimageIP,un_clickedimageIn[0053]公式5[0054]目标是优化图像到查询嵌入,从而使得通过Lbe3dI,q使点击的图像排名较高。这可以通过利用三个一组triplet排名损失来微调嵌入网络被实现,例如,如图6的示意图中所图示的。而且,为了保存绝对相关性分数,在此被称为“正增强”的技术被用来规范学习。[0055]针对以公式5的形式给出的训练点击日志中的点击条目,将查询短语编码为软题目矢量tq,并且从提取图像特征Vt^Pvn。然后利用三个一组排名损失对网络微调:[0056]trip1θt_railk_l〇SStq,Vp,Vn—ΓηεΐΧ0,fembedVp,tqembedVn,tq+C[0057]公式6[0058]其中Vp是针对点击的图像Ip的图像特征矢量,Vn是针对未点击的图像1„的图像特征矢量,fvP,tq是公式1中给出的评分函数,并且C是裕度。[0059]直观地,三个一组排名损失尝试优化网络,以使得^比^更加接近查询tq,直到裕度C。[0060]正增强[0061]上述排名损失的一个问题是其仅处罚(penalize正图像与负图像之间的相对差,而绝对相关性分数即使对于正图像也可能是低的。为了减轻这一影响,在此被称为“正增强”的技术被用来为正(即,用户选择的)图像施加高相关性分数。特别地,利用修改的反向传播过程相关领域普通技术人员已知的过程),从而使得正枝具有比负枝更高的学习率:[0064]其中,κ〇·5。[0065]利用正增强,正图像具有比负图像更高的相似性分数。同时,保持了绝对相似性值。[0066]作为用于K-NN的投票模块的软题目嵌入[0067]K最近邻K-NN是用于图像加标记的强基线。通过维护大图像数据库,预测的标签趋向于更加具体和多样。然而,先前的方法在不分析查询图像的视觉内容的情况下传送相邻图像的所有标签。为了解决这一问题,根据本公开内容的实现方式,由软题目嵌入生成的图像-标签相关性分数可以被用作K-NN系统中的查询特定投票模块。这可以被视为K-NN和嵌入的组合,从而使得组合两种方法的优点。[0068]基线K-NN系统工作如下维护相对大的图像数据库):[0070]当接收到新的图像特征%时,通过测量特征相似性来取回K个最接近:图像。然后,标签传送过程被用于预测针对查询图像的标签相关性分数:[0072]基本上,这对标签在相邻图像中出现的频率计数。然而,传送过程可能错误地传送来自相邻图像的不相关的标签。[0073]根据本公开内容的实现方式,采用嵌入评分函数fembed作为用于K-NN系统的投票模块。[0075]投票模块通过生成针对每个相邻图像的关键词标签的取决于查询的分数来工作。因此,K-NN中的标签传送过程向具有较大视觉证据的关键词标签提供较大的权重。[0076]现在转到图8,示出了图示了根据本公开内容的实现方式的用于图像到题目嵌入的示例性方法800的流程图。在此描述的方法800和任何其他方法的每个框包括使用硬件、固件和或软件的任何组合而被执行的计算过程。例如,可以通过执行在存储器中存储的指令的处理器来实现各种功能。该方法还可以被具体化为被存储在计算机存储介质上的计算机可用的指令。仅举个例,方法可以通过独立应用、服务或托管服务独立的或者与另一托管服务相结合或者对另一产品的插件来提供。[0077]如框810处所示,接收多个图像,每个图像与多个视觉特性和多个关键词标签相关联。针对每个图像,从相关联的关键词标签生成加权词矢量或者软题目特征矢量),如框812处所示。在这个方面,词矢量表示针对多个关键词标签中的每个关键词标签被生成。在实现方式中,词矢量表示利用逐点互信息PMI被生成。在实现方式中,PMI被用来根据公式2来生成词矢量表示,如上文所阐述的。生成的词矢量表示的加权平均被计算以生成加权词矢量或者软题目特征矢量)。如先前所阐述的,软题目特征矢量表示多个关键词标签的粗略概要,并且这样,标识标签中包含的主导概念。在实现方式中,加权平均利用公式3被计算,如上文所阐述的。根据本公开内容的示例性实现方式,加权平均利用标签顺序和逆文档频率IDF中的一个或者多个被计算。软题目特征矢量在嵌入空间中被归一化。[0078]针对多个图像中的每个图像,计算一个或者多个视觉特征。仅通过示例的方式,视觉特征可以包括较低水平特征诸如线、曲线等和或较高水平特征诸如形状、(人或其他的)身体部分等等。在本公开内容的实现方式中,利用相关领域普通技术人员已知的卷积神经网络、深度网络功能来计算视觉特征。如框814处所示,从一个或者多个视觉特征生成N维图像特征矢量即,固定维度特征矢量,其中N=正整数)。[0079]在共用嵌入空间中对齐N维图像特征矢量和加权词矢量,从而使得它们彼此相似,如框816处所示。在实现方式中,根据公式4利用余弦相似性损失来对齐N维图像特征矢量和软题目特征矢量,如上文所阐述的。[0080]如框818处所示,使用对齐的矢量,针对多个关键词标签中的每个关键词标签,在其属于主体图像时计算相关性分数。根据本公开内容的示例性实现方式,使用公式1来计算相关性分数,如上文所阐述的。相关性分数然后被用于具有关键词标签的自动加标记图像中的一个或者多个自动加标记图像,并且用于在基于文本的搜索引擎中基于与其相关联的关键词标签的相关性来将图像相对于彼此排名。[0081]已经描述了本公开内容的实现方式,下文描述本发明的实施方式可以实现的示例性操作环境,以便为本公开内容的各种方面提供一般上下文。参考图9,用于实现本发明的实施方式的示例性操作环境被示出并且被一般地指定为计算设备900。计算设备900仅是适当的计算环境的一个示例,而并不旨在暗示对本发明的使用或者功能的范围的任何限制。不应当将计算设备900解释为具有与所图示的组件中的任何一个或者组合相关的任何依赖关系或者需求。[0082]可以在计算机代码或者机器可使用指令的一般上下文中描述本发明,机器可使用指令包括由计算机或者其他机器执行的诸如程序模块的计算机可执行指令,计算机或其他机器诸如个人数字助理或者其他手持设备。一般地,包括例程、程序、对象、组件、数据结构等的程序模块是指执行特定任务或者实现特定抽象数据类型的代码。本发明可以在多种系统配置中被实践,包括手持设备、消费者电子产品、通用计算机、较专业的计算设备等。本发明还可以在分布式计算环境中被实践,其中由通过通信网络被链接的远程处理设备执行任务。[0083]计算设备900包括总线910,其直接或间接地耦合以下设备:存储器912、一个或者多个处理器914、一个或者多个呈现组件916、输入输出(IO端口918、输入输出组件920和说明性的电源922。总线910表示可以是一个或者多个总线诸如地址总线、数据总线或其组合的总线。虽然为了清楚起见用线示出了图9的各种框,但是实际上,描绘各种组件并非如此清楚,并且以比喻的方式,线更加准确地将是灰色和模糊的。例如,可以考虑诸如显示设备的呈现组件是IO组件。而且,处理器具有存储器。发明人认识到这是本领域的性质,并且重申图9的图仅说明可以结合本发明的一个或者多个实施方式而被使用的示例性计算设备。诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等的分类之间没有进行区分,都被视作在图9的范围内,并且被视作是对“计算设备”的引用。[0084]计算设备900通常包括多种计算机可读介质。计算机可读介质可以是可以由计算设备900访问的任何可用介质,并且包括易失性和非易失性介质、可移动和不可移动介质二者。通过示例而不是限制的方式,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现的用于信息的存储的易失性和非易失性、可移动和不可移动介质,信息诸如计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪速存储器或者其他存储器技术、CD-ROM、数字通用盘DVD或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁存储设备,或者可以用于存储期望信息并且可以由计算设备900访问的任何其他介质。计算机存储介质自身不包括信号。通信介质通常将计算机可读指令、数据结构、程序模块或者经调制的数据信号中的其他数据诸如载波或者其他传送机制具体化,并且包括任何信息递送介质。术语“经调制的数据信号”意指具有其特性集合中的一个或者多个或者以在信号中对信息编码的方式而被改变的信号。通过示例而不是限制的方式,通信介质包括有线介质(诸如有线网络或者直接有线连接和无线介质诸如声学、RF、红外和其他无线介质)。以上的任何的组合也应当包括在计算机可读介质的范围内。[0085]存储器912包括易失性和或非易失性存储器形式的计算机存储介质。存储器可以是可移动的、不可移动的或者其组合。示例性的硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备900包括从各种实体诸如存储器912或者IO组件920读取数据的一个或者多个处理器。呈现组件916向用户或者其他设备呈现数据指示。示例性的呈现组件包括显示设备、扬声器、打印组件、振动组件等。[0086]IO端口918允许计算设备900被逻辑地耦合至包括IO组件920的其他设备,其中一些可以是内置的。说明性的组件包括麦克风、操纵杆、游戏板、碟形卫星天线、扫描仪、打印机、无线设备等。IO组件920可以提供自然用户接口(NUI,其处理由用户生成的隔空手势、语音或者其他生理输入。在一些情况下,可以向适当的网络元件传输输入以用于进一步处理。NUI可以实现话音识别、触摸和手写笔识别、面部识别、生物特征识别、屏幕和邻近屏幕二者的姿势识别、隔空姿势、头和眼追踪以及与计算设备900上的显示器相关联的触摸识别的任何组合。计算设备900可以配备有深度相机,诸如立体相机系统、红外相机系统、RGB相机系统以及用于姿势检测和识别的这些相机的组合。另外,计算设备900可以配备有支持运动检测的加速度计或陀螺仪。[0087]如上所述,本公开内容的实现方式涉及用于图像到题目嵌入的框架。使用多个图像对框架进行训练,每个图像具有多个视觉特性和与其相关联的多个关键词标签。使用卷积神经网络从视觉特性计算视觉特征,并且从视觉特征生成图像特征矢量。关键词标签被用来通过计算生成的词矢量表示的加权平均来生成针对每个图像的软题目特征矢量,每个词矢量表示针对与图像相关联的多个标签中不同的标签被生成。将图像特征矢量和软题目特征矢量对齐,并且针对多个关键词标签中的每个关键词标签,在其属于主体图像时计算相关性分数。一旦经训练,框架就可以利用在此描述的系统和方法来自动地对附加输入图像加标记,并且基于文本的搜索引擎可以基于预测的相关性分数、相对于查询的关键词来对图像相关性排名。[0088]在此已经以具有特殊性的方式描述了本发明的主题以满足法律要求。然而,说明书本身不旨在限制本专利的范围。相反,发明人已经考虑到所要求保护的主题还能够以其他方式被具体化,以结合其他现有的或者未来的技术,包括与本文档中描述的步骤不同的步骤或者相似的步骤的组合。而且,虽然本文可能使用术语“步骤”和或“框”来意指所采用的方法的不同元素,但是这些术语不应当被解释为暗示本文公开的各种步骤之中或者之间的任何特定顺序,除非并且除了在明确描述了个体步骤的顺序时之外。[0089]已经相关于特定实施方式而描述了本发明,特定实施方式旨在所有方面都是说明性的而非限制性的。在不脱离本发明的范围的情况下,备选实施方式将对于本发明所属技术领域的普通技术人员变得易见。[0090]根据上文,可以看出本发明非常适于达到上文阐述的所有结果和目标,以及系统和方法明显和固有的其他优点。可以理解,某些特征和子组合是实用的,并且可以在不引用其他特征和子组合的情况下被采用。这是权利要求的范围所预期的并且被包括在权利要求的范围内。

权利要求:1.一种计算机系统,包括一个或者多个处理器;以及存储计算机可用指令的一个或者多个计算机存储介质,所述计算机可用指令在由所述一个或者多个处理器使用时,使得所述一个或者多个处理器:接收多个图像,所述多个图像中的每个图像与多个标签相关联;以及针对所述多个图像中的每个主体图像:从相关联的所述多个标签生成加权词矢量;从与所述主体图像相关联的一个或者多个视觉特征生成图像特征矢量;在共用嵌入空间中将所述图像特征矢量与所述加权词矢量对齐;以及使用对齐的所述矢量,针对相关联的所述多个标签中的每个标签,在其属于所述主体图像时计算相关性分数。2.根据权利要求1所述的计算系统,其中针对所述多个图像中的每个图像,所述一个或者多个处理器还被使得计算所述一个或者多个视觉特征。3.根据权利要求2所述的计算系统,其中所述一个或者多个视觉特征利用卷积神经网络被计算。4.根据权利要求1所述的计算系统,其中针对所述多个图像中的每个图像,所述一个或者多个处理器还被使得:生成针对相关联的所述多个标签中的每个标签的词矢量表示;计算生成的所述词矢量表示的加权平均以生成所述加权词矢量;以及在所述共用嵌入空间中将所述加权词矢量归一化。5.根据权利要求4所述的计算系统,其中针对相关联的所述多个标签中的每个标签的所述词矢量表示利用逐点互信息被生成。6.根据权利要求4所述的计算系统,其中所述加权平均至少部分地利用逆文档频率被计算。7.根据权利要求4所述的计算系统,其中相关联的所述多个标签中的每个标签是用户提供的标签,并且其中所述加权平均至少部分地利用标签顺序被计算,在所述标签顺序中,当相关联的所述多个标签中的第一标签在相关联的所述多个标签中的第二标签之前由所述用户提供时,所述第一标签被指派比所述第二标签更大的权重。8.根据权利要求1所述的计算系统,其中针对所述多个标签中的每个标签的所述相关性分数表示所述多个标签中的特定标签与所述图像特征矢量之间的相似性程度。9.根据权利要求1所述的计算系统,其中所述加权词矢量和所述图像特征矢量利用余弦相似性损失被对齐。10.根据权利要求1所述的计算系统,其中所述一个或者多个处理器还被使得:通过K均值聚类来对针对所述多个图像的至少一个子集的所述加权词矢量聚类以形成K个集群,每个集群表示与所述K个集群中的其他集群相比,在语义上彼此更相似的题目的集合;以及至少部分地利用柔性最大值损失函数来向所述K个集群中的一个集群指派针对所述至少一个子集的所述加权词矢量中的每个加权词矢量,其中K=正整数。11.根据权利要求1所述的计算系统,其中所述一个或者多个处理器还被使得利用属于相关联的所述图像和查询的点选率数据来更改针对所述多个标签中的至少一部分的所述相关性分数。12.根据权利要求1所述的计算系统,还包括:接收查询图像;针对所述查询图像来生成图像特征矢量;以及针对与所述查询图像的最近邻图像相关联的至少一个标签来生成取决于查询的相关性分数。13.—种用于对图像加标记的计算机实现的方法,所述方法包括:接收与多个用户提供的标签相关联的图像;针对所述多个用户提供的标签中的每个用户提供的标签来生成词矢量表示;计算生成的所述词矢量表示的加权平均,以生成图像特定的加权词矢量;在嵌入空间中将所述图像特定的加权词矢量归一化;针对所述多个标签中的每个标签,在其与所述图像相关时计算相关性分数。14.根据权利要求13所述的方法,其中针对相关联的所述多个用户提供的标签中的每个用户提供的标签的所述词矢量表示利用逐点互信息被生成。15.根据权利要求13所述的方法,其中所述加权平均至少部分地利用逆文档频率被计算。16.根据权利要求13所述的方法,其中所述加权平均至少部分地利用标签顺序被计算,在所述标签顺序中,当相关联的所述多个标签中的第一标签在相关联的所述多个标签中的第二标签之前由所述用户提供时,所述第一标签被指派比所述第二标签更大的权重。17.根据权利要求13所述的方法,还包括针对所述多个图像中的每个图像:计算一个或者多个视觉特征;从所述一个或者多个视觉特征生成图像特征矢量;将固定维度图像特征矢量映射至所述嵌入空间;以及利用余弦相似性损失在所述嵌入空间中将所述加权词矢量和所述图像特征矢量对齐。18.根据权利要求17所述的计算系统,其中针对所述多个标签中的每个标签在其与所述图像相关时计算相关性分数包括:计算针对所述多个标签中的每个标签的相关性分数,所述相关性分数表示所述多个标签中的特定标签与所述图像特征矢量之间的相似性程度。19.一种计算系统,包括:用于利用卷积神经网络从计算自图像的多个视觉特征生成图像特征矢量的装置;用于通过计算多个词矢量表示的加权平均来生成针对所述图像的加权词矢量的装置,所述多个词矢量表示中的每个词矢量表示针对与所述图像相关联的多个标签中的不同的一个标签被生成;以及用于在共用嵌入空间中将所述加权词矢量与所述图像特征矢量对齐的装置。20.根据权利要求19所述的计算系统,还包括用于针对所述多个标签中的每个标签,在其属于所述图像时计算相关性分数的装置。

百度查询: 奥多比公司 一种用于计算相关性分数的计算系统、方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。