买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】使用图像中找到的特定属性进行搜索_奥多比公司_201610819458.9 

申请/专利权人:奥多比公司

申请日:2016-09-12

公开(公告)日:2022-11-29

公开(公告)号:CN106560810B

主分类号:G06F16/583

分类号:G06F16/583;G06N3/08;G06N5/02

优先权:["20151002 US 62/236,648","20160120 US 15/002,179"]

专利状态码:有效-授权

法律状态:2022.11.29#授权;2018.10.23#实质审查的生效;2017.04.12#公开

摘要:本发明的各实施例总体上涉及使用图像中找到的特定属性进行搜索。具体地,在各实施例中,图像中找到的特定属性可以用于基于视觉的搜索。利用机器学习、深度神经网络和其他计算机视觉技术,诸如颜色、组分、字体、风格和纹理之类的图像的属性可以从给定图像中提取。用户继而可以从用户正在搜索的采样图像中选择特定属性,并且搜索可以被细化以关注于来自采样图像的特定属性。在某些实施例中,搜索包括来自不止一个图像的特定属性。

主权项:1.一种存储有计算机可用指令的非瞬态计算机存储介质,当所述指令由计算设备使用时,使所述计算设备执行以下操作,所述操作包括:接收源图像;经由神经网络从所述源图像提取多个视觉属性;用所述源图像的提取的所述多个视觉属性的指示,呈现用户界面,其中提取的所述多个视觉属性的所述指示中的每个指示被分离地并且与一个或多个图像同时地被呈现,所述一个或多个图像具有与指示的提取的视觉属性中的至少一个相对应的视觉属性;经由所述用户界面接收所述源图像的所指示的多个提取的视觉属性中的至少一个提取的视觉属性的第一选择;基于从所述源图像选择的所述至少一个提取的视觉属性来发起查询,所述查询被配置为搜索图像集,以生成图像结果集,其中所述图像结果集包括结果图像,所述结果图像具有与所选择的所述至少一个提取的视觉属性相匹配的视觉属性;以及经由所述用户界面提供基于所述查询的所述图像结果集。

全文数据:使用图像中找到的特定属性进行搜索[0001]相关申请的交叉引用[0002]本申请要求2015年10月2日提交的、名称为"SearchingUsingOneorMoreSpecificAttributesFoundInOneOrMoreImages"的第62236,648号美国临时申请的权益,其优先权在本文中被要求,并且其全部内容通过引用并入于此。技术领域[0003]本发明的各实施例总体上涉及使用图像中找到的特定属性进行搜索。背景技术[0004]基于因特网的搜索引擎传统上采用共同图像搜索技术用于定位万维网上的数字图像内容。这些已知图像搜索引擎可以被分类成"基于文本"的图像搜索和"基于视觉"的图像搜索。[0005]传统基于文本的图像搜索可以接收用于搜索具有关键字标签图像的数据库的基于文本的查询,用于生成各自具有匹配基于文本的查询的一个或多个关键字标签的图像的结果集。这些基于文本的搜索主要依赖与图像相关联的关键字标签的质量,而忽视图像的视觉信息。另一方面,传统基于视觉的图像搜索可以接收图像作为用于搜索图像数据库的基于视觉的查询,而不考虑各图像具有与其相关联的关键字标签,用于生成各自具有视觉上与基于视觉的查询图像相似的特性的图像的结果集。[0006]虽然传统图像搜索技术可以生成可容忍的结果,但是基于文本的图像搜索中质量结果的生成可以取决于其上进行搜索的图像数据库中关键字标签的细节的水平。例如,如果其上执行搜索的数据库包括关键字标签图像,则基于文本的图像搜索可以只产生期望的结果。在这方面,如果图像数据库除了许多其他图像外还包括成千上万日落时海滩上情侣的图像,其中都不具有与关键字"情侣"、"日落"或"海滩"相关联的关键字标签,则通过"情侣海滩日落"的基于文本的查询(例如,描述性的关键字进行的基于文本的图像搜索将不会生成任何期望的结果。[0007]具体针对基于视觉的图像搜索,质量结果的生成可以取决于基于视觉的搜索查询本身的质量甚至其存在。例如,如果提供了在所有属性都与期望图像相似的基于视觉的查询(例如,示例性图像),则基于视觉的图像搜索可以只生成期望的结果。在这方面,如果用户期望搜索图像数据库以定位与日落时海滩上情侣的图像相似的图像,则用户需要具有在视觉上与图像数据库中的图像具有相似特性的至少一个图像以构造搜索查询。然而,这种搜索可能具有意外后果。例如,基于视觉的图像搜索可以基于整体相似度而不是对用户最重要的特定属性来标识包括与搜索查询的某些相似属性的图像。继续上文示例,假设用户期望通过颜色或某些其他属性,诸如组分、风格、纹理、字体等找到与日落时海滩上情侣的图像相似的图像,但不在意图像中的内容。当前基于视觉的图像搜索可以返回包括不期望的属性以及相似内容的许多图像。此外,这些搜索可能忽视或错过包括期望属性的许多图像。如此,传统图像搜索技术可能在范围方面相当受限。发明内容[0008]提供本发明内容以按简化形式介绍概念的选择,这些概念在下面的具体实施方式中进一步进行描述。本发明内容不旨在于标识要求保护的主题的关键特征或必要特征,其也不旨在于用来限制要求保护的主题的范围。[0009]本发明的各实施例涉及使用一个或多个图像中找到的一个或多个特定属性进行基于视觉的搜索。更具体地,在本发明的各实施例中,用户可以基于提交作为查询的一个或多个图像的选定视觉特性即,属性对图像进行搜索。利用机器学习、深度神经网络和其他计算机视觉技术,图像的属性诸如颜色、组分、字体、风格和纹理可以从给定图像中提取。用户继而可以从用户正在搜索的采样图像中选择特定属性,并且搜索可以被细化以关注于来自采样图像的特定属性。例如,用户可以搜索具有与采样图像相似的纹理但对采样图像的其他各方面诸如颜色或组分不感兴趣的图像。搜索继而可以关注于找到具有相似纹理的图像而不是搜索具有相似颜色或组分的图像。在某些实施例中,搜索包括来自不止一个图像的特定属性。通过此方式,搜索能够关注于来自第一图像的一个特定属性诸如颜色)和来自第二图像的不同特定属性诸如组分)。附图说明[0010]下面参考附图对本发明进行详细描述,其中:[0011]图1是根据本公开的实现方式图示了示例性系统的示图;[0012]图2和图3图示了根据本公开的实现方式用于使用一个或多个图像中找到的一个或多个特定属性进行搜索的示例性图形用户接口;[0013]图4和图5是根据本公开的实现方式示出了用于使用一个或多个图像中找到的一个或多个特定属性进行搜索的方法的流程图;[0014]图6和图7是根据本公开的实现方式示出了用于修改可以用于搜索的图像的至少一个属性的方法的流程图;以及[0015]图8是适于在本公开的实现方式中使用的示例性计算环境的框图。具体实施方式[0016]在本文中以某种特殊性描述本发明的主题以满足法定要求。然而,描述本身不旨在限制本专利的范围。相反,发明人已经预见到要求保护的主题还可以按其他方式来体现,以包括结合其他现有的或将来的技术的与在本文档中描述的步骤不同的步骤或步骤的组合。此外,尽管术语"步骤"和或"框"可以在本文中用于意指采用的方法的不同的元素,但是这些术语不应当被解读为暗指在所公开的本文中的各个步骤之中或之间的任何特定顺序,除非并且除了当各个步骤的顺序被明确描述时。[0017]包括万维网的本地或联网环境中采用的传统图像搜索引擎可以基于文本查询或视觉查询之一生成图像搜索结果。基于文本的图像搜索通常接收用于查询标签图像数据库的基于文本的查询(即,"红色球"、"足球比赛"、"笼中老虎"),其中数据库中的每个图像标签有描述与图像相关联的特性的至少一个关键字例如,"红色"、"球"、"足球"、"比赛"、"老虎"、"笼")。通常图像预先标签有描述图像的视觉特性的关键字。如果一个或多个标签图像被确定具有与其相关联的、对应于基于文本的查询的至少一个关键字,则响应于基于文本的查询返回图像作为搜索结果。如本文所使用的,术语"标签"用于指代图像中包括的或与之相关联的以及描述或指示图像的某些属性的元数据。例如,标签可以包括图像中描绘的主题的描述、图像的作者、图像的编辑、与图像相关联的时期或者与图像相关联或其中描绘的位置等。自然语言处理也可以用于基于文本的图像搜索。[0018]另一方面,基于视觉的图像搜索通常接收用于查询图像数据库的基于视觉的查询即,红色球的图像、足球比赛的图像、笼中老虎的图像),而不考虑各图像具有与其相关联的关键字标签。换言之,数据库中的图像可以是被标签的、未被标签的或者两者。通过采用图像分析算法,可以生成具有实质上与基于视觉查询相似的视觉特性的搜索结果,其中该图像分析算法被配置为将(1与基于视觉的查询相关联的视觉信息与(2与数据库中每个图像相关联的视觉信息进行比较。当前基于视觉的图像搜索不允许用户从特定图像中选择该用户在其他图像中寻找时实际上感兴趣的特定低水平属性。因此,虽然当前基于视觉的图像搜索可以基于整体相似度标识包括与搜索查询的某些相似属性的图像,但是可能忽视了对用户最重要的特定属性。因此,当前基于视觉的图像搜索可能返回包括相似内容的、以及不期望的附加属性的许多图像。更简单地,这些搜索可能忽视或错过许多包括期望属性的图像。[0019]如此,本发明的各实施例用于使用基于视觉的搜索中一个或多个图像中找到的一个或多个特定属性。如本文更详细所述,用户可以采用用于基于用户选定的一个或多个图像的视觉性质(即,特定属性搜索图像的搜索系统。这使得用户能够将搜索关注于找到包括用户期望的特定属性的图像。虽然针对图像搜索描述,但是可以理解本公开的实现方式中使用的技术也可以用于音乐和视频搜索。例如,给定一个或多个歌曲(或视频),用户能够选择已经针对每个歌曲(或视频选择的属性例如,节拍、语音、风格、类型、表演者等来搜索具有选定属性的其他歌曲(或视频)。[0020]为了这么做,机器学习、深度神经网络和其他计算机视觉技术被用于提取图像属性例如作为特征向量。在各实施例中,属性包括颜色、组分、字体、风格和纹理。属性还可以包括线宽或线型。训练图像可以被用于最初实现总体上标识视觉相似度的通用系统,而对特定属性没有任何了解。通用系统继而利用针对特定属性的新的训练数据集进行训练。通过此方式,系统可以在不同输出层进行微调以利用从通用系统独立演化的每个层来检测不同属性。换言之,用于在系统的特定层提取特定特征向量的转换需求基于针对每个特定属性的训练数据集来学习。[0021]数据库可以包括被标签数据、未被标签数据或者被标签数据和未被标签数据的组合。图像标签可以包括用于描述与图像相关联的视觉特性的任意关键字。例如,巴士底日埃菲尔铁塔后面烟花的图像可以具有与其相关联的图像标签,"埃菲尔"、"铁塔"、"烟花"、"巴黎"和或"巴士底日"等。不考虑数据库中的图像具有与其相关联的任意标签,基于视觉的查询可以被接收用于搜索数据库中的图像。如本文所使用的,术语"数据库"不必限于存储数据库,还可以涉及集合、目录、文件夹、存储位置、网络位置、库等。[0022]基于视觉的搜索可以针对本地操作(例如,个人资产管理应用或本地操作系统的一部分)、远程访问(例如,基于云的资产管理应用的一部分)或通过因特网的公共可访问例如,web图像搜索引擎的一部分进行配置。应当理解,对前述任一项的访问可以被基于用户的访问约束限制。例如,本地或远程访问配置可以被限制为具有对特定图像集的访问例如,被限于用户账户的本地访问或者被限于用户的云存储空间的远程访问)的用户。还应当理解,本地、远程或基于因特网的配置的任意组合可以被采用以处理基于视觉的查询。[0023]在训练系统从图像提取属性之后,用户可以提交包括至少一个期望属性的采样图像。用户继而可以选择采样图像的特定属性以关注于采样图像的特定属性。在一个示例中,用户可以搜索具有与采样图像相似纹理但对采样图像的其他方面诸如颜色或组分不感兴趣的图像。搜索继而可以关注于找到具有相似纹理的图像而不是搜索具有相似颜色或组分的图像。在某些实施例中,搜索包括不止一个图像的特定属性。通过此方式,搜索能够关注于第一图像的一个特定属性诸如颜色)以及第二图像的不同特定属性诸如组分)。[0024]本发明的某些实施例用于修改图像中找到的一个或多个特定属性。为了这么做,用户可以提交包括若干属性的第一采样图像。用户可以提交包括至少一个与第一采样图像的属性不同的属性的第二采样图像。在从第二图像选择一个或多个属性之后,用户可以基于选择来修改从第一采样图像提取的至少一个属性。这使得用户能够修改图像以包括不是图像固有的期望属性而不需要对包括所有期望属性的图像执行搜索。在某些实施例中,用户可以基于经修改的图像来提交搜索查询。[0025]如本文所使用的,视觉相似度指的是两个或更多个图像的纯视觉特性之间的相似度。两个或更多个图像之间的视觉相似度可以通过采用由一个或多个处理设备执行的直接图像比较算法来确定。图像比较算法标识两个或更多个图像的视觉特性之间的一个或多个图形相似度。例如,通过比较图像颜色数据、图像像素数据的布置、图像大小和或与图像相关联的其他视觉图像数据特性,直接图像比较算法可以确定两个或更多个图像之间的视觉相似度得分等。本质上,图像比较算法可以分析与两个或更多个单独图像相关联的图像数据以确定图像是视觉上相似的。例如,直接图像比较算法可以确定两个单独图像具有高概率的视觉相似度,其中各图像将埃菲尔铁塔处于首要和中心位置。然而,直接图像比较算法也可以将两个单独图像看作不具有高概率的视觉相似度,其中一个图像将埃菲尔铁塔处于首要和中心位置,而另一个图像将狗的图像处于首要和中心位置埃菲尔铁塔作为并处于背景中。[0026]视觉相似度还可以通过语义相似度分析确定。如本文所使用的,术语"语义相似度"指的是用户可见的图像内容的各方面之间的相似度。在某些实施例中,语义相似度包括第一图像中形状和空间关系的第一集与第二图像中形状和空间关系的第二集之间的相似度。在一个示例中,人脸的图像具有与另一人的图像的较高语义相似度,而具有与建筑物的图像的较低语义相似度。在另一示例中,靠近站立在一起的两个人的图像具有与一群人的图像的较高语义相似度,而具有与单个人的图像的较低语义相似度。在附加或备选实施例中,语义相似度包括第一图像中第一图像风格与第二图像中第二图像风格之间的相似度。例如,表示颜色或对比信息的向量可以针对两个图像进行计算。风格相似度可以通过计算这些向量之间的距离来确定。较大经计算的距离指示较低风格相似度,而较小经计算的距离指示较高风格相似度。[0027]语义相似度可以在两个或更多个图像之间通过采用神经网络或一个或多个处理设备执行的其他特征提取算法来确定。网络或算法可以标识图像的语义内容与一类语义相似图像之间的一个或多个关联。例如,神经网络或其他特征提取算法可以通过某些循环的对象、颜色方案或其他语义内容来分析训练图像,并确定所述对象、颜色方案或其他语义内容指示某类内容例如,"狗"、"交通工具"、"树"等)。神经网络或其他特征提取算法可以在语义内容的不同分类和不同类型之间应用所学习的关联以将随后接收的图像分类。分类器算法的示例是使用神经网络模型标识某些语义特征与某些语义内容的分类之间关联的算法。如此,使用上文埃菲尔铁塔示例,神经网络或分类器算法可以将两个单独图像看作具有至少某些语义相似度(即,都具有图像内描绘的埃菲尔铁塔),其中一个图像将埃菲尔铁塔处于首要和中心位置,而另一个图像将狗的图像处于首要和中心位置埃菲尔铁塔作为并处于背景中。[0028]现在返回图1,提供了根据本公开的实现方式图示示例性系统的示图。应该理解的是,本文中所描述的这一和其它布置仅作为示例进行阐述。除了或代替示出的那些,可以使用其它布置和元件(例如,机器、接口、功能、顺序、以及功能组等),并且一些元件可以完全省略。进一步地,本文中所描述的元件中的许多元件是可以实现为分立或分布式部件或者与其它部件结合、并且以任何适合组合和位置的功能实体。如由一个或多个实体执行的本文中所描述的各种功能可以通过硬件、固件和或软件来执行。例如,各种功能可以由执行存储器中存储的指令的处理器来执行。[0029]系统100可以是仅客户端系统或客户端服务器系统,其可以用于促进未被标签的图像的基于文本的图像搜索。除了未示出的其他部件,系统1〇〇可以包括一个或多个用户设备102、网络106、一个或多个视觉相似度引擎108和一个或多个图像数据库104。虽然图示为包括视觉相似度引擎108和图像数据库104,但是实施例可以包括两者、一个或另一个、或者两者都没有。应当理解,在本公开的范围内,系统100内可以采用任意数目的服务器和客户端设备。各自可以包括单个设备或者分布式环境中协作的多个设备。在某些实施例中,系统100可以本地驻留在单个设备上。另外,未示出的其他部件也可以包括在分布式环境内。[0030]还应当理解,图1中所示的系统1〇〇是一个适当计算系统架构的示例。图1中所示的每个服务器和客户端设备可以经由计算设备诸如计算设备800实现,例如稍后参考图8进行描述。各部件可以经由网络106彼此通信。[0031]网络106可以是有线、无线或两者。网络106可以包括多个网络或网络的网络,但被以简单形式示出以便不混淆本公开的各方面。通过示例的方式,网络106可以包括一个或多个广域网WAN、一个或多个局域网LAN、一个或多个公共网络诸如因特网)和或一个或多个私有网络。在网络106包括无线电信网络的情况下,部件诸如基站、通信塔甚至接入点)(以及其他部件可以提供无线连接。联网环境在办公室、企业范围的计算机网络、内联网和因特网中很平常。因此,网络106没有更详细地描述。[0032]在各种实现方式中,用户设备1〇2可以是能够访问因特网储如万维网)的计算设备。用户设备102可以采取各种形式,诸如个人计算机PC、膝上型计算机、移动电话、平板计算机、可穿戴计算机、个人数字助理PDA、MP3播放器、全球定位系统GPS设备、视频播放器、数字视频记录器DVR、电缆盒、机顶盒、手持通信设备、智能电话、智能手表、工作站、这些所述设备的任意组合或者任意其他适当设备。[0033]用户设备102可以包括一个或多个处理器以及一个或多个计算机可读介质。计算机可读介质可以包括由一个或多个处理器可执行的计算机可读指令。指令可以对应于一个或多个应用,诸如web浏览器或能够发起基于视觉搜索的其他应用。用户设备102可以被配置为存储诸如图像的内容等。例如,图像可以被存储在一个或多个计算机可读介质上。[0034]在各种实现方式中,图像内容可以位于用户设备102、视觉相似度引擎108、图像数据库104或其任意组合上。此外,没有具体示出的系统100的其他部件可以包括图像内容的各部分和或各段。例如,系统100可以包括各种形式的高速缓存、存储设备和或数据库,其可以辅助用户设备102存储图像内容以及向用户设备102提供图像内容。[0035]视觉相似度引擎108通常被配置为提供公共可访问图像搜索服务(例如,Adobe®F〇Ulia®,Adobe⑧Behanced®,Google®images,Bing®images,Yah〇0!®ImageSearch用于托管并提供图像搜索引擎以搜索内容,诸如针对用户设备诸如用户设备102的图像数据库104。作为具体示例,视觉相似度引擎108可以从用户设备102接收基于视觉的查询。视觉相似度引擎继而可以处理基于视觉的查询以通过搜索与视觉相似度引擎108相关联托管的一个或多个图像数据库或者通过搜索万维网来定位图像,此外该图像具有包括至少一个特定属性的图像。视觉相似度引擎108继而可以将结果图像集的至少一部分返回用户设备102作为图像结果集。[0036]根据本文所述的实施例,视觉相似度引擎108可以包括选择部件110、分类器部件112和结果部件114。应该理解的是,本文中所描述的这一和其它布置仅作为示例进行阐述。除了或代替示出的那些,可以使用其它布置和元件例如,机器、接口、功能、顺序、以及功能组等),并且一些元件可以完全省略。进一步地,本文中所描述的元件中的许多元件是可以实现为分立或分布式部件或者与其它部件结合、并且以任何适合组合和位置的功能实体。如由一个或多个实体执行的本文中所描述的各种功能可以通过硬件、固件和或软件来执行。例如,各种功能可以由执行存储器中存储的指令的处理器来执行。[0037]在某些实施例中,图示部件和或模块的一个或多个可以被实现为单独应用。在其他实施例中,图示部件和或模块的一个或多个可以被直接集成至视觉相似度引擎108的操作系统。图1中图示的部件模块本质上及数目上是示例不应当构成限制。任何数目的部件模块可以被采用以实现其实施例范围内期望的功能。此外,部件模块可以位于任意数目的服务器、计算设备等上。仅通过示例的方式,视觉相似度引擎108可以驻留在服务器、服务器集群或者远离一个或多个剩余部件或与其集成的计算设备上。[0038]视觉相似度引擎108可以是任意类型的计算设备,或者并入可以访问网络(例如,网络106的计算设备。例如,视觉相似度引擎108可以是具有网络访问的台式计算机、膝上型计算机、平板计算机、移动设备、服务器或任意其他设备或者其中的一部分。通常,用户可以经由用户设备102采用视觉相似度引擎108来利用来自一个或多个图像的一个或多个属性以标识包括该一个或多个属性的视觉相似图像和或用第二图像的属性来修改第一图像等。[0039]在某些实施例中,用于可以经由用户设备102采用视觉相似度引擎108来提取图像的属性、选择感兴趣的属性、以及基于选定的属性搜索图像集。例如,用户可以在背景中具有日落时海滩上行走的两个人的图像。图像可以具有非常鲜亮的颜色并且可以具有颗粒状纹理。用户可以最初利用视觉相似度引擎108来从图像提取这些属性。用户接口可以示出图像的这些属性中的每个属性连同具有相似属性的图像的采样或预览。用户可以选择感兴趣的属性,例如,组分即,背景中日落时海滩上行走的两个人和颜色(即,鲜亮的颜色)。在此示例中,用户可能不喜欢图像的纹理(即,颗粒状并且期望找到具有相似组分和颜色但不同纹理的图像。在选择感兴趣的属性之后,视觉相似度引擎108经由用户设备102向用户提供图像结果集。图像结果集包括图像数据库104中包括与选定感兴趣属性相似属性的一个或多个结果图像。[0040]如先前提到的,在各实施例中,视觉相似度引擎108包括选择部件110、分类器部件112和结果部件114以利用来自一个或多个图像的一个或多个属性来促进搜索。通常,为了利用来自一个或多个图像的一个或多个属性来进行搜索,若干预备步骤在图像集上执行。首先,分类器部件112通常被配置为实现通用神经网络或其他特征提取算法以标识相似图像。接下来,分类器部件利用新的训练数据集在每层微调神经网络或其他特征提取算法以标识特定属性。每层从通用神经网络或其他特征提取算法独立演化。[0041]在某些实施例中,图像数据库104中的每个图像在神经网络或其他特征提取算法的每个微调层分类使得每个图像与针对每个属性的特征向量相关联。在某些实施例中,图像根据个体属性被集群或分组以提供更有效的搜索。在某些实施例中,神经网络或其他特征提取算法彼此独立并且离线训练(即,针对每个属性训练其自己的特征提取器)。当用户期望利用视觉相似度引擎108执行搜索时,用户可以选择或提供一个或多个图像给视觉相似度引擎108。分类器部件112从图像提取属性并且标识具有相似属性的一个或多个图像。在某些实施例中,最接近的邻居分类器被用于针对每个单独属性确定最相似的图像。[0042]在某些实施例中,视觉相似度引擎108包括具有对图像数据库104中图像参考的描述符的数据库或者具有对其的访问。通过此方式,仅在图像被需用时诸如,在其响应于用户搜索并需要经由用户设备102呈现给用户时),该图像可以经由网络106从数据库104获取。[0043]在实现方式中,用户最初经由用户设备102向视觉相似度引擎108提交图像。该图像可以本地存储在用户设备102上,远程存储在图像数据库104或者驻留在某些其他远程位置。在某些实施例中,用户设备可以包括捕获了图像的相机。图像被提供给神经网络或其他特征提取算法以标识与图像相关联的属性。在某些实施例中,搜索预览被提供给用户,该搜索预览包括包含图像包括的每个单独属性的图像。例如,搜索预览可以包括具有相似组分、相似纹理、相似字体、相似颜色和或相似风格的图像。搜索预览可以包括从图像数据库的全面搜索导出的图像,可以仅包括具有与图像最相似的属性诸如可以由最接近的邻居分类器算法针对每个特定属性标识或者来自采样图像的较小子集的图像。[0044]在某些实施例中,不止一个图像可以被提交给视觉相似度引擎108。针对每个图像的属性由神经网络或其他特征提取算法标识。通过此方式,搜索预览可以包括具有针对每个提交图像的相似组分、相似纹理、相似字体、相似颜色和或相似风格的图像。[0045]选择部件110通常被配置为接收对感兴趣的一个或多个属性的选择以包括在图像搜索中。通过此方式,用户可以搜索用户针对特定图像感兴趣的每个低水平属性以作为基于图像的搜索查询进行提交。在某些实施例中,用户可以从单个提交的图像选择一个或多个属性。在某些实施例中,用户可以从多个提交的图像选择一个或多个属性。在某些实施例中,用户可以选择搜索预览中提供的一个或多个图像以作为搜索查询进行提交。在某些实施例中,用户可以修剪图像以将查询关注于图像的特定部分。在某些实施例中,用户可以克隆或拷贝图像的一部分使得搜索标识具有这些部分中的两个而不是一个的图像。例如,如果图像具有一只猫,但用户期望标识具有两只猫的图像,则用户可以克隆图像中的一只猫并且应用搜索以查找具有两只猫的图像。类似地,在某些实施例中,用户可以拷贝并粘贴元素(例如,将帆船粘贴值海滩的图像至图像或者从图像移除元素(例如,从森林场景移除人并且利用经编辑的图像进行搜索。这种编辑可以利用使用可以嵌入系统100的工具来实现。[0046]在某些实施例中,选择部件110还被配置为从模型图像(即,搜索预览中提供的图像或由用户提交的另一图像接收对一个或多个属性的选择。例如,用户可以提交包括用户期望使用另一图像诸如,搜索预览中提供的图像或用户提交的另一图像的属性替代的一个或多个属性的图像。用户可以从搜索预览或其他图像选择属性并且图像可以根据选定的属性进行修改。[0047]在某些实施例中,选择部件110还可以被配置为接收基于文本的查询以补充基于视觉的搜索查询。基于文本的查询可以包括字符的任意组合,其可以标识描绘结果图像或与之相关联的期望特性。例如,基于文本的查询可以包括关键字(即,图像中出现的主颜色、图像中描绘的对象或人、与图像相关联的作者日期位置等)。作为一个示例,如果用户提供了搜索参数"埃菲尔铁塔和烟花",文本查询可以精确地包括术语"埃菲尔铁塔和烟花"。在某些实施例中,基于文本的查询可以重新格式化文本查询的术语以符合与搜索算法相关联的操作数。例如,如果基于文本的搜索算法支持的是布尔操作数,则基于文本的查询可以被重新格式化为"埃菲尔"或"铁塔"与"烟花"。在某些实施例中,基于文本的查询利用自然语言。例如,查询"猫的黑白照片"可以标识"猫"作为关键字,以及"黑白"和"照片"作为图像的属性。各种这样操作数在本领域是已知的并且在本发明的范围内被考虑。[0048]如上文所述,分类器部件112通常被配置为对用户提交的图像的属性分类或提取。为了这么做,分类器部件112可以实现机器学习、深度神经网络和其他计算机视觉技术。分类器部件112还被配置为从选择部件110接收搜索查询并且执行图像搜索。分类器部件112可以通过实现相同机器学习、深度神经网络和其他计算机视觉技术诸如上文所述神经网络或其他特征提取算法)以从图像集诸如图像数据库104提取属性来执行搜索。在某些实施例中,图像集可以包括视觉相似度引擎108存储的图像、用户设备102本地的图像或者视觉相似度引擎108或用户设备102经由网络106可访问的远程存储的任意图像。[0049]结果部件114通常被配置为经由用户设备102向用户提供搜索结果。搜索结果可以是搜索结果预览。搜索结果预览包括响应于基于视觉查询的一个或多个图像例如,对应于从提交图像提取的一个或多个属性中的每个属性的图像)。在某些实施例中,用户可以选择所提交图像或来自搜索预览的图像的属性来发起全面搜索查询。通过提供搜索预览,视觉相似度引擎108可以保存视觉相似度引擎108和用户设备102的资源例如,存储器、处理时间等)。一旦用户做出附加选择,就可以执行全面搜索并且结果部件114可以根据选择提供结果的全集。[0050]分类器部件112可以基于由选择部件110接收的每个单独选择来分类图像。结果部件114继而可以基于所有选择的平均得分在结果集中标识图像。在某些实施例中,选择部件110可以接收由用户选择的指示一个属性比另一个属性重要的权重。因此,结果部件114可以基于选择的权重对结果集中的图像排名。在某些实施例中,分类器部件112可以首先基于第一选择的属性对搜索结果排名,继而基于另一选择的属性对搜索结果重新排名。这可以使得用户能够标识最重要的属性,其中每个附加选择的属性使得搜索结果基于附加选择的属性重新排名但仍维持相同图像结果集而不需要标识没有基于针对最重要属性的搜索标识的新的图像)。虽然本文进行了特殊描述,但是所述实施例仅是示例性的并不旨在限制,如基于视觉搜索查询的聚集和排名可以通过各种配置执行。[0051]在某些实施例中,结果部件114被配置为向提交图像应用从图像选择的属性。如上文所述,用户可以向视觉相似度引擎108提交图像。假设该图像具有用户期望替代的属性,用户可以从随后可以由选择部件110接收的另一图像诸如另一提交图像或者搜索预览或搜索结果中的图像选择属性。结果部件114可以向产生修改图像的图像应用所选择的属性。在某些实施例中,用户继而可以使用该修改的图像通过向视觉相似度引擎108提交该修改的图像来执行附加搜索。[0052]在一个示例中,可以标识移动设备相机胶卷上照片中出现的朋友的所有实例。当该朋友的新的照片被捕获诸如由移动设备上的相机捕获),该新的照片可以被用作查询以标识该朋友的所有其他照片无论该人是否用文本标签标识)。通过此方式,脸部识别可以被用作搜索查询的属性。[0053]参考图2,根据本公开的实现方式图示了用于使用图像中找到的一个或多个特定属性进行搜索的示例性图形用户接口200。如接口200中所示,源图像210已经由用户提交。图像210的属性212、214、216和218连同针对每个属性212、214、216和218的搜索结果预览222、224、226和228提供。如本文所述,搜索结果预览可以是基于没有针对整个图像集执行的搜索的有限结果采样(以保存资源并最大化计算设备的效率)。在某些实施例中,搜索结果预览是基于针对整个图像集执行的搜索的结果集例如,图像数据库)。用户可以选择源图像的特定属性来发起全面图像搜索或者可以从搜索结果预览选择一个或多个图像来发起全面图像搜索。一旦用户做出期望的选择,搜索结果的全集可以由接口200提供给用户。在某些实施例中,没有提供搜索结果预览,用户可以基于源图像210的各属性进行选择并对应地发起搜索。如图所示,用户已经选择了属性212、216和218但没有选择属性214。通过此方式,将发起标识具有与源图像210的相同属性相似的属性212、216和218的结果图像211的搜索。[0054]现在返回图3,根据本公开的实现方式图示了用于使用一个或多个图像中找到的一个或多个特定属性进行搜索的示例性图形用户接口300。如接口300中所示,用户可以提交两个或更多个源图像310。与图2中所示接口相似,属性312、332、314和334连同针对每个图像310和330的每个属性312、332、314和334的搜索结果预览322、342、324和344提供。这允许用户从每个源图像选择特定属性来发起图像搜索。在某些实施例中,用户可以从搜索结果预览选择一个或多个图像来发起图像搜索。一旦用户做出了期望选择,搜索结果的全集可以由接口300提供给用户。如图所示,用户已经从源图像310选择了属性312和335。用户还从源图像330选择了属性334。然而,用户没有从源图像330选择属性332或者从源图像310选择属性314。通过此方式,将发起标识具有与源图像310的相同属性相似的属性312和335以及与源图像330的相同属性相似的属性334的结果图像320的搜索。[0055]在图4中,提供了示出根据本公开的实现方式用于使用一个或多个图像中找到的一个或多个特定属性进行搜索的方法400的流程图。方法400和本文所述其他方法的每个步骤包括可以使用硬件、固件和或软件的任何组合执行的计算处理。例如,各种功能可以由执行存储在存储器中的指令的处理器来执行。方法还可以体现为存储在计算机存储介质上的计算机可用指令。仅举几例,方法可以由独立应用、服务或托管服务独立或与另一托管服务组合)、或者到另一产品的插件来提供。[0056]在步骤410,经由用户设备接收用户对一个或多个图像的选择。在各实施例中,一个或多个图像的每个图像包括可以由神经网络或其他特征提取算法标识的一个或多个属性。神经网络或其他特征提取算法可以将对应于基于视觉的查询的特征向量与图像集中的特征向量进行比较以基于视觉相似度标识图像结果。在某些实施例中,属性包括组分、颜色、风格、纹理或字体中的一个或多个。在步骤412,经由用户设备接收用户针对每个图像的至少一个属性的选择。每个选择可以附加地包括由用户选择的可以指示每个属性对用户重要程度的权重。在某些实施例中,针对一个或多个图像可以选择指示用户不期望结果图像包括的属性的负面属性。例如,用户可能期望找到不包括所接收图像中标识的特定颜色、组分、或风格的图像。用户可以选择这些不期望项(例如,负面属性)中的每一个,并且查询将从结果中排除包括负面属性的项。每个选择包括基于视觉查询的至少一部分以在图像集上执行。[0057]在步骤414,经由用户设备向用户提供图像结果集。图像结果集包括图像集中响应于基于视觉的查询的一个或多个结果图像。在各实施例中,经由用户设备接收用户对结果图像的选择。另外,可以经由用户设备接收用户对至少一个细化属性的选择。细化属性是选定结果图像的属性。通过此方式,用户可以根据细化属性来对搜索查询进行细化,并且图像结果集可以经由用户设备针对用户进行更新。更新的图像结果集包括图像集中响应于细化的基于视觉的查询的一个或多个结果图像。[0058]现在转向图5,提供了示出根据本公开的实现方式用于使用一个或多个图像中找到的一个或多个特定属性进行搜索的方法500的流程图。最初,在步骤510,神经网络或其他特征提取算法被实现用于标识相似图像。在步骤512,神经网络或其他特征提取算法针对特定属性进行训练。在某些实施例中,属性包括组分、颜色、类型、纹理或字体中的一个或多个。在某些实施例中,神经网络或其他特征提取算法的不同层对应于不同的特定属性。通过此方式,相同神经网络或其他特征提取算法可以被用于提取每类属性。[0059]在步骤514,图像在神经网络或其他特征提取算法被接收。在步骤516,神经网络或其他特征提取算法从图像提取一个或多个属性。在步骤518,提供包括一个或多个图像集的搜索结果。搜索结果对应于包括用户进行的选择的搜索查询。在某些实施例中,选择包括图像的一个或多个属性中的至少一个。在某些实施例中,选择包括图像和基于文本的查询的一个或多个属性中的至少一个。在某些实施例中,选择包括图像和用户提供的草图的一个或多个属性中的至少一个。通过此方式,用户可以通过直接在图像上画草图来修改图像的属性。在某些实施例中,可以向用户提供允许用户修改图像的属性的附加工具。在某些实施例中,选择包括已经被存储在图像数据库中的其他图像属性例如,大小、定向、颜色、向量、日期、位置、说明等)。可以用于分类图像的任意数目的图像属性可以被存储在图像数据库并用于搜索查询。[0060]在某些实施例中,第二图像在神经网络或其他特征提取算法被接收。神经网络或其他特征提取算法可以从第二图像提取一个或多个属性。在某些实施例中,选择包括来自每个图像第一图像和第二图像)的一个或多个属性的至少一个属性。应当理解,任意数目的图像可以被提交并且任意数目的属性可以从每个所提交的图像中选择。在某些实施例中,接收由神经网络或其他特征提取算法提取的至少一个属性和搜索结果的选择。细化搜索结果可以基于选择被提供给用户。[0061]参考图6,提供了示出根据本公开的实现方式用于修改图像中可以用于搜索的至少一个属性的方法600的流程图。最初,在步骤610,经由用户设备接收用户对图像的选择。该图像包括可以利用神经网络或其他特征提取算法提取的一个或多个属性。在某些实施例中,属性包括组分、颜色、风格、纹理或字体中的一个或多个。在步骤612,接收针对一个或多个模型图像的至少一个属性的选择。在一个实施例中,接收用户针对每个属性的权重的选择。在某些实施例中,接收用户对至少一个负面属性的选择。负面属性是用户不期望修改图像包括的属性。模型图像可以在如本文所述的搜索结果预览中提供、如本文所述的搜索结果集中提供或者可以由用户提交。在步骤614,根据选择修改图像的至少一个属性。[0062]在某些实施例中,提供了包括一个或多个图像的集合的搜索预览。该一个或多个图像的集合由神经网络或其他特征提取算法确定为视觉上与所述图像相似,并且包括被修改的至少一个属性。可以接收一个或多个图像的集合中图像的选择,并且可以基于该选择发起搜索查询。[0063]在图7中,提供了示出根据本公开的实现方式用于修改图像中可以用于搜索的至少一个属性的方法700的流程图。最初,在步骤710,神经网络或其他特征提取算法针对特定属性进行训练。在某些实施例中,属性包括组分、颜色、类型、纹理或字体中的一个或多个。在步骤712,图像被接收并且由神经网络或其他特征提取算法来处理。在步骤714,一个或多个属性由神经网络或其他特征提取算法从图像中提取。[0064]在某些实施例中,其他图像在神经网络或其他特征提取算法被接收。来自所述其他图像的一个或多个属性可以由神经网络或其他特征提取算法提取。从其他图像提取的一个或多个属性可以用于修改图像的至少一个属性。在某些实施例中,图像的属性可以根据其他图像基于文本的属性进行修改。在某些实施例中,图像的属性可以根据用户提供的草图进行修改。[0065]在步骤716,提供包括一个或多个图像的集合的搜索预览。该一个或多个图像的集合由神经网络或其他特征提取算法确定为视觉上与所述图像相似,并且包括被修改的至少一个属性。在某些实施例中,可以接收一个或多个图像的集合中图像的选择。搜索查询可以基于该选择发起。细化搜索结果可以基于该选择被提供。[0066]已经对本公开的实现方式进行了描述,下文描述其中可以实现本发明的实施例的示例性操作环境,以便为本公开的各方面提供一般上下文。首先参照图8,特别地,用于实现本发明的实施例的示例性操作环境被示出并通常被指定为计算设备800。计算设备800只是合适的计算环境的一个示例,并不旨在暗示对本发明的用途或功能的范围的任何限制。也不应该将计算设备800解释为具有与所图示的部件的任何一个或组合相关的任何依赖性或要求。[0067]本发明可以在由计算机或其它机器诸如个人数据助理或其它手持式设备执行的包括计算机可执行指令诸如程序模块在内的计算机代码或机器可使用指令的一般上下文中进行描述。通常,包括例程、程序、对象、部件、数据结构等在内的程序模块是指执行特定任务或实现特定抽象数据类型的代码。本发明可以在包括手持式设备、消费电子产品、通用计算机、更专用计算设备等在内的多种系统配置中实施。本发明还可以在分布式计算环境中实施,其中,任务由通过通信网络链接的远程处理设备执行。[0068]参照图8,计算设备800包括直接或间接耦合以下设备的总线810:存储器812、一个或多个处理器814、一个或多个呈现部件816、输入输出(IO端口818、输入输出部件820和说明性电源822。总线810表示可以是一条或多条总线(诸如地址总线、数据总线或其组合的东西。尽管为了清楚起见,图8的各种框用线条示出,但是在现实中,各部件的轮廓并不是那样清楚,并且比喻性地来说,线条更精确地是灰色的和模糊的。例如,我们可以将呈现部件诸如显示设备视为IO部件。还有,处理器具有存储器。本发明人认识到这是本领域的性质,并且重申图8的示图仅仅例示可以与本发明的一个或多个实施例结合使用的示例性计算设备。当所有涵盖在图8的范围内时并且参照"计算设备",没有在诸如"工作站"、"服务器"、"膝上型计算机"、"手持式设备"、"智能电话"等之类的类别之间做出区分。[0069]计算设备800典型地包括多种计算机可读介质。计算机可读存储介质可以是能够由计算设备800访问的任何可用介质并且包括易失性和非易失性介质、可移除和不可移除介质。作为示例而非限制,计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括在用于存储诸如计算机可读指令、数据结构、程序模块或其它数据之类的信息的任何方法或技术中实现的易失性和非易失性介质、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘DVD或其它光学存储装置、盒式磁带、磁带、磁盘存储装置或其它磁性存储设备、或可以用来存储所期望的信息并且可以由计算设备800访问的任何其它介质。计算机存储介质不包括信号本身。通信介质典型地体现计算机可读指令、数据结构、程序模块或诸如载波或其它传送机制之类的已调制的数据信号中的其它数据,并且包括任何信息递送介质。术语"已调制的数据信号"意味着具有以对信号中的信息进行编码这样的方式设定或更改的其特点中的一个或多个的信号。作为示例而非限制,通信介质包括有线介质诸如有线网络或直接接线连接和无线介质诸如声学、RF、红外和其它无线介质)。上述的任何组合还应当包括在计算机可读介质的范围内。[0070]存储器812包括易失性和或非易失性存储器形式的计算机存储介质。存储器可以是可移除的、不可移除的、或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备800包括从各种实体诸如存储器812或IO部件820中读取数据的一个或多个处理器。(多个呈现部件816向用户或其它设备呈现数据指示。示例性呈现部件包括显示设备、扬声器、打印部件、振动部件等。[0071]IO端口818允许计算设备800逻辑耦合到包括IO部件820在内的其它设备,其中的一些可以是内置的。说明性部件包括麦克风、操纵杆、游戏垫、卫星天线、扫描仪、打印机、无线设备等。IO部件820可以提供处理由用户生成的空中手势airgesture、话音、或其它生理输入的自然用户界面NUI。在一些情形下,输入可以被传送到合适的网络元素用于进一步处理。NUI可以实现以下各项中的任意组合:语音识别、触摸和手写笔识别、面部识另IJ、生物特征识别、屏幕上和邻近屏幕处的手势标识、空中手势、头部和眼部跟踪、以及与计算设备800上的显示相关联的触摸标识。计算设备800可以配备有深度照相机诸如立体照相机系统、红外照相机系统、RGB照相机系统、以及这些的组合)用于手势检测与识别。附加地,计算设备800可以配备有使得能够检测运动的加速计或陀螺仪。加速度计或陀螺仪的输出可以被提供给计算设备800的显示器来渲染浸入式增强现实或虚拟现实。[0072]如上文所描述的,本公开的实现方式促进使用一个或多个图像中找到的一个或多个特定属性进行搜索。本发明已经关于特定实施例进行了描述,其在所有方面旨在是说明性的而非限制性的。对于本领域普通技术人员而言,在没有背离本发明的范围的情况下,本发明所涉及的备选实施例将是显而易见的。[0073]从前述内容看出,本发明很好地适用于实现上文所陈述的所有目的和目标,以及本系统和方法的明显的和固有的其它优点。应当理解的是,某些特征和子组合具有效用并且可以在不参照其它特征和子组合的情况下采用。这些都是能够预见的并且包括在权利要求的范围内。

权利要求:1.一种存储有计算机可用指令的非瞬态计算机存储介质,当所述指令由计算设备使用时,使得所述计算设备执行以下操作包括:经由用户设备接收用户对图像的选择,所述图像包括属性;经由所述用户设备接收所述用户对所述图像的至少一个属性的选择,对所述图像的至少一个属性的所述选择发起被配置为搜索图像集的基于视觉的查询;以及基于所述至少一个属性的所述选择经由所述用户设备向所述用户提供图像结果集,所述图像结果集包括所述图像集中响应于所述基于视觉的查询的结果图像。2.根据权利要求1所述的介质,其中所述属性包括组分、颜色、风格、纹理或字体中的一个或多个。3.根据权利要求1所述的介质,进一步包括接收对由所述用户选择的每个属性的权重的选择。4.根据权利要求1所述的介质,进一步包括经由所述用户设备接收所述用户对所述图像的至少一个负面属性的选择,所述至少一个负面属性是所述用户不期望所述结果图像包括的属性。5.根据权利要求1所述的介质,进一步包括经由所述用户设备接收所述用户对包括细化属性的结果图像的选择。6.根据权利要求5所述的介质,进一步包括经由所述用户设备接收所述用户对所述结果图像的至少一个细化属性的选择。7.根据权利要求6所述的介质,进一步包括:根据所述细化属性来细化所述搜索查询;以及经由所述用户设备对所述用户更新所述图像结果集,所更新的图像结果集包括所述图像集中响应于所细化的基于视觉的查询的细化结果图像。8.根据权利要求1所述的介质,进一步包括:基于特征提取算法,将对应于所述图像的属性的第一特征向量集与对应于所述图像集中图像的特定属性的第二特定向量集进行比较;以及基于所述第一特征向量集与所述第二特征向量集之间的相似度标识所述图像结果集。9.一种用于促进使用图像中找到的特定属性进行搜索的计算机实现的方法,所述方法包括:训练神经网络的不同层以从图像集提取特定属性;由所述神经网络从用户经由用户设备提供的图像中提取图像属性;以及响应于接收作为搜索查询的所述用户对所述图像属性中的至少一个属性的选择,提供来自所述图像集的搜索结果。10.根据权利要求9所述的方法,其中所述属性包括组分、颜色、风格、纹理或字体中的一个或多个。11.根据权利要求10所述的方法,进一步包括在所述神经网络接收第二图像。12.根据权利要求11所述的方法,进一步包括由所述神经网络从所述第二图像提取第二属性。13.根据权利要求12所述的方法,其中所述选择包括来自所述第二图像的所述第二属性中的至少一个属性。14.根据权利要求12所述的方法,其中所述选择包括来自每个图像的所述属性中的至少一个属性。15.根据权利要求9所述的方法,进一步包括接收由所述神经网络提取的至少一个属性以及搜索结果的选择。16.根据权利要求15所述的方法,进一步包括基于所述选择提供细化搜索结果。17.根据权利要求9所述的方法,其中所述选择包括所述图像的至少一个属性、基于文本的查询以及已经存储在图像数据库中的其他图像属性。18.根据权利要求9所述的方法,其中所述选择包括所述图像的至少一个属性和用户提供的草图。19.一种计算机化的系统,包括:处理器;以及存储有计算机可用指令的计算机存储介质,所述指令在由所述处理器使用时,使得所述处理器:训练神经网络的不同层以从图像集提取特定属性;由所述神经网络从用户经由用户设备提供的图像中提取属性;以及响应于接收作为搜索查询的所述用户对所述图像属性中的至少一个属性的选择,经由所述用户设备向所述用户提供包括结果图像的搜索结果预览。20.根据权利要求19所述的系统,其中所述选择包括所述图像的至少一个属性、基于文本的查询以及已经存储在图像数据库中的其他图像属性。

百度查询: 奥多比公司 使用图像中找到的特定属性进行搜索

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。