买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】测试装置以及机器学习装置_发那科株式会社_201811276560.4 

申请/专利权人:发那科株式会社

申请日:2018-10-30

公开(公告)日:2020-10-13

公开(公告)号:CN109725597B

主分类号:G05B19/406(20060101)

分类号:G05B19/406(20060101);G01R31/00(20060101)

优先权:["20171031 JP 2017-210168"]

专利状态码:有效-授权

法律状态:2020.10.13#授权;2020.05.08#实质审查的生效;2019.05.07#公开

摘要:本发明提供测试装置和机器学习装置。测试装置进行故意反常测试,具备机器学习装置,该机器学习装置观测表示测试项目的数据和表示制造机器的工作状态以及规格的数据,作为表示环境的当前状态的状态变量。而且,机器学习装置获取表示实施了测试项目情况下制造机器工作状态的适当与否判定结果的判定数据,使用这些状态变量和判定数据,将制造机器工作状态数据以及制造机器规格数据与测试项目数据关联起来进行学习。

主权项:1.一种测试装置,其决定用于测试制造机器的测试项目,其特征在于,所述测试装置决定针对所述制造机器的工作状态以及所述制造机器的规格的测试项目,具备对针对所述制造机器的所述测试项目的决定进行学习的机器学习装置,所述机器学习装置具备:状态观测部,其观测表示所述测试项目的测试项目数据、表示所述制造机器的工作状态的制造机器工作状态数据以及表示所述制造机器的规格的制造机器规格数据,来作为表示环境的当前状态的状态变量;判定数据获取部,其获取判定数据,该判定数据表示实施了所述测试项目的情况下的所述制造机器的工作状态的适当与否判定结果;以及学习部,其使用所述状态变量和所述判定数据,将所述制造机器工作状态数据以及所述制造机器规格数据与所述测试项目数据关联起来进行学习。

全文数据:测试装置以及机器学习装置技术领域本发明涉及测试装置以及机器学习装置,尤其涉及能自动设定故意反常测试的测试装置以及机器学习装置。背景技术在开发机床、机器人等制造机器时,为了提高该制造机器的可靠性,事先进行故意反常测试。故意反常测试,是指在输入由规格等规定的范围之外的信号或电流值等,或者按照预料外的运用顺序运转了制造机器的情况下,测试该制造机器的运转是否发生异常的工序。该故意反常测试的内容即测试项目以及测试顺序由决定故意反常测试内容的负责人基于经验来决定。作为辅助该种测试工序中的作业的现有技术,例如在日本特开2014-203125号公报中公开了一种使控制数据模式化的技术,该控制数据控制成为测试对象的设备。另外,在日本特开2012-014584号公报中公开了一种测试装置,其自动进行控制装置的测试。但是,故意反常测试由于只进行基于主要基于测试负责人的经验或以前的不良状况事例而生成的测试项目的测试,因此很难进行预见到不可预测事态的穷尽的故意反常测试,从而作为其结果,存在制造机器出厂后有时在现场发生不良状况这一问题。发明内容因此,本发明的目的在于提供能进行穷尽且高效的故意反常测试的测试装置以及机器学习装置。本发明的测试装置中,通过导入生成在故意反常测试时赋予制造机器的输入测试项目并评估基于该输入的测试的结果的机器学习器,来解决上述课题。本发明的测试装置中所导入的机器学习器基于学习结果来决定赋予制造机器的输入电压、输入电流,如果由于该输入导致机器的输出不稳定,则提高该测试项目的评估。本发明的测试装置所导入的机器学习器,穷尽搜索使机器不稳定的输入故意反常动作,能在开发阶段掌握制造机器的开发者未曾预想的故意反常动作。制造机器的开发者基于该信息,能进行机器的改良或预防性维修,商品销售后不会在不可预料事态下发生不良状况。本发明的一种方式提供的测试装置,构成为决定针对制造机器的工作状态以及该制造机器的规格的测试项目,具备学习决定针对所述制造机器的所述测试项目的机器学习装置。而且,所述机器学习装置具备:状态观测部,其观测表示所述测试项目的测试项目数据、表示所述制造机器的工作状态的制造机器工作状态数据以及表示所述制造机器的规格的制造机器规格数据,来作为表示环境的当前状态的状态变量;判定数据获取部,其获取判定数据,该判定数据表示实施了所述测试项目的情况下的所述制造机器的工作状态的适当与否判定结果;以及学习部,其使用所述状态变量和所述判定数据,将所述制造机器工作状态数据以及所述制造机器规格数据与所述测试项目数据关联起来进行学习。所述学习部可具备:回报计算部,其求出与所述适当与否判定结果相关联的回报;以及价值函数更新部,其使用所述回报来更新表示针对所述制造机器的工作状态以及所述制造机器的规格的所述测试项目的价值的函数,而且,所述制造机器的动作越不稳定,所述回报计算部计算出越高的回报。所述学习部能以多层构造运算所述状态变量和所述判定数据。本发明的其他方式提供的测试装置,构成为决定针对制造机器的工作状态以及该制造机器的规格的测试项目,具备学习决定针对所述制造机器的所述测试项目的机器学习装置。而且,所述机器学习装置具备:状态观测部,其观测表示所述测试项目的测试项目数据、表示所述制造机器的工作状态的制造机器工作状态数据以及表示所述制造机器的规格的制造机器规格数据,来作为表示环境的当前状态的状态变量;学习部,其将所述制造机器工作状态数据以及所述制造机器规格数据与所述测试项目数据关联起来进行学习;以及推论结果输出部,其基于所述状态观测部观测到的状态变量和所述学习部的学习结果,输出基于所述测试项目的测试的动作指令。所述机器学习装置能存在于云服务器。本发明的一种方式提供的机器学习装置,其学习决定测试制造机器的测试项目,其具备:状态观测部,其观测表示所述测试项目的测试项目数据、表示所述制造机器的工作状态的制造机器工作状态数据以及表示所述制造机器的规格的制造机器规格数据,来作为表示环境的当前状态的状态变量;判定数据获取部,其获取表示实施了所述测试项目情况下的所述制造机器的工作状态的适当与否判定结果的判定数据;以及学习部,其使用所述状态变量和所述判定数据,将所述制造机器工作状态数据以及所述制造机器规格数据与所述测试项目数据关联起来进行学习。本发明的其他方式提供的机器学习装置,学习决定测试制造机器的测试项目,其具备:状态观测部,其观测表示所述测试项目的测试项目数据、表示所述制造机器的工作状态的制造机器工作状态数据以及表示所述制造机器的规格的制造机器规格数据,来作为表示环境的当前状态的状态变量;学习部,其将所述制造机器工作状态数据以及所述制造机器规格数据与所述测试项目数据关联起来进行学习;以及推论结果输出部,其基于所述状态观测部观测到的状态变量和所述学习部的学习结果,输出基于所述测试项目的测试的动作指令。根据本发明,能发现制造机器的开发者未预想到的不良状况或软件的错误等,另外,能实施高效的故意反常测试。附图说明图1是第一实施方式提供的测试装置的概要性硬件构成图。图2是第一实施方式提供的测试装置的概要性功能框图。图3是表示测试装置的一种方式的概要性功能框图。图4是表示机器学习方法的一种方式的概要性流程图。图5A是说明神经元的图。图5B是说明神经网络的图。图6是表示组装有测试装置的系统的一种方式的概要性功能框图。具体实施方式图1是表示第一实施方式提供的测试装置的主要部位的概要性硬件构成图。测试装置1例如作为通过控制对于机器人、机床等制造机器的信号输入、电源等来进行测试的测试装置而实现,或者作为机器人或机床等制造机器的控制装置的一部分而实现,进一步能作为单元计算机、主机、云服务器等经由网络与制造机器连接的计算机的一部分而实现。该测试装置1所具备的CPU11是对测试装置1进行整体控制的处理器,经由总线20读出保存在ROM12中的系统程序,并按照该系统程序控制测试装置1整体。RAM13中暂时保存暂时性计算数据或显示数据、由操作者经由未图示的输入部输入的各种数据等。非易失性存储器14构成为通过由例如未图示的电池支持等,从而即使测试装置1的电源切断也保持存储状态的存储器。非易失性存储器14中存储有操作者经由未图示的输入部输入的各种数据例如,包括制造机器70的控制信号一览和信号可取值范围、驱动制造机器70的驱动部的电动机的特性等的制造机器70的规格等、经由未图示的接口输入的控制用程序等。非易失性存储器14中存储的程序、各种数据可以在执行时利用时在RAM13中展开。另外,ROM12中预先写入有公知的分析程序等各种系统程序包括用于控制与后述机器学习装置100的交互的系统程序。设置用于从外部观测制造机器70的传感器60。该传感器60可使用例如视觉传感器、音频传感器、温度传感器、距离传感器等。传感器60检测制造机器70自身不能检测的涉及制造机器70工作的信息,并将检测结果经由接口18向CPU11通知。制造机器70是成为故意反常测试对象的机器,例如可以是机器人、机床、放电加工机、注射成形机等加工机。该制造机器70能经由接口19通过信号等接受来自CPU11的动作指令并控制各部分。另外,制造机器70检测在各部分设置的传感器、向电动机等提供的电流值等并经由接口19通知CPU11。接口21是用于连接测试装置1与机器学习装置100的接口。机器学习装置100具备统一控制机器学习装置100整体的处理器101、存储有系统程序等的ROM102、用于进行涉及机器学习的各处理中的暂时性存储的RAM103、以及用于存储学习模型等的非易失性存储器104。机器学习装置100能经由接口21观测测试装置1可获取的各信息包括制造机器70的控制信号一览和信号可取值范围、驱动制造机器70的驱动部的电动机的特性等的制造机器70的规格、从传感器60或制造机器70获取的制造机器70的工作状况等。另外,测试装置1接受从机器学习装置100输出的涉及制造机器70测试的动作指令,来控制制造机器70。图2是第一实施方式提供的测试装置1和机器学习装置100的概要性功能框图。图2所示各功能块通过由图1所示测试装置1所具备的CPU11以及机器学习装置100的处理器101执行各自的系统程序并控制测试装置1以及机器学习装置100各部分的动作来实现。本实施方式的测试装置1具备基于从机器学习装置100输出的推论结果来对制造机器70输出测试的动作指令的控制部34。控制部34输出的测试的动作指令例如包括对电源的控制指令突然的电压上升、电压下降、瞬时断电等、针对制造机器70各部分的由制造机器70的规格规定的可设定范围内外的参数值的列表、对制造机器70所具备的各电动机的电流控制、对制造机器70所具备的周围装置的指令等的组合,但不限定于此,还能输出由制造机器70所具备的功能、规格等可控制的各种动作指令。本实施方式的机器学习装置100包括用于通过所谓机器学习来自主学习针对制造机器70的工作状态以及制造机器70的规格在下次实施的测试项目的软件学习算法等以及硬件处理器101等。测试装置1所具备的机器学习装置100所学习的相当于表示制造机器70的工作状态以及制造机器70的规格与下次实施的测试项目的相关性的模型构造。如图2中功能块所示,测试装置1所具备的机器学习装置100具备状态观测部106、判定数据获取部108以及学习部110,状态观测部106观测表示下次实施的测试项目的测试项目数据S1、表示制造机器70的工作状态的制造机器工作状态数据S2、表示制造机器70的规格的制造机器规格数据S3,来作为表示环境的当前状态的状态变量S,判定数据获取部108获取包括工作状态判定数据D1的判定数据D,工作状态判定数据D1表示实施了下次实施的测试项目的情况下的制造机器70的工作状态的适当与否判定结果,学习部110使用状态变量S和判定数据D,将测试项目数据S1与制造机器70的工作状态以及制造机器70的规格关联起来进行学习。状态观测部106所观测的状态变量S中,测试项目数据S1能作为针对制造机器70的测试涉及的动作指令的集合来获取。针对制造机器70的测试涉及的动作指令包括对电源的控制指令突然的电压上升、电压下降、瞬时断电等、针对制造机器70各部分的由制造机器70的规格规定的可设定范围内外的参数值的列表、对于制造机器70所具备的各电动机的电流控制、对制造机器70所具备的周围装置的指令等的组合。这样的针对制造机器70的测试涉及的动作指令根据制造机器70所具备的功能、周围装置等而不同,另外,根据制造机器70的规格可设定的参数的范围也不同。状态观测部106除了可以将针对制造机器70的测试涉及的动作指令定义为静态指令值以外,还能定义为动态指令表示预定时间宽度的值变动的波形,例如表示对电动机输出的电流值变化的波形。在学习初期,测试项目数据S1可使用例如测试装置1基于制造机器70的规格穷尽生成的制造机器70的可控电源、参数、电动机、周围机器的指令的组合,另外,还能从在以前进行的测试中使用的测试项目的集合来获取。并且,在学习推进了某种程度的阶段,测试项目数据S1能使用机器学习装置100基于学习部110的学习结果在前一个学习循环中决定的下次实施的测试项目,这种情况下,机器学习装置100将决定的在下次实施的测试项目在每个学习循环暂时性存储在RAM103中,状态观测部106还可从RAM103获取在前一个学习循环中由机器学习装置100决定的下次实施的测试项目。状态变量S中的制造机器工作状态数据S2能使用例如从制造机器70的各部分获取到的电流值等信息、基于从传感器60获取到的检测值等而分析出的涉及制造机器70工作状态的数据。关于制造机器工作状态数据S2,能处理用于评估制造机器70的工作状态的各种值,例如,根据驱动制造机器70的各部分的电动机的电流值分析出的该电动机的负荷或振动值、通过作为音频传感器的传感器60检测到的撞击声、通过作为视觉传感器的传感器60检测到的制造机器70各部分的移动状况、通过作为温度传感器的传感器60检测到的制造机器70各部分的温度等。状态变量S中的制造机器规格数据S3能使用例如由作业者对测试装置1设定的制造机器70的规格。该制造机器规格数据S3中使用制造机器70的可控制的控制项目的列表和各控制项目可取值的范围等。判定数据获取部108能使用工作状态判定数据D1作为判定数据D,工作状态判定数据D1是实施了下次实施的测试项目的情况下的制造机器70的工作状态的适当与否判定值。该判定数据获取部108使用的判定数据D包括例如驱动制造机器70各部分的电动机的负荷是否为适当的负荷范围、是否发生了振动、是否对制造机器70发生了撞击、制造机器70是否处于适当位置、制造机器70各部分的温度是否收敛于适当范围等数据。判定数据D是表示在状态变量S下对制造机器70进行了测试的动作指令情况下的该测试的动作指令有效性的指标。在以学习部110的学习循环考虑的情况下,对学习部110同时输入的状态变量S基于获取到判定数据D的一个学习循环前的数据。这样,在测试装置1所具备的机器学习装置100推进学习的期间,在环境中重复实施获取制造机器工作状态数据S2以及制造机器规格数据S3、基于测试项目数据S1执行制造机器70的工作状态适当与否判定、获取判定数据D。学习部110按照总称为机器学习的任意的学习算法,学习针对制造机器70的工作状态或制造机器70的规格的测试项目数据S1。学习部110能反复执行基于包括所述状态变量S和判定数据D的数据集合的学习。在针对制造机器70的工作状态或制造机器70的规格的测试项目数据S1的学习循环的反复过程中,状态变量S中的制造机器工作状态数据S2以及制造机器规格数据S3如上所述地从一个学习循环前从制造机器70或传感器60获取到的信息的分析结果或在非易失性存储器14中设定的涉及制造机器70规格的信息获取,测试项目数据S1为基于上次之前的学习结果决定的下次实施的测试项目,另外,判定数据D为实施了基于测试项目数据S1的测试项目后所执行的本次学习循环中制造机器70工作状态的适当与否判定结果。通过重复这样的学习循环,学习部110能自动识别隐含表示制造机器70的工作状态制造机器工作状态数据S2以及制造机器70的规格制造机器规格数据S3与针对该状态在下次实施的测试项目的相关性的特征。在学习算法开始时,制造机器工作状态数据S2以及制造机器规格数据S3与下次实施的测试项目的相关性实质上是未知的,学习部110随着学习的推进逐渐识别特征并解释其相关性。制造机器工作状态数据S2以及制造机器规格数据S3与下次实施的测试项目的相关性如果被解释至某种可信赖程度的水准,则学习部110反复输出的学习结果能用于针对当前状态即制造机器70的工作状态以及制造机器70的规格选择应如何处理下次实施的测试项目这一行为即意图确定。即学习部110随着学习算法的推进,能使制造机器70的工作状态以及制造机器70的规格与应使针对该状态在下次实施的测试项目为何种值这一行为的相关性逐渐接近最佳解。推论结果输出部122基于学习部110学习到的结果,进行下次实施的测试项目的推论,将该推论结果输出到控制部34。在学习部110进行的学习完成的状态,如果对机器学习装置100输入制造机器70的工作状态以及该制造机器70的规格,则推论结果输出部122输出下次实施的测试项目。如上所述,测试装置1所具备的机器学习装置100中,使用状态观测部106观测到的状态变量S和判定数据获取部108获取到的判定数据D,学习部110按照机器学习算法,学习下次实施的测试项目。状态变量S由测试项目数据S1、制造机器工作状态数据S2以及制造机器规格数据S3这样的数据构成,另外,判定数据D通过由测试装置1分析从制造机器70或传感器60获取到的信息而唯一性求出。因此,根据测试装置1所具备的机器学习装置100,使用学习部110的学习结果,能自动且正确地求出对应于制造机器70的工作状态以及该制造机器70的规格的在下次实施的测试项目。而且,如果能自动求出下次实施的测试项目,则只要掌握制造机器70的工作状态制造机器工作状态数据S2以及制造机器70的规格制造机器规格数据S3,就能迅速决定下次实施的测试项目的适当值。即,能高效决定下次实施的测试项目。具有上述构成的机器学习装置100中,学习部110所执行的学习算法并不受特殊限定,能采用作为机器学习公知的学习算法。图3表示图2所示测试装置1的一种方式,表示具备学习部110的构成,学习部110执行作为学习算法的一个例子的强化学习。强化学习是下述学习方法,在观测学习对象存在的环境的当前状态即输入的同时以当前状态执行预定行为即输出,试错性反复针对该行为给予某种回报这一循环,以回报的总计实现最大化的方法本申请的机器学习装置中为下次实施的测试项目作为最佳解进行学习。图3所示测试装置1所具备的机器学习装置100中,学习部110具备回报计算部112以及价值函数更新部114,回报计算部112求出回报R,回报R与基于状态变量S实施了下次实施的测试项目的情况下的制造机器70的工作状态的适当与否判定结果相当于获取到状态变量S的下一学习循环中使用的判定数据D相关联,价值函数更新部114使用回报R,更新表示下次实施的测试项目的价值的函数Q。学习部110通过由价值函数更新部114重复函数Q的更新来学习针对制造机器70的工作状态以及制造机器70的规格在下次实施的测试项目。说明学习部110所执行的强化学习的算法的一个例子。该例子的算法作为Q学习Q-learning被人们所知,是学习函数Qs,a的方法,函数Qs,a以行为主体的状态s和在该状态s下由行为主体可选择的行为a为独立变量,表示在状态s下选择了行为a情况下的行为的价值。选择状态s下价值函数Q达到最高的行为a是最佳解。在状态s和行为a的相关性未知的状态下开始Q学习,通过重复在任意的状态s下选择各种行为a的试错,来反复更新价值函数Q,从而接近最佳解。此处,构成为在作为在状态s选择了行为a的结果使得环境即状态s发生了变化时,得到对应于该变化的回报即行为a的加权r,通过以选择得到更高回报r的行为a的方式引导学习,能使价值函数Q在较短时间接近最佳解。价值函数Q的更新式通常可像下述式子1那样来表示。式子1中,st以及at分别是在时刻t的状态以及行为,状态根据行为at变化为st+1。rt+1是状态从st变化为st+1而得到的回报。maxQ项表示进行在时刻t+1成为最大价值函数Q的在时刻t考虑的行为a时的Q。α以及γ分别是学习系数以及折扣率,通过0α≤1,0γ≤1任意设定。学习部110执行Q学习的情况下,状态观测部106观测到的状态变量S以及判定数据获取部108获取到的判定数据D对应于更新式的状态s,应如何决定针对当前状态即,制造机器70的工作状态以及制造机器70的规格在下次实施的测试项目这一行为对应于更新式的行为a,回报计算部112求取的回报R对应于更新式的回报r。因此价值函数更新部114通过使用回报R的Q学习重复更新表示针对当前状态在下次实施的测试项目的价值的函数Q。回报计算部112求取的回报R例如如下。·在决定了下次实施的测试项目后,基于决定的测试项目对制造机器70输出了动作指令时,在该制造机器70的工作状态的适当与否判定结果被判定为“适当”的情况下制造机器70的动作不稳定的情况,例如,电动机发生了预先确定的阈值以上的负荷的情况,制造机器70发生了预先确定的阈值以上的振动的情况,从设想的轴移动来看产生了预先确定的阈值以上的误差的情况等,回报计算部112求取的回报R为正+的回报R;·在决定了下次实施的测试项目后,基于决定的测试项目对制造机器70输出了动作指令时,在该制造机器70的工作状态的适当与否判定结果被判定为“否”的情况下制造机器70的动作稳定的情况,例如,电动机的负荷不到预先确定的阈值的情况,制造机器70中发生的振动不到预先确定的阈值的情况,从设想的轴移动来看收敛于不到预先确定的阈值的误差的情况等,回报计算部112求取的回报R为负-的回报R。上述情况下,正负回报R的绝对值可以彼此相同也可不同。另外,作为判定的条件,可组合判定数据D中包括的多个值来判定。另外,制造机器70的工作状态的适当与否判定结果可设定为多个阶段,而并非仅仅是“适当”以及“否”这两种。作为例子,在电动机中发生的负荷的允许范围的最大值为Tmax的情况下,能构成为电动机中发生的负荷T在0≤TTmax5时,给予回报R=1,在Tmax5≤TTmax2时,给予回报R=2,在Tmax2≤TTmax时,给予回报R=3,在Tmax≤T时,给予回报R=5。并且,还能构成为在学习的初期阶段将Tmax设定得较大,随着学习的推进,使Tmax缩小。价值函数更新部114能具有行为价值表,行为价值表是与由函数Q所表示的行为价值例如数值相关联地整理了状态变量S、判定数据D和回报R的表。该情况下,价值函数更新部114更新函数Q这一行为与价值函数更新部114更新行为价值表这一行为是相同含义。在Q学习开始时,由于环境的当前状态与下次实施的测试项目的相关性未知,因此在行为价值表中,以与随机确定的行为价值的值函数Q相关联的方式准备了各种状态变量S、判定数据D和回报R。而且,只要判定数据D已知,回报计算部112就能立即算出与其对应的回报R,算出的值R被写入行为价值表。若使用对应于制造机器70的工作状态的适当与否判定结果的回报R来推进Q学习,则学习被引导至选择得到更高回报R的行为的方向,根据作为以当前状态执行所选择行为的结果而变化的环境的状态即状态变量S以及判定数据D,关于以当前状态进行的行为的行为价值的值函数Q被改写,行为价值表被更新。通过重复该更新,越是适当的行为本发明的情况下,更加使制造机器70不稳定的行为,行为价值表中显示的行为价值的值函数Q越被改写成较大值。这样,未知环境的当前状态制造机器70的工作状态以及制造机器70的规格和对于其的行为下次实施的测试项目的决定的相关性逐渐明确。即通过更新行为价值表,制造机器70的工作状态以及制造机器70的规格与下次实施的测试项目的关系逐渐接近最佳解。参照图4,进一步说明学习部110所执行的上述Q学习的流程即机器学习方法的一种方式。首先,在步骤SA01中,价值函数更新部114在参照该时间点的行为价值表的同时,作为以状态观测部106观测到的状态变量S表示的当前状态进行的行为而随机选择在下次实施的测试项目。接着价值函数更新部114在步骤SA02中获取状态观测部106观测的当前状态的状态变量S,在步骤SA03中获取判定数据获取部108获取的当前状态的判定数据D。接着,价值函数更新部114在步骤SA04中基于判定数据D判断下次实施的测试项目是否适当,在适当的情况下,在步骤SA05中将回报计算部112求出的正的回报R适用于函数Q的更新式,接着在步骤SA06中,使用当前状态下的状态变量S以及判定数据D、回报R和行为价值的值更新后的函数Q来更新行为价值表。在步骤SA04中,在判断下次实施的测试项目不适当的情况下,在步骤SA07中将回报计算部112求出的负的回报R适用于函数Q的更新式,接着在步骤SA06中,使用当前状态下的状态变量S以及判定数据D、回报R和行为价值的值更新后的函数Q来更新行为价值表。学习部110通过重复步骤SA01~SA07来反复更新行为价值表,推进下次实施的测试项目的学习。而且,从步骤SA04至步骤SA07为止的求出回报R的处理以及价值函数的更新处理针对包含在判定数据D中的各数据执行。在推进上述的强化学习时,能应用例如神经网络。图5A是神经元模型的示意图。图5B是组合图5A所示神经元而构成的三层神经网络模型的示意图。神经网络例如能通过模拟神经元模型的运算装置或存储装置等来构成。图5A所示神经元是输出对于多个输入x此处作为一个例子为输入x1~输入x3的结果y。对各输入x1~x3乘以与该输入x对应的权重ww1~w3。由此,神经元输出由下述式子2表达的结果y。而且,式子2中,输入x、结果y以及权重w均为矢量。另外,θ为偏置,fk为激活函数。图5B所示三层神经网络中,从左侧输入多个输入x此处作为一个例子为输入x1、x2、x3,从右侧输出结果y此处作为一个例子为结果y1、y2、y3。图示的例子中,对输入x1、x2、x3乘以各自对应的权重总称为w1,各个输入x1、x2、x3均被输入到三个神经元N11、N12、N13。图5B中,神经元N11~N13各自的输出总称为z1。z1可视为提取输入矢量的特征量而得的特征矢量。该图的例子中,对特征矢量z1乘以各自对应的权重总称为w2,各个特征矢量z1均被输入到两个神经元N21、N22。特征矢量z1表示权重w1与权重w2之间的特征。图5B中,神经元N21~N22各自的输出总称为z2。z2可视为提取特征矢量z1的特征量而得的特征矢量。该图的例子中,对特征矢量z2乘以各自对应的权重总称为w3,各个特征矢量z2均被输入到三个神经元N31、N32、N33。特征矢量z2表示权重w2与权重w3之间的特征。最终神经元N31~N33分别输出结果y1~y3。而且,还能使用采用了形成三层以上层的神经网络的所谓深度学习的方法。测试装置1所具备的机器学习装置100中,以状态变量S和判定数据D为输入x,通过由学习部110进行按照上述神经网络的多层构造的运算,能输出下次实施的测试项目结果y。另外,测试装置1所具备的机器学习装置100中,使用神经网络作为Q学习中的价值函数,以状态变量S和行为a为输入x,通过由学习部110进行按照上述神经网络的多层构造的运算,也能输出该状态下该行为的价值结果y。而且,神经网络的动作模式具有学习模式和价值预测模式,例如在学习模式下使用学习数据集合来学习权重w,使用学习到的权重w,能以价值预测模式进行行为的价值判断。而且,在价值预测模式下,也能进行检测、分类、推论等。上述测试装置1的构成可表述为处理器101所执行的机器学习方法或者软件。该机器学习方法是学习下次实施的测试项目的机器学习方法,具有:计算机的CPU观测测试项目数据S1、制造机器工作状态数据S2以及制造机器规格数据S3作为表示进行制造机器70测试的环境的当前状态的状态变量S的步骤;计算机的CPU获取表示基于决定的测试项目的制造机器70的工作状态适当与否判定结果的判定数据D的步骤;以及计算机的CPU使用状态变量S和判定数据D,将制造机器工作状态数据S2以及制造机器规格数据S3与下次实施的测试项目关联起来进行学习的步骤。图6表示具备测试装置1的一种实施方式的系统170。系统170具备作为单元计算机或主机、云服务器等计算机的一部分而实现的至少1台测试装置1、成为测试对象的多个制造机器70、将测试装置1、制造机器70彼此连接的有线无线网络172。具有上述构成的系统170中,具备机器学习装置100的测试装置1使用学习部110的学习结果,能自动且准确求出针对制造机器70的工作状态以及制造机器70的规格在下次实施的测试项目。另外,测试装置1的机器学习装置100能构成为基于针对多个制造机器70分别得到的状态变量S以及判定数据D来学习所有制造机器70通用的下次实施的测试项目,并使该学习结果在所有制造机器70的测试中共享。因此根据系统170,能以更加多样的数据集合包括状态变量S以及判定数据D为输入,提高下次实施的测试项目的学习的速度、可靠性。以上说明了本发明的实施方式,但是本发明不仅限定为上述的实施方式例,而是通过添加适当的变更,能以各种方式来实施。例如,机器学习装置100所执行的学习算法或运算算法、测试装置1所执行的控制算法等不限定为上述算法,而是能采用各种算法。另外,在上述实施方式中,针对测试装置1和机器学习装置100具有不同CPU的装置进行了说明,机器学习装置100也可以通过测试装置1所具备的CPU11和存储在ROM12中的系统程序来实现。

权利要求:1.一种测试装置,其决定用于测试制造机器的测试项目,其特征在于,所述测试装置构成为决定针对所述制造机器的工作状态以及所述制造机器的规格的测试项目,具备对针对所述制造机器的所述测试项目的决定进行学习的机器学习装置,所述机器学习装置具备:状态观测部,其观测表示所述测试项目的测试项目数据、表示所述制造机器的工作状态的制造机器工作状态数据以及表示所述制造机器的规格的制造机器规格数据,来作为表示环境的当前状态的状态变量;判定数据获取部,其获取判定数据,该判定数据表示实施了所述测试项目的情况下的所述制造机器的工作状态的适当与否判定结果;以及学习部,其使用所述状态变量和所述判定数据,将所述制造机器工作状态数据以及所述制造机器规格数据与所述测试项目数据关联地起来进行学习。2.根据权利要求1所述的测试装置,其特征在于,所述学习部具备:回报计算部,其求出与所述适当与否判定结果相关联的回报;以及价值函数更新部,其使用所述回报来更新表示针对所述制造机器的工作状态以及所述制造机器的规格的所述测试项目的价值的函数,所述制造机器的动作越不稳定,所述回报计算部计算出越高的回报。3.根据权利要求1或2所述的测试装置,其特征在于,所述学习部以多层构造运算所述状态变量和所述判定数据。4.一种测试装置,其决定用于测试制造机器的测试项目,其特征在于,所述测试装置构成为决定针对所述制造机器的工作状态以及所述制造机器的规格的测试项目,具备对针对所述制造机器的所述测试项目的决定进行学习的机器学习装置,所述机器学习装置具备:状态观测部,其观测表示所述测试项目的测试项目数据、表示所述制造机器的工作状态的制造机器工作状态数据以及表示所述制造机器的规格的制造机器规格数据,来作为表示环境的当前状态的状态变量;学习部,其将所述制造机器工作状态数据以及所述制造机器规格数据与所述测试项目数据关联起来进行学习;以及推论结果输出部,其基于所述状态观测部观测到的状态变量和所述学习部的学习结果,输出基于所述测试项目的测试的动作指令。5.根据权利要求1~4中任一项所述的测试装置,其特征在于,所述机器学习装置存在于云服务器。6.一种机器学习装置,其学习决定测试制造机器的测试项目,其特征在于,所述机器学习装置具备:状态观测部,其观测表示所述测试项目的测试项目数据、表示所述制造机器的工作状态的制造机器工作状态数据以及表示所述制造机器的规格的制造机器规格数据,来作为表示环境的当前状态的状态变量;判定数据获取部,其获取表示实施了所述测试项目情况下的所述制造机器的工作状态的适当与否判定结果的判定数据;以及学习部,其使用所述状态变量和所述判定数据,将所述制造机器工作状态数据以及所述制造机器规格数据与所述测试项目数据关联起来进行学习。7.一种机器学习装置,其学习决定测试制造机器的测试项目,其特征在于,所述机器学习装置具备:状态观测部,其观测表示所述测试项目的测试项目数据、表示所述制造机器的工作状态的制造机器工作状态数据以及表示所述制造机器的规格的制造机器规格数据,来作为表示环境的当前状态的状态变量;学习部,其将所述制造机器工作状态数据以及所述制造机器规格数据与所述测试项目数据关联起来进行学习;以及推论结果输出部,其基于所述状态观测部观测到的状态变量和所述学习部的学习结果,输出基于所述测试项目的测试的动作指令。

百度查询: 发那科株式会社 测试装置以及机器学习装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。