买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】训练集的评估_达索系统公司_201611273107.9 

申请/专利权人:达索系统公司

申请日:2016-12-30

公开(公告)日:2023-01-24

公开(公告)号:CN107016400B

主分类号:G06F18/214

分类号:G06F18/214

优先权:["20151231 EP 15307193.1"]

专利状态码:有效-授权

法律状态:2023.01.24#授权;2018.12.28#实质审查的生效;2017.08.04#公开

摘要:该发明特别地涉及一种用于评估由机器学习系统预测的结果的潜在偏差的计算机实现的方法。该方法包括:在第一组观测上训练模型,每个观测与目标值相关联;随机生成第二组观测;将训练的模型应用于第二组,从而获得与第二组的每个观测相关联的目标值;将第一和第二组观测及其相关联的目标值索引到索引中;接收第一查询,第一查询允许对第一和第二组观测的子集的选择;生成第二查询,第二查询包括第一查询和将仅仅返回第一组的一个或多个观测的附加约束;生成第三查询,第三查询包括第一查询和将仅仅返回第二组的一个或多观测的附加约束;使用第二和第三查询来查询索引;并且返回对第二和第三查询的响应。

主权项:1.一种用于评估由机器学习系统预测的结果的潜在偏差的计算机实现的方法,包括:-在第一组观测上训练S10模型,每个观测与目标值相关联,所述第一组观测形成所述模型的训练数据;-生成第二组观测,所述第二组观测是随机生成的可能的值,并且所述第二组观测形成所述模型的测试数据;-将训练的模型应用S20于所述第二组,从而获得与所述第二组中的每个观测相关联的目标值;-将所述第一组观测和所述第二组观测及其相关联的目标值索引S30到索引中;-接收S40第一查询,所述第一查询允许对所述第一组观测和所述第二组观测的子集的选择;-生成S50第二查询,所述第二查询包括所述第一查询和仅仅返回所述第一组中的一个或多个观测的附加约束;-生成S52第三查询,所述第三查询包括所述第一查询和仅仅返回所述第二组中的一个或多个观测的附加约束;-使用所述第二查询和所述第三查询来查询所述索引;-返回S60对所述第二查询和所述第三查询的响应;以及-基于对所述第二查询和所述第三查询的响应而获得对所述模型的预测中的相对置信度的测量。

全文数据:训练集的评估技术领域[0001]该发明涉及计算机程序和系统领域,并且更具体地涉及用于评估由机器学习系统预测的结果的潜在偏差的方法、系统和程序。背景技术[0002]在机器学习中,因为训练的模型不适当,输入变量的选择无效,或者训练样本的选择不代表新数据,所以可能发生预测误差。有时,模型的选择是有限的例如,对于为即将到来的问题执行良好的已知模型),并且输入变量的选择是有限的(例如,对于可以被收集的变量)。[0003]因此,对于分析者出现的问题是对于给定的模型和给定的一组输入变量,如何评估由于训练样本的选择或目标值对于其已知的该组观测的可用性(该组也被称为标记数据)的误差风险。[0004]已经开发了用于测试训练的模型的方法。第一个方法被称为德尔塔和伽马测试。在Stefansson,和AntoniaJ·Jones的“Anoteonthegammatest.”NeuralComputingApplications5.31997:131-133中提出的伽马测试估计训练样本的仅仅基于平滑模型的误差。平滑模型是其输出是输入的平滑函数的模型诸如神经网络)。平滑函数是具有有界部分一阶和二阶导数的函数。直观地,这意味着跨任何方向的函数的曲线是平滑的并且不形成角度。德尔塔测试不需要平滑模型,但需要连续模型。连续模型是其输出是输入的连续函数的模型。连续函数是一个这样的函数,如果S收敛到P,在一系列S点上的该函数的值趋于其在P点上的值。德尔塔测试在伽马测试之前。它对模型做较弱的假设,但是需要更大的数据集密度来估计具有相似质量的模型的误差。[0005]然而,该第一个方法经受缺点。值得注意的是,它适用受限类的模型。德尔塔测试和伽马测试估计观测的实际目标值与可以由平滑函数生成的目标值之间的误差。该输出在每个模型中不是输入的平滑函数。对于一些类型的人工神经网络,情况是这样,但是对于基于决策树或存根的整体方法不是这样,该方法当前被选为对许多机器学习问题的最高性能方法。[0006]第二个方法是在Kohavi,Ron的“Astudyofcross-validationandbootstrapforaccuracyestimationandmodelselection.”Ijcai·Vol·14.No·2·1995中讨论的交叉验证。交叉验证由将可用标记数据拆成训练数据和测试数据组成。基于训练数据对模型进行训练,并且然后对测试数据进行测试。当被测试时,训练的模型的输出与目标数据的实际值比较。K折叠由多个K,例如K=5交叉验证组成,以更好地利用可用标记数据。在第一交叉验证中,标记数据被分割成近似相同大小的K个集它是近似的,因为标记数据集的大小可与K的数量不同)。然后,对于每个连续运行,用先前未在测试集中(在先前运行中)使用的样本进行测试数据集,并且每个运行时的训练数据是标记数据集的剩余部分。为每个运行测量模型的性能。最终性能测量典型地是所有运行的平均。[0007]第三个方法是交叉验证的特定情况,其中为不同大小的训练集绘制误差率。更具体地,该第三个方法由绘制两个误差率曲线组成。一个对应于关于来自训练集的观测的模型的误差,并且另一个对应于关于测试集的观测的模型的误差。训练集的观测的误差率应当关于训练集大小而连续减小,而关于测试集的观测的误差率应当至少对于较小训练集大小而减小。可以有一个点,在其之后它开始增加。这个拐点是训练集的最佳大小,在其之前发生欠拟合,并且在其之后发生过度拟合。如果这一点不存在,没有过度拟合,并且最佳训练集是最大的。[0008]第二和第三个方法不允许使用所有可用标记数据来训练模型。在理想情况下(当模型不过度拟合时),使用尽可能多的数据来训练模型是有益的,所以在实践中典型地在所有可用标记数据上训练模型。在这些情况下,那些方法不精确地测量它将在生产中运行的训练的模型的性能。当有很少的标记数据时,这是一个问题。[0009]这些方法没有一个考虑关联到训练数据的选择的误差的风险。甚至当训练时可用的所有标记数据用于训练时,这些方法也不考虑关联到训练时可用的标记数据的分布的误差的风险。在实践中,这是重要的问题,因为标记数据仅仅代表在收集标记数据时发生的情况,这可能与将来可发生的情况不同。在数据不能总被收集的一些情况下,可用标记数据仅仅代表发生的情况的子集,即,当可能收集数据时发生的情况,这可能不代表整个一组可能的情况。[0010]例如,交叉验证仅仅允许评估关于类似于测试集中的观测的观测的误差的风险,即,类似于在可用标记数据中发现的观测。[0011]在改变训练集的大小的同时比较关于训练集和测试集上的误差率的问题正是我们仅仅改变训练集的大小,而不是训练集中的观测的选择。这意味着训练集中的观测应该代表所有可能的观测,并且它们应该以完全随机的顺序进行。如果人考虑例如二分类模型的训练集,其中所有观测都位于可能观测的空间的小区域中。该模型将学习如何区分该特定子空间中的两个类的微小细节。它将不会学习如何在观测的空间的其它领域中区分两个类。模型将过拟合,不是由于训练集的大小,而是由于训练集中的观测的分布。[0012]德尔塔测试和伽马测试不需要将可用标记数据分割成训练集和测试集。但是它们仍然假设可用标记数据代表所有可能的输入数据包括未来输入数据)。[0013]因此,缺少用这些方法的风险评估是问题,因为现象典型地随时间改变。所以训练数据的分布在某一点变得过时。例如,在车赛中何时进行进站加油的预测典型地依赖于描述赛道circuit和汽车行为的输入数据。例如,随着气候变化,极端温度可能首次出现在Fl赛道上。极端温度可影响轮胎粘附性,以及发动机和制动垫片行为。然而,极端温度的结果可能不由模型学习。这样的情况可能还未在可用标记数据中被捕获,尤其如果这些温度以前从未在当前赛道中看到。用于帮助确定进站加油的最佳时刻的机器学习模型可能导致与通常非常不同的情况下的不适当的推荐。在进站加油中的Fl赛车上作出的不适当的操作或者不适当的定时不仅可以降低团队的表演,而且还导致危险的情况。[0014]在该上下文下,仍然存在用于评估由机器学习系统预测的结果的潜在偏差的必要。发明内容[0015]因此提供一种用于评估由机器学习系统预测的结果的潜在偏差的计算机实现的方法。该方法包括:[0016]-在第一组观测上训练模型,每个观测与目标值相关联;[0017]-生成第二组观测;[0018]-将训练的模型应用于第二组,从而获得与第二组观测的每个观测相关联的目标值;[0019]-将第一组观测和第二组观测及其相关联的目标值索引到索引中;[0020]-接收第一查询,第一查询允许第一组观测和第二组观测的子集的选择;[0021]-生成第二查询,第二查询包括第一查询和将仅仅返回第一组的(一个或多个观测的附加约束;[0022]-生成第三查询,第三查询包括第一查询和将仅仅返回第二组的(一个或多个观测的附加约束;[0023]-使用第二查询和第三查询来查询索引;以及[0024]-返回对第二查询和第三查询的响应。[0025]该方法可包括以下中的一个或多个:[0026]-第一组观测的每个观测与一个或多个变量相关联,每个变量与值相关联;[0027]-在第一组观测上训练模型的步骤之前:在连续段上或在离散集上定义第一组的一个或多个变量;[0028]-第二组观测的随机生成包括:在第一组的每个变量上关联概率分布;[0029]-概率分布是根据第一组的所述每个变量来确定的;[0030]-概率分布函数是均匀概率分布;[0031]-通过使用至少一个随机变量生成器,跨连续段或在离散集上生成值;计算从至少一个随机变量生成器获得的值的组合;[0032]-确定变量之间的依赖性;在计算的组合之中移除不满足确定的依赖性的组合;[0033]-计算随机变量的组合包括计算随机变量的所有组合;[0034]-第一组观测被存储在第一矩阵上,并且第二组观测被存储在第二矩阵上;[0035]-第二组观测被标记为被随机生成;[0036]-在索引的步骤中,索引的第二组观测与指示观测已被随机生成的元数据相关联;[0037]-在返回的步骤之前:比较第二查询和第三查询的结果。[0038]进一步提供一种包括用于执行该方法的指令的计算机程序。[0039]进一步提供一种其上记录有计算机程序的计算机可读存储介质。[0040]进一步提供一种系统,包括耦合到存储器的处理器,存储器上记录有计算机程序。附图说明[0041]现在将通过非限制性示例并参考附图来描述该发明的实施例,其中:[0042]图1示出用于训练模型的观测矩阵的示例;[0043]图2示出包括自然观测和合成观测的观测矩阵的示例;[0044]图3示出该方法的示例;[0045]图4示出用于执行该方法的系统的示例。具体实施方式[0046]参考图3的流程图,提出一种用于评估由机器学习系统预测的结果的潜在偏差的计算机实现的方法。该方法包括:在第一组观测上训练模型,每个观测与目标值相关联。该方法进一步包括随机生成第二组观测。然后将训练的模型应用于第二组观测。结果,获得目标值并且目标值与第二组的每个观测相关联。然后,该方法包括将第一组观测和第二组观测及其相关联的目标值索引到索引中。接下来,接收第一查询;第一查询允许第一组观测和第二组观测的子集的选择。第二查询从第一查询中生成,并且包括第一查询和将仅仅返回第一组的一个或多个观测的附加约束。第三查询也从第一查询中生成,并且包括第一查询和将仅仅返回第二组的一个或多个观测的附加约束。接下来,使用第二和第三查询来查询索引。返回对第二和第三查询的响应。[0047]这样的方法改进由机器学习系统预测的结果的潜在偏差的评估。实际上,评估关联到可用标记数据的风险标记数据是目标值对其已知的一组观测)由将可用标记数据与未来数据比较组成。由于未来数据不可用,该发明通过将可用标记数据与理论可能数据比较来解决这个问题。至少未来数据理论上是可能的,所以对于未来数据的最坏场景被包括在理论可能数据中。[0048]风险可以与模型的准确性相关:如果模型是错误的,那么基于从模型的输出可能作出一些不正确的决策。然而,如果没有对应于类似观测的标记数据,没有方式在给定观测处在可能或未来的观测组中)预测模型的准确性。[0049]本发明通过在所有可能的观测处提供模型准确性的粗略估计来解决这个问题。该估计是围绕该点的可用标记观测的密度。基本上,围绕点的训练数据越密集,模型将训练得越好,并且围绕该点模型执行得越好。在本发明中,提供这种粗略估计由提供对合成数据的查询的响应其允许表示任何可能的观测和对可用标记数据的查询的响应其允许表示围绕该点的标记数据的密度构成。[0050]风险可以与由模型返回的值相关:如果人基于从模型的输出决定行动,则模型的输出确定将要作出的决策。存在关联到这些决策的风险,所以存在关联到模型的输出的风险。例如,决策可以是作为车赛中进站加油期间所作出的调整的一部分而向机械部件施加的力,并且风险对于机械部件是在车赛的剩余圈数期间毁坏。[0051]本发明揭示在未由标记数据覆盖的理论可能点处的模型的值,因为根据该发明,甚至在合成样本上运行模型,并且模型的输出与对应的输入一起被索引。[0052]评估风险通常涉及“what-if”问题。本发明通过查询来解决这个问题。用户在关于描述数据的一个或若干变量的规范方面指定其查询。例如,如果在比赛之前团队意识到在比赛期间预计赛道上的温度达到极值,它们可以通过发出指定期望的温度的查询来质疑用于比赛的模型的准确性。此外,如果在比赛期间出现新的情况,诸如意外的阵雨,团队还可以发出查询,该查询指定描述当前情况的一些值,包括阵雨的发生,以便理解给通过使用机器学习模型提供的推荐什么信任,并给出用于训练它的数据。然后该查询用于生成两个查询,一个对可用标记数据,并且一个对合成样本,以甚至在该具体问题上获得上面列出的好处。[0053]本发明以相同的方式应用于任何类型的模型,例如机器学习模型。它不对模型做任何假设。本发明允许使用完全可用标记数据来训练模型,并且然后使用合成样本来测试它。本发明不依赖于假设,该假设为:可用标记数据优选地代表所有可能数据,或者在那些组中的数据的顺序优选是随机的。这是因为它不依赖于可用标记数据来表示所有可能的观测。相反,它基于可能观测的理论分布生成合成样本。因为测试样本是合成的,所以在将模型应用于这些样本之前,我们不具有目标变量的关联值。合成样本未被标记。因此,该方法不返回关于样本的误差率。相反,它提供关于与训练集中的样本相似或不相似的样本的预测的可变性。该方法允许提供:如果存在风险如果训练数据不代表理论可能数据),理解风险可能如何发生差异存在于什么维度),以及评估关联到预测的理论可变性的风险在未由训练数据覆盖的区域中)。[0054]该方法是计算机实现的。这意味着该方法的步骤或基本上所有步骤)由至少一个计算机或相似的任何系统执行。因而,该方法的步骤由计算机执行,可能完全自动地,或者半自动地。在示例中,可通过用户-计算机交互来执行该方法的步骤的至少一些的触发。所需的用户-计算机交互的水平可取决于自动化预见的水平,以及与实现用户愿望的需求的平衡。在示例中,该水平可以是用户定义的和或预定义的。[0055]该方法的计算机实现方式的典型示例是用适于该目的的系统来执行该方法。该系统可包括耦合到存储器和图形用户界面GUI的处理器,该存储器在其上记录有包括用于执行该方法的指令的计算机程序。存储器还可存储数据库。存储器是适于这样的存储的任何硬件,可能包括若干物理不同的部分例如,一个用于程序,并且可能一个用于数据库)。[0056]“数据库”是指为搜索和检索组织的数据(即信息)的任何集合例如,关系数据库,例如基于预定的结构化语言,例如SQL。当存储在存储器上时,数据库允许由计算机快速搜索和检索。数据库实际上被结构化以便于结合各种数据处理操作来存储、检索、修改和删除数据。数据库可由可以被分解为记录的一个文件或一组文件组成,记录中的每一个由一个或多个字段组成。字段是数据存储的基本单位。用户可主要通过查询检索数据。使用关键字和排序命令,用户可以在许多记录中快速搜索、重新排列、分组和选择字段,以根据正被使用的数据库管理系统的规则检索或创建关于特定数据聚合的报告。[0057]索引是指以一种方式存储包括其目标值的观测,该方式是指由关于预定义的一组变量这些变量被说成“被索引的”)的值来优化查询。具有有限数量的可能值的变量应当被存储在反向列表中。例如,如果表示在车赛的给定圈数期间发生下雨,对于“无雨”用〇表示并且对于“雨”用1表示,对于该变量仅仅存在两个可能的值。反向列表是值的列表,对于每个值具有指针的列表。每个指针指向该值为其发生的存储的观测。反向列表允许通过值快速查询。在一些变量中,顺序的概念和值之间的差异是重要的。例如,如果圈Ll与温度Tl=22C—起发生,圈L2与温度T2=23C—起发生,圈L3与温度T3=30C—起发生,关于温度,Ll和L2比L2和L3更相似。对于这些变量,通过段查询是有意义的。在索引上,这些值典型地被存储在在存储器中)通过段进行快速查询的结构中。当被索引时,这些变量典型地被存储在提供最快读取访问的支持的物理存储器上。这将允许所有观测的快速查询,对于所有观测,给定变量的值可落到段中。一个用于通过段查询的方法是索引离散化的值对某个精度水平舍入并查询段中包括的所有离散值。索引将数据存储为具有相关联的元数据的文档。文档是观测,并且相关联的输入和目标值是元数据。文档的元数据应当足以确定文档是表示来自可用标记数据的观测还是来自合成样本的观测。例如,可以将具体元数据设置成包含此信息。[0058]该方法一般操纵多组观测。观测是一组变量,其中每个变量与值相关联。变量表示系统或其一部分的状态,或者与系统或其一部分相关或对系统或其一部分有影响的元素的状态。例如,汽车的观测的变量可以是汽车的温度、油压、瞬时燃料消耗、比赛期间的平均燃料消耗、轮胎的种类、空气的温度、天气(雨、太阳、雪)等。变量与量化变量的状态的值相关联。观测表示系统在给定时间点的状态。一组观测因而是变量在不同时间点的值。在实践中,该系统可以属于各种和无限制的工业领域,包括:航空航天、建筑、建造、消费品、高科技装置、工业设备、运输、海洋和或海上石油天然气生产或运输。由该方法使用的该组观测因而可包括与工业系统相关的变量,该工业系统可以是任何机械系统,诸如地面交通工具的系统或其一部分例如包括汽车和轻型卡车设备、赛车、摩托车、卡车和摩托设备、卡车和公共汽车、火车),空中交通工具的系统或其一部分例如包括机身设备、航空航天设备、推进设备、国防产品、航空设备、空间设备),海军交通工具的系统或其一部分包括海军设备、商业船舶、海上设备、游艇和工作船、航海设备),通用机械系统或机械系统的一部分例如包括工业制造机械、重型移动机械或设备、安装设备、工业设备产品、金属加工制品、轮胎制品),机电或电子系统或其一部分例如包括消费电子、安全和或控制和或仪器产品、计算和通信设备、半导体、医疗装置和设备),消费品(例如包括家具、家庭和园艺产品、休闲用品、时尚产品、耐用品零售商产品、非耐用品零售商产品),包装例如包括食品和饮料和烟草、美容和个人护理、家用产品包装)。[0059]图1示出观测的示例。每行12表示观测,每列14为了清楚的原因,在图1中用虚线表示仅仅一个对应于变量,并且每个矩形18表示用于观测的变量的值。在该示例中,该组观测被存储在矩阵10上。每个观测用关于所谓的“描述变量”,也被称为“输入变量”的它的值来描述因为它们作为训练的模型的输入被提供,以描述观测)。有趣的是,该组的每个观测包括与该组的其它观测相同的变量。应当理解:对于每个观测,一个或多个变量可以是空的,即不与值相关联。每个观测与关于所谓的“目标变量”,也被称为“输出变量”的对应值相关联。目标变量是训练模型必须为新观测评估的变量。目标变量在它们可提供信息的意义上对于模型的用户是有意义的,该信息帮助模型的用户理解和或预测系统的行为和或对系统的行为作出反应。在该示例中,目标变量也被存储在矩阵16中。应当理解:每个观测的值和目标变量可以被存储在包括矩阵10和16的单个矩阵中。观测和目标变量表并且被称为一组标记数据。应当理解:每个目标变量伴随着用于每个观测的所谓的目标值的值。[0060]图4示出系统的示例,其中系统是客户端计算机系统,例如用户的工作站。[0061]该示例的客户端计算机包括:连接到内部通信总线1000的中央处理单元(CHJ1010,也连接到总线的随机存取存储器RAM1070。客户端计算机进一步提供有与连接到总线的视频随机存取存储器1100相关联的图形处理单元GPU1110。视频RAM1100在本领域中也被称为帧缓冲器。大容量存储设备控制器1020管理对诸如硬盘驱动器1030之类的大容量存储器设备的访问。适合于有形地体现计算机程序指令和数据的大容量存储器设备包括所有形式的非易失性存储器,例如包括半导体存储器设备,诸如EPR0M、EEPR0M和闪存设备;磁盘,诸如内部硬盘和可移动盘;磁光盘;以及⑶-ROM盘1040。任何前述内容可由专门设计的ASIC专用集成电路补充或并入其中。网络适配器1050管理对网络1060的访问。客户端计算机还可包括触觉装置1090,诸如光标控制装置、键盘等等。在客户端计算机中使用光标控制装置以允许用户选择性地将光标定位在显示器1080上的任何期望位置。另外,光标控制装置允许用户选择各种命令并输入控制信号。光标控制装置包括用于向系统输入控制信号的许多信号生成装置。典型地,光标控制装置可以是鼠标,正用于生成信号的鼠标的按钮。替代地或另外,客户端计算机系统可包括敏感板和或敏感屏。[0062]计算机程序可包括可由计算机执行的指令,该指令包括用于使上面的系统执行该方法的单元。程序可被记录在任何数据存储介质上,包括系统的存储器。程序例如可在数字电子电路中,或者在计算机硬件、固件、软件或它们的组合中来实现。程序可被实现为装置,例如有形地体现在用于由可编程处理器执行的机器可读存储设备中的产品。方法步骤可由可编程处理器执行,该可编程处理器执行指令的程序以通过在输入数据上操作并生成输出来执行该方法的功能。处理器因而是可编程的并且经耦合以从数据存储系统、至少一个输入设备和至少一个输出设备接收数据和指令,以及向数据存储系统、至少一个输入设备和至少一个输出设备传送数据和指令。应用程序可以高级过程或面向对象的编程语言实现,或者如果期望的话以汇编或机器语言实现。在任何情况下,语言都可以是编译或解释语言。程序可以是完全安装程序或更新程序。程序在系统上的应用在任何情况下都导致用于执行该方法的指令。[0063]评估由机器学习算法预测的系统的行为的潜在偏差指定动作,该动作是确保系统的正确使用或与系统交互的过程的至少一部分。因而该方法可包括:响应于系统的预测行为而编程常规动作,以及在系统的实际行为及其预测行为之间检测潜在偏差情况下的回退动作。如果经验数据标记数据不能充分表示新情况,将检测潜在偏差。因此,回退可基于决策系统而作出,决策系统基于理论考虑或专家规则,其不依赖于经验数据。[0064]现在参考图3,其讨论该发明的示例。[0065]在步骤SlO处,通过训练第一组观测来获得训练的模型。该组观测是参考图1讨论的一组观测:该组观测的每个观测与目标值相关联。因此,在使用与目标变量对应的值相关联(“标记”)的观测训练模型的意义上,在标记数据上训练模型。这些观测形成所谓的训练集。如机器学习领域中已知的那样执行模型的训练。训练的模型典型地存储在存储器上,例如在用于执行的随机存取存储器上和在用于持久性的文件系统上。参考与观测的每个变量相关联的值是从真实世界观测(或测量)的值的事实,第一组观测可以被称为自然样本。例如,在给定时间点测量的旋转机器的旋转速度是变量“旋转速度”的自然值。[0066]接下来,在步骤S20处,使用随机变量生成算法生成第二组观测。该第二组观测具有与第一组观测相同的结构,即,第二组的每个观测具有相同的变量;仅仅与变量相关联的值可能不同。第二组观测也称为合成样本;这里术语合成与术语自然样本相反:还没有观测变量的值,但是已经计算了它们。[0067]合成观测的生成可如下执行。观测由关联到表征一组观测中的观测的变量的许多值来描述。当给定输入中的这些值时,训练模型生成与该组的对应观测相关联的目标值。例如,为了预测旋转机器的故障的概率,模型可在输入中采用旋转机器的旋转速度、待加工的部件的材料、切削冷却剂、切削流体、切削的深度、切削速度、插入形状、插入尺寸等。一些模型通过数值矩阵计算工作,并期望数值输入。所以任何这些输入数据在被输入到模型之前可以被转换为数值,既用于训练又用于预测。例如,变量“切削冷却剂”可以是水、矿物油、空气等。切削冷却剂对于水可以被转换为〇,对于矿物油可以被转换为1,对于空气可以被转换为2。替代地,变量“切割冷却剂”可以被转换为多个二进制变量,诸如“切割冷却剂包括7K”,“切割冷却剂包括矿物”,“切割冷却剂包括空气”。这些变量中的每一个都采用二进制值,该二进制值可以被表示为用于真的1和用于假的0。[0068]可在无限集上定义一些变量。然而,物理观测可以限于现实值的间隔。例如,在实践中,旋转机器的旋转速度可以被限制到间隔[10,2000]转每分钟rpm;高于2000rpm的旋转在理论上是可接受的,但在实践中不使用。因而,可在连续段上或在离散集上定义第一组观测的变量描述变量);这取决于变量。因此可以用具有在连续段上或在离散集上定义的变量的第一组观测训练在步骤SlO处的训练模型。在连续段上或在离散集上定义的该第一组观测将用于生成第二组。[0069]随着现在在连续段或离散集上定义描述变量,可能在每个变量上关联理论概率分布。概率分布的选择因而取决于变量。例如,如果除了那些最小和最大旋转速度之外没有任何信息是已知的,与旋转机器的旋转速度相关联的理论概率可以基于在段[l0rpm,2000rpm]上的均匀分布。均匀概率分布指定段或组的所有值是等概率的。当人知道测量是生成非均匀分布的过程的结果时,例如是正态分布、泊松分布、帕累托分布等时,可能使用非均匀分布。替代地,如果已知第一变量是其它变量的函数,可以通过生成用于其它变量的值并且每次计算第一变量的对应值来生成第一变量的值。[0070]从现在起,跨变量的可能值的段或集并且根据先前与每个变量相关联的相关联概率分布生成随机样本是可能的。这通过使用已知技术来执行。在实践中,它们由典型地在蒙特卡罗方法中使用的随机变量生成器组成。随机变量生成器从而为观测的每个变量返回理论可能值。[0071]为了解释,随机变量生成器是根据随机变量在其定义范围上的概率分布来生成随机变量的特定结果的程序。[0072]一旦已经计算每个变量的随机样本,就生成随机观测。为此目的,组合为每个变量生成的值:随机生成的第二组观测因而覆盖这些随机值的所有可能组合。[0073]在合成的该组观测(第二组)的生成的该步骤中,已经计算随机样本的所有组合。为了减小第二组观测的大小,抑制不现实的观测(即,其在实践中将不被观测)。这可通过确定在该组观测的变量之间是否存在依赖性来执行。应当理解:这些依赖性是先验已知的。依赖性可以用于防止不满足依赖性的随机样本的组合的计算,或者它们可以用于去除不满足依赖性的随机样本的组合。例如,在当前年份发布的插入形状不能已经用于在比该发布日期早的观测中加工部件。[0074]在该步骤处,已经随机地生成第二组观测。然而,该第二组不与目标值相关联:可用标记数据第一组包括目标值,合成数据不包括目标值。为了计算第二组的目标数据,在步骤S20处将训练的模型应用于随机生成的第二组上。将每个合成观测输入到训练的模型,并且将目标值设置成模型的输出。获得目标值并与第二组观测的每个观测相关联。如本领域中已知的那样执行将训练的模型应用于第二组。第二组及其目标值可以优选地被存储为第一组,即,通过使用如参考图1所讨论的矩阵。[0075]在该方法的该步骤处,两组观测可用。这两个组可在矩阵10和16或也在单个矩阵中)中合并,如图2中所示。在图2中,以平直线表示的观测是第一组的观测和变量),而以虚线表示的观测是第二组的观测(和变量)。有趣的是,矩阵1〇、16可以与补充矩阵20相关联,对于每个观测,补充矩阵20包括观测是否是自然的或是否被生成的信息。因此每个观测被标记为自然的或生成的,例如对于自然是0值,对于生成是1值。[0076]接下来,在步骤S30处,从两组组观测及其相关联的目标值中构建索引。索引已在上面讨论过。此处使用术语索引而不受进程、存储设备、服务器或地址的数量的约束。特定情况是其中单独的进程用于访问位于不同服务器上数据的索引。在一个实现方式中,一个进程可响应于自然观测的请求,另一个进程可响应于生成的观测的请求,两组观测可被存储在不同的位置上,并且两个进程可以是使用不同的地址(统一资源定位符URL可访问的。这可能是有利的,因为最佳支持自然观测的传入流的硬件服务器可与最佳支持生成的观测的传入流的硬件服务器不相同。这也可能有利于保护收集自然观测以改变存储的生成的观测的进程,反之亦然。[0077]作为索引的示例,可以构建两个索引替代一个索引:用于每组信息的索引,即索引包括用于第一组观测的第一索引和用于第二组观测的第二索引。在该示例中,两个组的矩阵优选地不被合并。并且补充矩阵20不是必需的,因为观测属于第一或第二组的约束是通过选择查询的URL来指定的。[0078]然后,在步骤S40处,通过索引接收第一查询。在描述数据的一个或若干变量方面指定查询。查询可由用户写入。查询可由期望答案的系统自动写入。例如,命令旋转机器的操作的系统可在用新的旋转速度钻探的结果上进行请求。例如,查询可能是“如果铝部件用水作为冷却剂来钻探,对于〇.5mm的切削深度,并且插入B型的形状如何?”由指令系统期望的答案是钻探的结果的期望的质量的测量,例如,结果的平滑度测量。通过发出对应于不同旋转速度的多个这样的查询,命令系统因此可以选择给出最佳结果的旋转速度。因此,查询是对索引的文档的约束的总和。例如,上述查询可以采用以下形式(但不限于):'128.0.0.l:10000q?cooler:waterANDcut_depth:0.5ANDinsert-shape:!^。监听主机128.0.0.1上的端口10000的进程将用查询串'coolenaterANDcut_depth:0.5ANDinsert-shape:来查询,并将通过检索所有文档来响应,关联到在对应于变量7cooler7的反向列表中的值'water',并且关联到在对应于变量'cui^deptl·的反向列表中的值M.5',并且关联到对应于变量'insert-shape'的反向列表中的值'B'。[0079]作为该查询的结果,从步骤S40的第一查询生成两个查询。生成意味着将第一查询变换成两个查询,即第二查询和第三查询。它们可同时或者一个接一个地生成,无论在第三查询之前生成第二查询还是在第二查询之前生成第三请求。[0080]第二查询由服务器生成S50,并且包括步骤S40的第一查询和将仅仅返回第一组的一个或多个观测的附加约束。[0081]第三查询由服务器生成S52,并且包括步骤S40的第一查询和将仅仅返回第二组的一个或多个观测的附加约束。[0082]作为第二和第三查询的生成的结果,使用生成的第二和第三查询两者来查询索引。[0083]因此,查询的索引返回两个结果(步骤S60。第一结果由第二查询提供,并且包括匹配查询的第一组的可用观测。因而,对第二查询的响应提供第一组的可用标记数据:这允许表示标记数据的密度。第二结果由第三查询提供,并且包括匹配查询的第二组的可用观测。因而,对合成数据的查询允许表示代表任何可能的观测的样本。[0084]根据这两个结果,可以在两个结果之间执行比较。可以对N个观测的每个相邻执行比较。在该相邻内,人对第一组观测的数量计数:第一组观测的数量越大,模型越好。相反,第一组观测的数量越小,模型越差。如果K是相邻中的第一组观测的数量,N-K是第二组观测的数量,KN是在相邻中自然观测的密度。在大小为N的相邻中,围绕给定的新观测的自然观测的密度与大小为N的其它相邻中的自然观测的密度相比)的百分位数是描述用于新观测的模型的相对潜在偏差的新度量。它可以用作由模型提供的预测中的相对置信度的测量。除了其它事项之外,人选择依赖或不依赖模型所用的百分位数还取决于偏差的成本和替代回退决策系统的期望质量等等。[0085]步骤SlO,S20,S30,S50,S52,S60和S70优选地由存储第一组观测的服务器执行。典型地在连接到服务器的客户端上执行步骤S40。服务器和客户端两者都可以是如参考图4所表示的系统。应当理解:可设想其它实现方式。例如,可在客户端侧而不是服务器侧上执行步骤S50和S52。在另一个替代方案中,可在客户端上执行比较。

权利要求:1.一种用于评估由机器学习系统预测的结果的潜在偏差的计算机实现的方法,包括:-在第一组观测上训练SlO模型,每个观测与目标值相关联;-生成第二组观测;-将训练的模型应用(S20于所述第二组,从而获得与所述第二组中的每个观测相关联的目标值;-将所述第一组观测和所述第二组观测及其相关联的目标值索引(S30到索引中;-接收S40第一查询,所述第一查询允许对所述第一组观测和所述第二组观测的子集的选择;-生成S50第二查询,所述第二查询包括所述第一查询和仅仅返回所述第一组中的一个或多个观测的附加约束;-生成(S52第三查询,所述第三查询包括所述第一查询和仅仅返回所述第二组中的一个或多个观测的附加约束;-使用所述第二查询和所述第三查询来查询所述索引;以及-返回(S60对所述第二查询和所述第三查询的响应。2.根据权利要求1所述的计算机实现的方法,其中所述第一组观测中的每个观测与一个或多个变量相关联,每个变量与值相关联。3.根据权利要求2所述的计算机实现的方法,进一步包括:在所述第一组观测上训练模型的步骤之前:-在连续段上或在离散集上定义所述第一组的一个或多个变量。4.根据权利要求3所述的计算机实现的方法,其中所述第二组观测的随机生成包括:-在所述第一组的每个变量上关联概率分布。5.根据权利要求4所述的计算机实现的方法,其中所述概率分布是根据所述第一组的所述每个变量来确定的。6.根据权利要求3至5中的一项所述的计算机实现的方法,其中所述概率分布函数是均匀概率分布。7.根据权利要求3至6中的一项所述的计算机实现的方法,进一步包括:-通过使用至少一个随机变量生成器,跨所述连续段或在离散集上生成值;-计算从所述至少一个随机变量生成器获得的所述值的组合。8.根据权利要求7所述的计算机实现的方法,进一步包括:-确定变量之间的依赖性;-在所计算的组合之中移除不满足所确定的依赖性的组合。9.根据权利要求7或8所述的计算机实现的方法,其中计算随机变量的组合包括计算所述随机变量的所有组合。10.根据权利要求1至9中的一项所述的计算机实现的方法,其中所述第一组观测被存储在第一矩阵上,并且所述第二组观测被存储在第二矩阵上。11.根据权利要求1至10中的一项所述的计算机实现的方法,其中所述第二组观测被标记为被随机生成的。12.根据权利要求11所述的计算机实现的方法,其中,在索引的步骤中,所索引的第二组观测与指示所述第二组观测已被随机生成的元数据相关联。13.根据权利要求1至12中的一项所述的计算机实现的方法,进一步包括,在返回的步骤之前:-比较所述第二查询和所述第三查询的结果。14.一种计算机程序,包括用于执行根据权利要求1至13中任一项所述的方法的指令。15.—种系统,包括耦合到存储器的处理器,所述存储器在其上记录有权利要求14所述的计算机程序。

百度查询: 达索系统公司 训练集的评估

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。