买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于机器故障和文本主题分析的城轨折返故障诊断方法_北京交通大学_202110340750.3 

申请/专利权人:北京交通大学

申请日:2021-03-30

公开(公告)日:2024-02-09

公开(公告)号:CN112884179B

主分类号:G06Q10/20

分类号:G06Q10/20;G06Q50/40;G06F18/241;G06F18/214;G06F40/289;G06F40/216;G06F16/26;G06F16/215

优先权:

专利状态码:有效-授权

法律状态:2024.02.09#授权;2021.06.18#实质审查的生效;2021.06.01#公开

摘要:本发明提供了一种基于机器故障和文本主题分析的城轨折返故障诊断方法,步骤1,获取各个城轨的通信码和工程师的维修报告并构建数据库;步骤2,对数据库中各个城轨的通信码通过基于Spark的频繁项集生成算法挖掘频繁出现在各个城轨通信码中的特征组合并分析,得到故障发生的规则。本发明采用频繁项集生成算法挖掘数据集中频繁出现特征组合,对挖掘出的频繁特征进行分析得到故障发生的规则,并在挖掘出的频繁项集的基础上进行特征交叉,训练分类算法,以分别在无人自动折返,自动换端和点式换端中发生故障时进行自动分类,通过故障规则和算法结合,更好的了解列车发生折返故障时内、外部的特征,从而加快对故障的处理。

主权项:1.一种基于机器故障和文本主题分析的城轨折返故障诊断方法,其特征在于,包括:步骤1,获取各个城轨的通信码和工程师的维修报告并构建数据库;步骤2,对数据库中各个城轨的通信码通过基于Spark的频繁项集生成算法挖掘频繁出现在各个城轨通信码中的特征组合并分析,得到故障发生的规则,通过笛卡尔积算法将各个城轨通信码中单独的离散特征进行特征交叉,通过所有通信码的特征训练梯度提升决策树算法,以分别在城轨无人自动折返、自动换端和点式换端中发生故障时进行自动分类,并分别计算各个类别预测的F1-Score并分析,得到机器诊断结果;步骤3,对数据库中各个城轨的维修报告中的数据进行中文文本清洗;步骤4,对文本清洗后的各个城轨的维修报告进行主题分析,并计算维修报告文本的主题概率分布,得到人工检测的判断规则;步骤5,根据机器诊断结果和人工检测的判断规则进行城轨折返故障诊断;其中,所述对数据库中各个城轨的通信码通过基于Spark的频繁项集生成算法挖掘频繁出现在各个城轨通信码中的特征组合并分析,得到故障发生的规则步骤具体包括:通过基于Spark的频繁项集生成算法对所有城轨通信码中的特征进行扫描和计数,将一个特征作为一个项集,生成一阶候选项集,预设最小频繁项集生成支持度,将一阶候选项集中的每个项集的计数值与预设的最小频繁项集生成支持度进行比较,当当前项集的计数值大于或等于预设的最小频繁项集生成支持度时,将当前项集和当前项集的计数值保存,继续将下一个项集的计数值与预设的最小频繁项集生成支持度进行判断;当当前判断的项集的计数值小于预设的最小频繁项集生成支持度时,将当前项集和当前项集的计数值删除,继续将下一个项集的计数值与预设的最小频繁项集生成支持度进行判断,直到判断完一阶候选项集中的所有项集,基于所有保存的项集和项集相对应的计数值,生成频繁项集;将当前频繁项集中的两个相关特征组合为一个项集并计数,生成二阶候选项集,将二阶候选项集中的每个项集的计数值与预设的最小频繁项集生成支持度进行比较,得到比较后保存的项集和项集的计数值,基于保存的项集和项集的计数值生成新的频繁项集;将新的频繁项集中的三个相关特征组合为一个项集并计数,生成三阶候选项集,将以上过程进行循环迭代,直到没有频繁项集生成时,结束算法,获得所有的频繁项集,对频繁项集进行分析得到故障发生的规则;所述通过笛卡尔积算法将各个城轨通信码中单独的离散特征进行特征交叉步骤具体包括:通过笛卡尔积算法将各个城轨通信码中单独的离散特征进行组合,如下所示:P×Q={x,y|x∈P∧y∈Q}2其中,P和Q表示特征,x表示从属于特征P的类别,y表示从属于特征Q的类别;所述通过所有通信码的特征训练梯度提升决策树算法步骤具体包括:采用梯度提升决策树算法对所有通信码的特征进行分类,如下所示: 其中,Fma表示特征回归问题提升树,a表示特征,Ta;βm表示特征决策树,βm表示特征类别,m表示特征类别的编号,M表示所有特征决策树的总个数,其损失为:L[b,Fm-1a+Ta;βm]=[b-Fm-1a-Ta;βm]24其中,将所有通信码的特征作为训练集I,I={a1,b1,a2,b2,...,an,bn},b表示特征,Fm-1a表示当前特征回归问题提升树;所述对文本清洗后的各个城轨的维修报告进行主题分析,并计算维修报告文本的主题概率分布,得到人工检测的判断规则步骤具体包括:采用LDA文档主题生成模型对文本清洗后的各个维修报告进行主题分析,将文档的集合定义为C,将文档的集合C中的每个文档c作为单词序列<c1,c2,…,cn>,将文档中主题集合定义为D,确定生成的文档词的个数n~Possionα,确定文档c的主题分布θ~Dirichletβ,文档c的概率分布函数,如下所示: 其中,θ表示一篇文章的主题分布,β表示Dirichlet的参数,q表示各个维修报告中全部文档要训练出的主题序号,p表示Dirichlet分布标号顺序,βp表示第p个参数为β的Dirichlet分布;在生成文档中的字段ci时,为字段ci选择一个主题Di~Multinomialθ,多项分布为二维分布扩展的离散分布与Dirichlet组成共轭分布,如下所示: 其中,n表示一篇文档中词的个数,q表示各个维修报告中全部文档所要训练出的主题序号,Q表示语料库中全部文档所要训练出的主题总数;以PcnDn,μ的概率生成字段,其中,μ表示每一行代表该主题的词分布的矩阵。

全文数据:

权利要求:

百度查询: 北京交通大学 基于机器故障和文本主题分析的城轨折返故障诊断方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。