买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种列车运行控制系统的数据通信系统及方法_成都工业学院_202410000926.4 

申请/专利权人:成都工业学院

申请日:2024-01-02

公开(公告)日:2024-04-02

公开(公告)号:CN117485410B

主分类号:B61L27/70

分类号:B61L27/70;B61L27/20;B61L25/02;H04W4/42;H04W4/44;H04W48/20;G06V20/58;G06V20/70;G06V10/25;G06V10/82;G06N3/045;G06N3/0464;G06N3/084;G06N3/092

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2024.02.23#实质审查的生效;2024.02.02#公开

摘要:本发明属于列车数据通信技术领域,本发明公开了一种列车运行控制系统的数据通信系统及方法;收集无线接入点历史连接数据;构建连接四元组集合;利用连接四元组集合训练联合深度强化学习模型;获取列车当前时刻的状态数据;根据所述列车当前时刻的状态数据构建状态特征向量;利用策略网络根据状态特征向量实时预测选择动作数据;将列车应用所述实时预测选择动作数据,使用价值网络评估当前选择动作数据的价值;预设策略价值阈值;若所述价值网络输出的当前时刻的价值低于策略价值阈值,则触发策略网络重新预测实时选择动作数据,当前时刻的价值大于或等于策略价值阈值停止预测实时选择动作数据。

主权项:1.一种列车运行控制系统的数据通信方法,其特征在于,包括:S1、收集无线接入点历史连接数据;根据所述无线接入点历史连接数据构建连接四元组集合;S2、利用连接四元组集合训练联合深度强化学习模型,联合深度强化学习模型包括策略网络和价值网络;S3、获取列车当前时刻的状态数据;根据所述列车当前时刻的状态数据构建状态特征向量;利用策略网络根据状态特征向量实时预测选择动作数据;S4、将列车应用所述实时预测选择动作数据,并使用价值网络评估当前选择动作数据在当前时刻的价值;S5、预设策略价值阈值;若所述价值网络输出的当前时刻的价值低于策略价值阈值,则触发策略网络重新预测实时选择动作数据,直至当前时刻的价值大于或等于策略价值阈值后停止重新预测实时选择动作数据;根据所述列车当前时刻的状态数据构建状态特征向量;利用策略网络根据状态特征向量实时预测选择动作数据的方式包括:从无线接入点历史连接数据ci中提取初始状态si、选择动作数据ai、多维奖励数据ri和结果状态数据s'i;构建连接四元组集合〔si,ai,ri,s'i〕;S201、使用卷积神经网络或者全连接网络作为基础框架;构建包括策略网络π和价值网络u的联合深度强化学习模型;初始化策略网络π的网络参数θπ;初始化价值网络u的网络参数θu;S202、将连接四元组集合分出b个批次;其中b为大于等于1的整数;随机采样一个批次作为输入样本;将输入样本中的初始状态si输入策略网络π,根据当前参数θπ生成可选动作的概率分布πai|si;θπ;从πai|si;θπ中采样一个动作â,作为当前预测的选择动作数据;S203、计算当前样本的优势函数A=ri+γ×us'i;θu-usi;θu;即为策略的价值;其中,usi;θu表示在连接前状态si下,根据当前价值网络的参数θu,输出对这个状态价值的估计;us'i;θu表示在连接后的状态s'i下,基于同样的参数θu,输出对这个后续状态的价值估计;γ为预设的折扣因子;使用策略梯度法更新策略网络的参数,策略梯度法更新公式为:下一代θπ=θπ+απ××πai|si;θπA;其中,απ为策略网络的学习率;使用均方误差更新价值网络的参数,均方误差更新公式为:下一代θu=θu-αu×ri+γ×us'i;θu-usi;θu2;其中,αu为价值网络的学习率;表示损失函数或者模型输出相对于模型参数的梯度;S204、重复步骤S203,直到策略网络π和价值网络u均收敛为止;获取最终的联合深度强化学习模型;状态数据包括位置状态数据pt、速度状态数据vt和环境状态数据et;定义初始状态特征向量的维度为x;获取当前时刻t的位置状态数据pt,将位置状态数据pt采用one-hot编码,映射为长度为m1的位置0-1向量;获取当前时刻的速度状态数据vt,将速度状态数据vt进行归一化处理,映射为一个实数;获取当前时刻的环境状态数据et,将环境状态数据et采用one-hot编码,映射为长度为m2的环境0-1向量;构建初始状态特征向量xt=[pt,vt,et],其维度为x=m1+1+m2;将xt输入联合深度强化学习模型;联合深度强化学习模型利用策略网络π,通过卷积层和全连接层的前向计算,输出维度为a的向量πxt;θπ;对πxt;θπ应用softmax函数,获得a个无线接入点的选择概率分布πa|xt;θπ;从πa|xt;θπ中采样1次,获得预测的无线接入点索引ât;根据索引ât,获取当前选择动作数据。

全文数据:

权利要求:

百度查询: 成都工业学院 一种列车运行控制系统的数据通信系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。