高级搜索

一种车载服务的快速深度Q学习网络边云迁移策略

彭军 王成龙 蒋富 顾欣 牟玥玥 刘伟荣

引用本文: 彭军, 王成龙, 蒋富, 顾欣, 牟玥玥, 刘伟荣. 一种车载服务的快速深度Q学习网络边云迁移策略[J]. 电子与信息学报, 2020, 42(1): 58-64. doi: 10.11999/JEIT190612 shu
Citation:  Jun PENG, Chenglong WANG, Fu JIANG, Xin GU, Yueyue MU, Weirong LIU. A Fast Deep Q-learning Network Edge Cloud Migration Strategy for Vehicular Service[J]. Journal of Electronics and Information Technology, 2020, 42(1): 58-64. doi: 10.11999/JEIT190612 shu

一种车载服务的快速深度Q学习网络边云迁移策略

    作者简介: 彭军: 女,1967年生,教授,研究方向为智能交通网络通信与安全控制、移动云服务、机器学习、智慧新能源管理;
    王成龙: 男,1996年生,博士生,研究方向为车联网、智能交通网络通信、机器学习;
    蒋富: 男,1983年生,副教授,研究方向为无线通信与移动网络、绿色认知无线传感器网络、协同通信、网络空间安全;
    顾欣: 女,1993年生,博士生,研究方向为无线网络优化、车联网通信技术;
    牟玥玥: 女,1996年生,硕士生,研究方向为图像处理、无线通信;
    刘伟荣: 男,1976年生,教授,研究方向为物联网、协同通信、CPS系统、云机器人情景感知
    通讯作者: 蒋富,jiangfu0912@csu.edu.cn
  • 基金项目: 国家自然科学基金(61873353, 61672539)

摘要: 智能网联交通系统中车载用户的高速移动,不可避免地造成了数据在边缘服务器之间频繁迁移,产生了额外的通信回传时延,对边缘服务器的实时计算服务带来了巨大的挑战。为此,该文提出一种基于车辆运动轨迹的快速深度Q学习网络(DQN-TP)边云迁移策略,实现数据迁移的离线评估和在线决策。车载决策神经网络实时获取接入的边缘服务器网络状态和通信回传时延,根据车辆的运动轨迹进行虚拟机或任务迁移的决策,同时将实时的决策信息和获取的边缘服务器网络状态信息发送到云端的经验回放池中;评估神经网络在云端读取经验回放池中的相关信息进行网络参数的优化训练,定时更新车载决策神经网络的权值,实现在线决策的优化。最后仿真验证了所提算法与虚拟机迁移算法和任务迁移算法相比能有效地降低时延。

English

    1. [1]

      ZHU Li, YU F R, WANG Yige, et al. Big data analytics in intelligent transportation systems: A survey[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(1): 383–398. doi: 10.1109/TITS.2018.2815678

    2. [2]

      D’OREY P M and FERREIRA M. ITS for sustainable mobility: A survey on applications and impact assessment tools[J]. IEEE Transactions on Intelligent Transportation Systems, 2014, 15(2): 477–493. doi: 10.1109/TITS.2013.2287257

    3. [3]

      彭军, 马东, 刘凯阳, 等. 基于LTE D2D技术的车联网通信架构与数据分发策略研究[J]. 通信学报, 2016, 37(7): 62–70. doi: 10.11959/j.issn.1000-436x.2016134
      PENG Jun, MA Dong, LIU Kaiyang, et al. LTE D2D based vehicle networking communication architecture and data distributing strategy[J]. Journal on Communications, 2016, 37(7): 62–70. doi: 10.11959/j.issn.1000-436x.2016134

    4. [4]

      GAO Kai, HAN Farong, DONG Pingping, et al. Connected vehicle as a mobile sensor for real time queue length at signalized intersections[J]. Sensors, 2019, 19(9): 2059. doi: 10.3390/s19092059

    5. [5]

      KONG Yue, ZHANG Yikun, WANG Yichuan, et al. Energy saving strategy for task migration based on genetic algorithm[C]. 2018 International Conference on Networking and Network Applications, Xi’an, China, 2018: 330–336.

    6. [6]

      CHEN Xianfu, ZHANG Honggang, WU C, et al. Optimized computation offloading performance in virtual edge computing systems via deep reinforcement learning[J]. IEEE Internet of Things Journal, 2019, 6(3): 4005–4018. doi: 10.1109/JIOT.2018.2876279

    7. [7]

      SAHA S and HASAN M S. Effective task migration to reduce execution time in mobile cloud computing[C]. The 23rd International Conference on Automation and Computing, Huddersfield, UK, 2017: 1–5.

    8. [8]

      GONÇALVES D, VELASQUEZ K, CURADO M, et al. Proactive virtual machine migration in fog environments[C]. 2018 IEEE Symposium on Computers and Communications, Natal, Brazil, 2018: 742–745.

    9. [9]

      KIKUCHI J, WU C, JI Yusheng, et al. Mobile edge computing based VM migration for QoS improvement[C]. The 6th IEEE Global Conference on Consumer Electronics, Nagoya, Japan, 2017: 1–5.

    10. [10]

      CHOWDHURY M, STEINBACH E, KELLERER W, et al. Context-Aware task migration for HART-Centric collaboration over FiWi based tactile internet infrastructures[J]. IEEE Transactions on Parallel and Distributed Systems, 2018, 29(6): 1231–1246. doi: 10.1109/TPDS.2018.2791406

    11. [11]

      LU Wei, MENG Xianyu, and GUO Guanfei. Fast service migration method based on virtual machine technology for MEC[J]. IEEE Internet of Things Journal, 2019, 6(3): 4344–4354. doi: 10.1109/JIOT.2018.2884519

    12. [12]

      WANG Yanting, SHENG Min, WANG Xijun, et al. Mobile-edge computing: Partial computation offloading using dynamic voltage scaling[J]. IEEE Transactions on Communications, 2016, 64(10): 4268–4282. doi: 10.1109/TCOMM.2016.2599530

    13. [13]

      SUTTON R S and BARTO A G. Reinforcement Learning: An Introduction[M]. Cambridge: MIT Press, 1998: 25–42.

    14. [14]

      SNIA trace data[EB/OL]. http://iotta.snia.org/traces, 2018.

    1. [1]

      张海波, 程妍, 刘开健, 贺晓帆. 车联网中整合移动边缘计算与内容分发网络的移动性管理策略. 电子与信息学报, 2020, 42(6): 1444-1451.

    2. [2]

      唐伦, 曹睿, 廖皓, 王兆堃. 基于深度强化学习的服务功能链可靠部署算法. 电子与信息学报, 2020, 42(0): 1-8.

    3. [3]

      陈前斌, 管令进, 李子煜, 王兆堃, 杨恒, 唐伦. 基于深度强化学习的异构云无线接入网自适应无线资源分配算法. 电子与信息学报, 2020, 42(6): 1468-1477.

    4. [4]

      周牧, 李垚鲆, 谢良波, 蒲巧林, 田增山. 基于多核最大均值差异迁移学习的WLAN室内入侵检测方法. 电子与信息学报, 2020, 42(5): 1149-1157.

    5. [5]

      蒋瀚, 刘怡然, 宋祥福, 王皓, 郑志华, 徐秋亮. 隐私保护机器学习的密码学方法. 电子与信息学报, 2020, 42(5): 1068-1078.

    6. [6]

      刘坤, 吴建新, 甄杰, 王彤. 基于阵列天线和稀疏贝叶斯学习的室内定位方法. 电子与信息学报, 2020, 42(5): 1158-1164.

    7. [7]

      李骜, 刘鑫, 陈德运, 张英涛, 孙广路. 基于低秩表示的鲁棒判别特征子空间学习模型. 电子与信息学报, 2020, 42(5): 1223-1230.

    8. [8]

      王一宾, 裴根生, 程玉胜. 基于标记密度分类间隔面的组类属属性学习. 电子与信息学报, 2020, 42(5): 1179-1187.

    9. [9]

      张惊雷, 厚雅伟. 基于改进循环生成式对抗网络的图像风格迁移. 电子与信息学报, 2020, 42(5): 1216-1222.

    10. [10]

      晋守博, 魏章志, 李耀红. 基于大通讯时滞的2阶多智能体系统的一致性分析. 电子与信息学报, 2020, 42(0): 1-6.

    11. [11]

      王威丽, 陈前斌, 唐伦. 虚拟网络切片中的在线异常检测算法研究. 电子与信息学报, 2020, 42(6): 1460-1467.

    12. [12]

      刘焕淋, 杜理想, 陈勇, 王展鹏. 基于灾难预测多区域故障的虚拟光网络生存性映射. 电子与信息学报, 2020, 42(7): 1710-1717.

    13. [13]

      游凌, 李伟浩, 张文林, 王科人. 基于深度神经网络的Morse码自动译码算法. 电子与信息学报, 2020, 41(0): 1-6.

    14. [14]

      申铉京, 沈哲, 黄永平, 王玉. 基于非局部操作的深度卷积神经网络车位占用检测算法. 电子与信息学报, 2020, 41(0): 1-8.

    15. [15]

      归伟夏, 陆倩, 苏美力. 关于系统级故障诊断的烟花-反向传播神经网络算法. 电子与信息学报, 2020, 42(5): 1102-1109.

    16. [16]

      张文明, 姚振飞, 高雅昆, 李海滨. 一种平衡准确性以及高效性的显著性目标检测深度卷积网络模型. 电子与信息学报, 2020, 42(5): 1201-1208.

    17. [17]

      陈家祯, 吴为民, 郑子华, 叶锋, 连桂仁, 许力. 基于虚拟光学的视觉显著目标可控放大重建. 电子与信息学报, 2020, 42(5): 1209-1215.

    18. [18]

      唐伦, 肖娇, 魏延南, 赵国繁, 陈前斌. 基于云雾混合计算的车联网联合资源分配算法. 电子与信息学报, 2020, 42(0): 1-8.

    19. [19]

      卢丹, 白天霖. 利用信号重构的全球导航卫星系统欺骗干扰抑制方法. 电子与信息学报, 2020, 42(5): 1268-1273.

    20. [20]

      高东, 梁子林. 基于能量效率的双层非正交多址系统资源优化算法. 电子与信息学报, 2020, 42(5): 1237-1243.

  • 图 1  智能网联交通系统结构示意图

    图 2  DQN-TP的收敛性

    图 3  DQN-TP算法与其他迁移算法性能分析

    表 1  变量表

    变量名变量符号
    决策周期长度$\sigma $
    决策周期$t$
    边缘服务器数量$i$
    车载用户位置${\nu _t}$
    边缘服务器位置${\mu _m}$
    路径损失参数$\delta $
    路旁单元覆盖半径$r$
    任务大小${q_{\rm s}}$
    任务最大容忍时延${q_{\rm d}}$
    传输功率${P_{\rm s}}$
    时延$T$
    虚拟机所在位置${ D}$
    下载: 导出CSV

    表 2  DQN-TP算法

     算法1: DQN-TP算法
     (1) Repeat:
     (2)  车载用户上传车载决策神经网络的经验$({X_t},{a_t},{U_t},{X_{t + 1}})$到经验回放池;
     (3)  While $t \ne $最后一个周期do
     (4)    从经验回放池中随机抽取$n$个经验作为一个mini-batch;
     (5)    将${X_t},{a_t}$作为评估神经网络的输入获得${Q_{\pi} }({X_t},{a_t};\theta )$,将${X_{t + 1}}$作为决策神经网络的输入获得${Q_{\pi } }({X_{t + 1} },{a_{t + 1} };{\theta ^-})$;
     (6)    根据式(13)、式(14)训练神经网络;
     (7)  End While
     (8)  每训练$c$次将云端的神经网络参数更新给车载神经网络$\theta \to {\theta ^{^\_}}$;
     (9)  车载用户使用$\varepsilon {\rm{ - }}$贪婪算法选择动作-状态值函数最高的动作作为车载用户动作执行;
     (10) End
    下载: 导出CSV

    表 3  仿真参数设定

    参数名参数符号参数值
    决策周期$\sigma $10–3 s
    边缘服务器数量$i$10
    路径损失参数$\delta $1.5
    带宽$W$4 MHz
    路旁单元覆盖半径$r$500 m
    效用函数参数$k$1.3
    效用函数参数$b$0.1
    记忆回放池最大存储数$o$3000
    Mini-batch大小$n$500
    参数更新间隔步长$c$80
    神经网络层数4
    神经元总数100
    下载: 导出CSV
  • 加载中
图(3)表(3)
计量
  • PDF下载量:  31
  • 文章访问数:  822
  • HTML全文浏览量:  302
文章相关
  • 通讯作者:  蒋富, jiangfu0912@csu.edu.cn
  • 收稿日期:  2019-08-12
  • 录用日期:  2019-11-04
  • 网络出版日期:  2019-11-12
  • 刊出日期:  2020-01-01
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

/

返回文章