高级搜索

基于深度强化学习的异构云无线接入网自适应无线资源分配算法

陈前斌 管令进 李子煜 王兆堃 杨恒 唐伦

引用本文: 陈前斌, 管令进, 李子煜, 王兆堃, 杨恒, 唐伦. 基于深度强化学习的异构云无线接入网自适应无线资源分配算法[J]. 电子与信息学报, 2020, 42(6): 1468-1477. doi: 10.11999/JEIT190511 shu
Citation:  Qianbin CHEN, Lingjin GUANG, Ziyu LI, Zhaokun WANG, Heng YANG, Lun TANG. Deep Reinforcement Learning-based Adaptive Wireless Resource Allocation Algorithm for Heterogeneous Cloud Wireless Access Network[J]. Journal of Electronics and Information Technology, 2020, 42(6): 1468-1477. doi: 10.11999/JEIT190511 shu

基于深度强化学习的异构云无线接入网自适应无线资源分配算法

    作者简介: 陈前斌: 男,1967年生,教授,博士生导师,研究方向为个人通信、多媒体信息处理与传输、下一代移动通信网络等;
    管令进: 男,1995年生,硕士生,研究方向为网络功能虚拟化、无线资源分配、机器学习;
    李子煜: 女,1995年生,硕士生,研究方向为资源分配、机器学习;
    王兆堃: 男,1995年生,硕士生,研究方向为5G网络故障检测、自愈合、机器学习;
    杨恒: 男,1993年生,硕士生,研究方向为网络切片及虚拟网络资源分配;
    唐伦: 男,1973年生,教授,博士生导师,研究方向为新一代无线通信网络、异构蜂窝网络、软件定义无线网络等
    通讯作者: 管令进,1633634329@qq.com
  • 基金项目: 国家自然科学基金(6157073),重庆市教委科学技术研究项目(KJZD-M201800601)

摘要: 为了满足无线数据流量大幅增长的需求,异构云无线接入网(H-CRAN)的资源优化仍然是亟待解决的重要问题。该文在H-CRAN下行链路场景下,提出一种基于深度强化学习(DRL)的无线资源分配算法。首先,该算法以队列稳定为约束,联合优化拥塞控制、用户关联、子载波分配和功率分配,并建立网络总吞吐量最大化的随机优化模型。其次,考虑到调度问题的复杂性,DRL算法利用神经网络作为非线性近似函数,高效地解决维度灾问题。最后,针对无线网络环境的复杂性和动态多变性,引入迁移学习(TL)算法,利用TL的小样本学习特性,使得DRL算法在少量样本的情况下也能获得最优的资源分配策略。此外,TL通过迁移DRL模型的权重参数,进一步地加快了DRL算法的收敛速度。仿真结果表明,该文所提算法可以有效地增加网络吞吐量,提高网络的稳定性。

English

    1. [1]

      MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529–533. doi: 10.1038/nature14236

    2. [2]

      SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484–489. doi: 10.1038/nature16961

    3. [3]

      ZHANG Haijun, LIU Hao, CHENG Julian, et al. Downlink energy efficiency of power allocation and wireless backhaul bandwidth allocation in heterogeneous small cell networks[J]. IEEE Transactions on Communications, 2018, 66(4): 1705–1716. doi: 10.1109/TCOMM.2017.2763623

    4. [4]

      ZHANG Yuan, WANG Ying, and ZHANG Weidong. Energy efficient resource allocation for heterogeneous cloud radio access networks with user cooperation and QoS guarantees[C]. 2016 IEEE Wireless Communications and Networking Conference, Doha, Qatar, 2016: 1–6. doi: 10.1109/WCNC.2016.7565103.

    5. [5]

      HE Ying, ZHANG Zheng, YU F R, et al. Deep-reinforcement-learning-based optimization for cache-enabled opportunistic interference alignment wireless networks[J]. IEEE Transactions on Vehicular Technology, 2017, 66(11): 10433–10445. doi: 10.1109/TVT.2017.2751641

    6. [6]

      唐伦, 魏延南, 马润琳, 等. 虚拟化云无线接入网络下基于在线学习的网络切片虚拟资源分配算法[J]. 电子与信息学报, 2019, 41(7): 1533–1539. doi: 10.11999/JEIT180771
      TANG Lun, WEI Yannan, MA Runlin, et al. Online learning-based virtual resource allocation for network slicing in virtualized cloud radio access network[J]. Journal of Electronics &Information Technology, 2019, 41(7): 1533–1539. doi: 10.11999/JEIT180771

    7. [7]

      LI Jian, PENG Mugen, YU Yuling, et al. Energy-efficient joint congestion control and resource optimization in heterogeneous cloud radio access networks[J]. IEEE Transactions on Vehicular Technology, 2016, 65(12): 9873–9887. doi: 10.1109/TVT.2016.2531184

    8. [8]

      NEELY M J. Stochastic network optimization with application to communication and queueing systems[J]. Synthesis Lectures on Communication Networks, 2010, 3(1): 1–211. doi: 10.2200/S00271ED1V01Y201006CNT007

    9. [9]

      KUMAR N, SWAIN S N, and MURTHY C S R. A novel distributed Q-learning based resource reservation framework for facilitating D2D content access requests in LTE-A networks[J]. IEEE Transactions on Network and Service Management, 2018, 15(2): 718–731. doi: 10.1109/TNSM.2018.2807594

    10. [10]

      SAAD H, MOHAMED A, and ELBATT T. A cooperative Q-learning approach for distributed resource allocation in multi-user femtocell networks[C]. 2014 IEEE Wireless Communications and Networking Conference, Istanbul, Turkey, 2014: 1490–1495. doi: 10.1109/WCNC.2014.6952410.

    11. [11]

      PAN S J and YANG Qiang. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345–1359. doi: 10.1109/TKDE.2009.191

    12. [12]

      SUN Yaohua, PENG Mugen, and MAO Shiwen. Deep reinforcement learning-based mode selection and resource management for green fog radio access networks[J]. IEEE Internet of Things Journal, 2019, 6(2): 1960–1971. doi: 10.1109/JIOT.2018.2871020

    13. [13]

      PAN Jie, WANG Xuesong, CHENG Yuhu, et al. Multisource transfer double DQN based on actor learning[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(6): 2227–2238. doi: 10.1109/TNNLS.2018.2806087

    14. [14]

      ALQERM I and SHIHADA B. Sophisticated online learning scheme for green resource allocation in 5G heterogeneous cloud radio access networks[J]. IEEE Transactions on Mobile Computing, 2018, 17(10): 2423–2437. doi: 10.1109/TMC.2018.2797166

    15. [15]

      LI Yan, LIU Lingjia, LI Hongxiang, et al. Resource allocation for delay-sensitive traffic over LTE-Advanced relay networks[J]. IEEE Transactions on Wireless Communications, 2015, 14(8): 4291–4303. doi: 10.1109/TWC.2015.2418991

    1. [1]

      陈前斌, 谭颀, 魏延南, 贺兰钦, 唐伦. 异构云无线接入网架构下面向混合能源供应的动态资源分配及能源管理算法. 电子与信息学报, 2020, 42(6): 1428-1435.

    2. [2]

      陈卓, 冯钢, 何颖, 周杨. 运营商网络中基于深度强化学习的服务功能链迁移机制. 电子与信息学报, 2020, 42(0): 1-7.

    3. [3]

      唐伦, 魏延南, 谭颀, 唐睿, 陈前斌. H-CRAN网络下联合拥塞控制和资源分配的网络切片动态资源调度策略. 电子与信息学报, 2020, 42(5): 1244-1252.

    4. [4]

      唐伦, 曹睿, 廖皓, 王兆堃. 基于深度强化学习的服务功能链可靠部署算法. 电子与信息学报, 2020, 42(0): 1-8.

    5. [5]

      周牧, 李垚鲆, 谢良波, 蒲巧林, 田增山. 基于多核最大均值差异迁移学习的WLAN室内入侵检测方法. 电子与信息学报, 2020, 42(5): 1149-1157.

    6. [6]

      邵鸿翔, 孙有铭, 蔡佶昊. 面向用户体验的多小区混合非正交多址接入网络资源分配方法. 电子与信息学报, 2020, 42(0): 1-8.

    7. [7]

      唐伦, 肖娇, 魏延南, 赵国繁, 陈前斌. 基于云雾混合计算的车联网联合资源分配算法. 电子与信息学报, 2020, 42(0): 1-8.

    8. [8]

      高东, 梁子林. 基于能量效率的双层非正交多址系统资源优化算法. 电子与信息学报, 2020, 42(5): 1237-1243.

    9. [9]

      曾菊玲, 张春雷, 蒋砺思, 夏凌. 基于信道定价的无线虚拟网络资源分配策略:匹配/Stackelberg分层博弈. 电子与信息学报, 2020, 41(0): 0-7.

    10. [10]

      刘焕淋, 杜理想, 陈勇, 胡会霞. 串扰感知的空分弹性光网络频谱转换器稀疏配置和资源分配方法. 电子与信息学报, 2020, 42(7): 1718-1725.

    11. [11]

      付晓薇, 杨雪飞, 陈芳, 李曦. 一种基于深度学习的自适应医学超声图像去斑方法. 电子与信息学报, 2020, 42(7): 1782-1789.

    12. [12]

      陈怡, 唐迪, 邹维. 基于深度学习的Android恶意软件检测:成果与挑战. 电子与信息学报, 2020, 42(0): 1-13.

    13. [13]

      方维维, 刘梦然, 王云鹏, 李阳阳, 安竹林. 面向物联网隐私数据分析的分布式弹性网络回归学习算法. 电子与信息学报, 2020, 42(0): 1-9.

    14. [14]

      张惊雷, 厚雅伟. 基于改进循环生成式对抗网络的图像风格迁移. 电子与信息学报, 2020, 42(5): 1216-1222.

    15. [15]

      蒋瀚, 刘怡然, 宋祥福, 王皓, 郑志华, 徐秋亮. 隐私保护机器学习的密码学方法. 电子与信息学报, 2020, 42(5): 1068-1078.

    16. [16]

      刘坤, 吴建新, 甄杰, 王彤. 基于阵列天线和稀疏贝叶斯学习的室内定位方法. 电子与信息学报, 2020, 42(5): 1158-1164.

    17. [17]

      李骜, 刘鑫, 陈德运, 张英涛, 孙广路. 基于低秩表示的鲁棒判别特征子空间学习模型. 电子与信息学报, 2020, 42(5): 1223-1230.

    18. [18]

      王一宾, 裴根生, 程玉胜. 基于标记密度分类间隔面的组类属属性学习. 电子与信息学报, 2020, 42(5): 1179-1187.

    19. [19]

      夏平凡, 倪志伟, 朱旭辉, 倪丽萍. 基于双错测度的极限学习机选择性集成方法. 电子与信息学报, 2020, 42(0): 1-9.

    20. [20]

      刘彬, 杨有恒, 赵志彪, 吴超, 刘浩然, 闻岩. 一种基于正则优化的批次继承极限学习机算法. 电子与信息学报, 2020, 42(7): 1734-1742.

  • 图 1  H-CRAN下行传输场景

    图 2  系统架构

    图 3  DQN算法框图

    图 4  迁移学习场景图

    图 5  DQN中不同优化器下的网络总吞吐量

    图 6  不同到达率下的平均队列长度

    图 7  网络用户数的总吞吐量

    图 8  网络的平均队列时延

    图 9  迁移学习下的平均队列长度

    图 10  迁移学习下的损失函数

    表 1  算法1

     算法1:DQN训练估值网络参数算法
     (1) 初始化经验回放池
     (2) 随机初始化估值网络中的参数$w$,初始化目标网络中的参数
       ${w^ - }$,权重为${w^ - } = w$
     (3) For episode $k = 0,1, ···,K - 1$ do
     (4)  随机初始化一个状态${s_0}$
     (5)  For $t = 0,1, ···, T - 1$ do
     (6)    随机选择一个概率$p$
     (7)    if $p \le \varepsilon $ 资源管理器随机选择一个动作$a(t)$
     (8)    else 资源管理器根据估值网络选取动作
         ${a^*}(t) = \arg {\max _a}Q(s,a;w)$
     (9)    执行动作$a(t)$,根据式(9)得到奖励值$r(t)$,并观察下一
         个状态$s(t + 1)$
     (10)   将元组$(s(t),a(t),r(t),s(t + 1))$存储到经验回放池中
     (11)   从经验回放池中随机抽取选取一组样本
          $(s(t),a(t),r(t),s(t + 1))$
     (12)   通过估值网络和目标网络的输出损失函数,利用式(13),
          (14)计算1, 2阶矩
     (13)   Adam算法通过式(15),式(16)计算1阶矩和2阶矩的偏差
          修正项
     (14)   通过神经网络的反向传播算法,利用式(17)来更新估值
          网络的权重参数$w$
     (15)   每隔$\delta $将估值网络中的参数$w$复制给参数${w^ - }$
     (16) End for
     (17) End for
     (18) 获得DQN网络的最优权重参数$w$
    下载: 导出CSV

    表 2  算法2

     算法2:基于TLDQN的策略知识迁移算法
     (1) 初始化:
     (2)   源基站的DQN参数$w$,策略网络温度参数$T$,目标网络
         的DQN参数$w'$
     (3) For 对于每个状态$s \in {{S}}$,源基站的动作$\overline a $,目标基站可能采
       取的动作$a$ do
     (4)   执行算法1,得到估值网络的参数$w$,以及输出层对应的
         $Q$值函数
     (5)   根据式(18)将源基站上的$Q$值函数转化为策略网络
         ${ {\pi} _i}(\overline a \left| s \right.)$
     (6)   根据式(19)将目标基站上的$Q$值函数转化为策略网络
         ${ {\pi} _{\rm{TG} } }(a\left| s \right.)$
     (7)   利用式(20)构建策略模仿损失的交叉熵$H(w)$
     (8)   根据式(21)进行交叉熵的迭代更新,再进行策略模仿的偏
         导数的计算。
     (9)   直至目标基站选取出的策略达到
         ${Q_{\rm{TG}}}(s,a) \to {Q^*}_{\rm{TG}}(s,a)$
     (10) End for
     (11) 目标基站获得对应的网络参数$w'$
     (12) 执行算法1,目标基站得到最优资源分配策略
    下载: 导出CSV
  • 加载中
图(10)表(2)
计量
  • PDF下载量:  56
  • 文章访问数:  416
  • HTML全文浏览量:  1478
文章相关
  • 通讯作者:  管令进, 1633634329@qq.com
  • 收稿日期:  2019-07-08
  • 录用日期:  2020-03-09
  • 网络出版日期:  2020-04-15
  • 刊出日期:  2020-06-01
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

/

返回文章