高级搜索

基于深度强化学习的异构云无线接入网自适应无线资源分配算法

陈前斌 管令进 李子煜 王兆堃 杨恒 唐伦

引用本文: 陈前斌, 管令进, 李子煜, 王兆堃, 杨恒, 唐伦. 基于深度强化学习的异构云无线接入网自适应无线资源分配算法[J]. 电子与信息学报, doi: 10.11999/JEIT190511 shu
Citation:  Qianbin CHEN, Lingjin GUANG, Ziyu LI, Zhaokun WANG, Heng YANG, Lun TANG. Deep Reinforcement Learning-based Adaptive Wireless Resource Allocation Algorithm for Heterogeneous Cloud Wireless Access Network[J]. Journal of Electronics and Information Technology, doi: 10.11999/JEIT190511 shu

基于深度强化学习的异构云无线接入网自适应无线资源分配算法

    作者简介: 陈前斌: 男,1967年生,教授,博士生导师,研究方向为个人通信、多媒体信息处理与传输、下一代移动通信网络等;
    管令进: 男,1995年生,硕士生,研究方向为网络功能虚拟化、无线资源分配、机器学习;
    李子煜: 女,1995年生,硕士生,研究方向为资源分配、机器学习;
    王兆堃: 男,1995年生,硕士生,研究方向为5G网络故障检测、自愈合、机器学习;
    杨恒: 男,1993年生,硕士生,研究方向为网络切片及虚拟网络资源分配;
    唐伦: 男,1973年生,教授,博士生导师,研究方向为新一代无线通信网络、异构蜂窝网络、软件定义无线网络等
    通讯作者: 管令进,1633634329@qq.com
  • 基金项目: 国家自然科学基金(6157073),重庆市教委科学技术研究项目(KJZD-M201800601)

摘要: 为了满足无线数据流量大幅增长的需求,异构云无线接入网(H-CRAN)的资源优化仍然是亟待解决的重要问题。该文在H-CRAN下行链路场景下,提出一种基于深度强化学习(DRL)的无线资源分配算法。首先,该算法以队列稳定为约束,联合优化拥塞控制、用户关联、子载波分配和功率分配,并建立网络总吞吐量最大化的随机优化模型。其次,考虑到调度问题的复杂性,DRL算法利用神经网络作为非线性近似函数,高效地解决维度灾问题。最后,针对无线网络环境的复杂性和动态多变性,引入迁移学习(TL)算法,利用TL的小样本学习特性,使得DRL算法在少量样本的情况下也能获得最优的资源分配策略。此外,TL通过迁移DRL模型的权重参数,进一步地加快了DRL算法的收敛速度。仿真结果表明,该文所提算法可以有效地增加网络吞吐量,提高网络的稳定性。

English

    1. [1]

      MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529–533. doi: 10.1038/nature14236

    2. [2]

      SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484–489. doi: 10.1038/nature16961

    3. [3]

      ZHANG Haijun, LIU Hao, CHENG Julian, et al. Downlink energy efficiency of power allocation and wireless backhaul bandwidth Allocation in Heterogeneous Small Cell Networks[J]. IEEE Transactions on Communications, 2018, 66(4): 1705–1716. doi: 10.1109/TCOMM.2017.2763623

    4. [4]

      ZHANG Yuan, WANG Ying, and ZHANG Weidong. Energy efficient resource allocation for heterogeneous cloud radio access networks with user cooperation and QoS guarantees[C]. 2016 IEEE Wireless Communications and Networking Conference, Doha, Qatar, 2016: 1–6. doi: 10.1109/WCNC.2016.7565103.

    5. [5]

      HE Ying, ZHANG Zheng, YU F R, et al. Deep-reinforcement-learning-based optimization for cache-enabled opportunistic interference alignment wireless networks[J]. IEEE Transactions on Vehicular Technology, 2017, 66(11): 10433–10445. doi: 10.1109/TVT.2017.2751641

    6. [6]

      唐伦, 魏延南, 马润琳, 等. 虚拟化云无线接入网络下基于在线学习的网络切片虚拟资源分配算法[J]. 电子与信息学报, 2019, 41(7): 1533–1539. doi: 10.11999/JEIT180771
      TANG Lun, WEI Yannan, MA Runlin, et al. Online learning-based virtual resource allocation for network slicing in virtualized cloud radio access network[J]. Journal of Electronics &Information Technology, 2019, 41(7): 1533–1539. doi: 10.11999/JEIT180771

    7. [7]

      LI Jian, PENG Mugen, YU Yuling, et al. Energy-efficient joint congestion control and resource optimization in heterogeneous cloud radio access networks[J]. IEEE Transactions on Vehicular Technology, 2016, 65(12): 9873–9887. doi: 10.1109/TVT.2016.2531184

    8. [8]

      NEELY M J. Stochastic network optimization with application to communication and queueing systems[J]. Synthesis Lectures on Communication Networks, 2010, 3(1): 1–211. doi: 10.2200/S00271ED1V01Y201006CNT007

    9. [9]

      KUMAR N, SWAIN S N, and MURTHY C S R. A novel distributed Q-learning based resource reservation framework for facilitating D2D content access requests in LTE-A networks[J]. IEEE Transactions on Network and Service Management, 2018, 15(2): 718–731. doi: 10.1109/TNSM.2018.2807594

    10. [10]

      SAAD H, MOHAMED A, and ELBATT T. A cooperative Q-learning approach for distributed resource allocation in multi-user femtocell networks[C]. 2014 IEEE Wireless Communications and Networking Conference, Istanbul, Turkey, 2014: 1490–1495. doi: 10.1109/WCNC.2014.6952410.

    11. [11]

      PAN S J and YANG Qiang. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345–1359. doi: 10.1109/TKDE.2009.191

    12. [12]

      SUN Yaohua, PENG Mugen, and MAO Shiwen. Deep reinforcement learning-based mode selection and resource management for green fog radio access networks[J]. IEEE Internet of Things Journal, 2019, 6(2): 1960–1971. doi: 10.1109/JIOT.2018.2871020

    13. [13]

      PAN Jie, WANG Xuesong, CHENG Yuhu, et al. Multisource transfer double DQN based on actor learning[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(6): 2227–2238. doi: 10.1109/TNNLS.2018.2806087

    14. [14]

      ALQERM I and SHIHADA B. Sophisticated online learning scheme for green resource allocation in 5G heterogeneous cloud radio access networks[J]. IEEE Transactions on Mobile Computing, 2018, 17(10): 2423–2437. doi: 10.1109/TMC.2018.2797166

    15. [15]

      LI Yan, LIU Lingjia, LI Hongxiang, et al. Resource allocation for delay-sensitive traffic over LTE-Advanced relay networks[J]. IEEE Transactions on Wireless Communications, 2015, 14(8): 4291–4303. doi: 10.1109/TWC.2015.2418991

    1. [1]

      李晨溪, 曹雷, 陈希亮, 张永亮, 徐志雄, 彭辉, 段理文. 基于云推理模型的深度强化学习探索策略研究. 电子与信息学报,

    2. [2]

      陈前斌, 谭颀, 魏延南, 贺兰钦, 唐伦. 异构云无线接入网架构下面向混合能源供应的动态资源分配及能源管理算法. 电子与信息学报,

    3. [3]

      唐伦, 魏延南, 马润琳, 贺小雨, 陈前斌. 虚拟化云无线接入网络下基于在线学习的网络切片虚拟资源分配算法. 电子与信息学报,

    4. [4]

      张骥先, 谢宁, 张学杰, 李伟东. 基于监督学习的可信云计算资源拍卖机制研究. 电子与信息学报,

    5. [5]

      王斐, 吴仕超, 刘少林, 张亚徽, 魏颖. 基于脑电信号深度迁移学习的驾驶疲劳检测. 电子与信息学报,

    6. [6]

      唐伦, 周钰, 谭颀, 魏延南, 陈前斌. 基于强化学习的5G网络切片虚拟网络功能迁移算法. 电子与信息学报,

    7. [7]

      张小恒, 李勇明, 王品, 曾孝平, 颜芳, 张艳玲, 承欧梅. 基于语音卷积稀疏迁移学习和并行优选的帕金森病分类算法研究. 电子与信息学报,

    8. [8]

      许敏, 王士同, 史荧中. 一种新的面向迁移学习的L2核分类器. 电子与信息学报,

    9. [9]

      周牧, 李垚鲆, 谢良波, 蒲巧林, 田增山. 基于多核最大均值差异迁移学习的WLAN室内入侵检测方法. 电子与信息学报,

    10. [10]

      唐伦, 贺小雨, 王晓, 陈前斌. 基于迁移演员-评论家学习的服务功能链部署算法. 电子与信息学报,

    11. [11]

      王汝言, 徐宁宁, 吴大鹏. 能耗和时延感知的虚拟化云无线接入网络资源分配机制. 电子与信息学报,

    12. [12]

      黄博, 方旭明, 陈煜. OFDMA中继网络变时域节能资源分配策略. 电子与信息学报,

    13. [13]

      王汝言, 梁颖杰, 崔亚平. 车辆网络多平台卸载智能资源分配算法. 电子与信息学报,

    14. [14]

      唐伦, 魏延南, 谭颀, 唐睿, 陈前斌. H-CRAN网络下联合拥塞控制和资源分配的网络切片动态资源调度策略. 电子与信息学报,

    15. [15]

      张达敏, 张绘娟, 闫威, 陈忠云, 辛梓芸. 异构网络中基于能效优化的D2D资源分配机制. 电子与信息学报,

    16. [16]

      张宝, 邱玲. OFDMA Femtocell网络中混合接入方式下的资源分配策略. 电子与信息学报,

    17. [17]

      曹龙, 赵杭生, 鲍丽娜, 张建照. 分层认知无线电网络中基于稳定匹配的资源分配算法. 电子与信息学报,

    18. [18]

      王汝言, 李宏娟, 吴大鹏. 基于Stackelberg博弈的虚拟化无线传感网络资源分配策略. 电子与信息学报,

    19. [19]

      孟洛明, 孙康, 韦磊, 郭少勇, 徐思雅. 一种面向电力无线专网的虚拟资源优化分配机制. 电子与信息学报,

    20. [20]

      王斌, 付茂豹, 王文鼐. 基于实时业务挤占的OFDMA系统的无线资源分配方案. 电子与信息学报,

  • 图 1  H-CRAN下行传输场景

    图 2  系统架构

    图 3  DQN算法框图

    图 4  迁移学习场景图

    图 5  DQN中不同优化器下的网络总吞吐量

    图 6  不同到达率下的平均队列长度

    图 7  网络用户数的总吞吐量

    图 8  网络的平均队列时延

    图 9  迁移学习下的平均队列长度

    图 10  迁移学习下的损失函数

     算法1:DQN训练估值网络参数算法
     (1) 初始化经验回放池
     (2) 随机初始化估值网络中的参数$w$,初始化目标网络中的参数
       ${w^ - }$,权重为${w^ - } = w$
     (3) For episode $k = 0,1,2,3, ···,K - 1$ do
     (4)  随机初始化一个状态${s_0}$
     (5)  For $t = 0,1,2,3, ···, T - 1$ do
     (6)    随机选择一个概率$p$
     (7)    if $p \le \varepsilon $ 资源管理器随机选择一个动作$a(t)$
     (8)    else 资源管理器根据估值网络选取动作
         ${a^*}(t) = \arg {\max _a}Q(s,a;w)$
     (9)    执行动作$a(t)$,根据式(9)得到奖励值$r(t)$,并观察下一
         个状态$s(t + 1)$
     (10)   将元组$(s(t),a(t),r(t),s(t + 1))$存储到经验回放池中
     (11)   从经验回放池中随机抽取选取一组样本
          $(s(t),a(t),r(t),s(t + 1))$
     (12)   通过估值网络和目标网络的输出损失函数,利用式(13),
          (14)计算1, 2阶矩
     (13)   Adam算法通过式(15), (16)计算1阶矩和2阶矩的偏差修
          正项
     (14)   通过神经网络的反向传播算法,利用式(17)来更新估值
          网络的权重参数$w$
     (15)   每隔$\delta $将估值网络中的参数$w$复制给参数${w^ - }$
     (16) End for
     (17) End for
     (18) 获得DQN网络的最优权重参数$w$
    下载: 导出CSV
     算法2:基于TLDQN的策略知识迁移算法
     (1) 初始化:
     (2)   源基站的DQN参数$w$,策略网络温度参数$T$,目标网络
         的DQN参数$w'$
     (3) For 对于每个状态$s \in {{S}}$,源基站的动作$\overline a $,目标基站可能采
       取的动作$a$ do
     (4)   执行算法1,得到估值网络的参数$w$,以及输出层对应的
         $Q$值函数
     (5)   根据式(18)将源基站上的$Q$值函数转化为策略网络
         ${ {\pi} _i}(\overline a \left| s \right.)$
     (6)   根据式(19)将目标基站上的$Q$值函数转化为策略网络
         ${ {\pi} _{\rm{TG} } }(a\left| s \right.)$
     (7)   利用式(20)构建策略模仿损失的交叉熵$H(w)$
     (8)   根据式(21)进行交叉熵的迭代更新,再进行策略模仿的偏
         导数的计算。
     (9)   直至目标基站选取出的策略达到
         ${Q_{\rm{TG}}}(s,a) \to {Q^*}_{\rm{TG}}(s,a)$
     (10) End for
     (11) 目标基站获得对应的网络参数$w'$
     (12) 执行算法1,目标基站得到最优资源分配策略
    下载: 导出CSV
  • 加载中
图(10)表(2)
计量
  • PDF下载量:  22
  • 文章访问数:  150
  • HTML全文浏览量:  1330
文章相关
  • 通讯作者:  管令进, 1633634329@qq.com
  • 收稿日期:  2019-07-08
  • 录用日期:  2020-03-09
  • 网络出版日期:  2020-04-15
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

/

返回文章