严雨琳1,
崔苗1,,,
陈伟2,
张景3
1.广东工业大学信息工程学院 广州 510006
2.广东省环境地质勘查院 广州 510080
3.中国电子科学研究院 北京 100043
基金项目:广东省科技计划(2017B090909006, 2019B010119001, 2020A050515010, 2021A0505030015),广东特支计划(2019TQ05X409)
详细信息
作者简介:张广驰:男,1982年生,教授,研究方向为新一代无线通信技术
严雨琳:女,1996年生,硕士生,研究方向为无人机通信、强化学习
崔苗:女,1978年生,讲师,研究方向为新一代无线通信技术
陈伟:男,1979年生,高级工程师,研究方向为地质灾害监测与预警
张景:男,1974年生,研究员级高工,研究方向为新一代信息通信技术
通讯作者:崔苗 cuimiao@gdut.edu.cn
1) 本文主要研究无人机基站的飞行路线在线优化,主要考察飞行路线对通信性能的影响,没有考虑无人机基站的能耗问题。另外,本文考虑的系统模型同样适用于多个无人机基站分别在不同频段上与地面用户通信的场景,并且后文提到的优化算法可以直接扩展到多个地面用户处在一条直线上的场景。中图分类号:TN915
计量
文章访问数:198
HTML全文浏览量:137
PDF下载量:60
被引次数:0
出版历程
收稿日期:2020-06-29
修回日期:2021-06-07
网络出版日期:2021-07-13
刊出日期:2021-12-21
Online Trajectory Optimization for the UAV-Mounted Base Stations
Guangchi ZHANG1,Yulin YAN1,
Miao CUI1,,,
Wei CHEN2,
Jing ZHANG3
1. School of Information Engineering, Guangdong University of Technology, Guangzhou 510006, China
2. Institute of Environmental Geology Exploration of Guangdong Province, Guangzhou 510080, China
3. China Academic of Electronics and Information Technology, Beijing 100043, China
Funds:The Science and Technology Plan Project of Guangdong Province (2017B090909006, 2019B010119001, 2020A050515010, 2021A0505030015), The Special Support Plan for High-Level Talents of Guangdong Province (2019TQ05X409)
摘要
摘要:针对离线的无人机(UAV)基站飞行路线设计无法满足随机的、动态的地面用户通信请求难题,该文研究了飞行路线在线优化设计算法。考虑单个无人机空中基站为两个地面用户提供无线通信服务,通过在线实时优化无人机的飞行路线实现最小化与地面用户的平均通信时延。首先,由于系统的无人机的状态和动作是连续的,将问题转化成一个马尔可夫决策过程(MDP);然后,把单次通信时延引入到动作价值函数中;最后分别采用强化学习中蒙特卡罗和Q-Learning算法来实现无人机的飞行路线在线优化。仿真结果表明,所提出的在线优化的平均时延性能优于“固定位置”和“贪婪算法”的时延计算结果。
关键词:无人机通信/
飞行路线在线优化/
平均时延最小化/
强化学习
Abstract:Considering dealing with the problem of random and dynamic communication requests of ground users in a UAV(Unmanned Aerial Vehicle) mounted base station communication system, which can not be tackled by an offline trajectory design scheme, an online trajectory optimization algorithm is proposed for the UAV-mounted base station. In the considered system, a single UAV is utilized as an aerial base station to provide wireless communication service to two ground users. The problem of minimizing the average communication delay of the ground users via optimizing the UAV’s trajectory is considered. First, it is shown that the problem can be casted as a Markov Decision Process (MDP), and then the delay of one single communication is introduced into the action value function. Finally, the Monte Carlo and Q-Learning algorithms from the reinforcement learning technology are respectively adopted to realize the online trajectory optimization. Simulation results show that the proposed algorithm outperforms the “fixed position” and “greedy algorithm” schemes.
Key words:Unmanned Aerial Vehicle (UAV) communication/
Online trajectory optimization/
Average delay minimization/
Reinforcement learning
注释:
1) 1) 本文主要研究无人机基站的飞行路线在线优化,主要考察飞行路线对通信性能的影响,没有考虑无人机基站的能耗问题。另外,本文考虑的系统模型同样适用于多个无人机基站分别在不同频段上与地面用户通信的场景,并且后文提到的优化算法可以直接扩展到多个地面用户处在一条直线上的场景。
PDF全文下载地址:
https://jeit.ac.cn/article/exportPdf?id=cf3e574f-658a-4960-82a9-160eb0dd8f34