深度学习或强化学习在组合优化方面有哪些应用

王红兵, 工学博士,东南大学计算机学院教授,博士生导师,中国计算机学会服务计算专业委员会常务委员,WIC China指导委员会成员。江苏省333工程、六大人才高峰培养对象。国际期刊International
Journal of Services Computing编委。担任过十几个国际会议的程序委员,如:IEEE International
Conference on Services Computing;IEEE International EDOC
Conference;IEEE International Conference on Pervasive Services;IEEE
International Conference on E-business Engineering。多个重要国际期刊审稿人,包括:Journal of System
and Software;IEEE Transactions on Services C IEEE Transactions on Knowledge
and Data E IEEE Transactions on Parallel and Distributed Systems;IEEE Transactions
on Fuzzy Systems;IEEE Transactions on Systems, Man, and Cybernetics。
教育科研经历
2009年4月~2010年3月澳大利亚CSIRO ICT Center访问学者。
2003年曾赴香港大学作访问学者,与香港大学电子商务研究所开展合作研究。
2008年3~4月加拿大滑铁卢大学访问学者。
2005年开始,作为项目负责人,主持过两项国家自然科学基金项目&电子市场匹配模型与算法研究&(编号:,7.12) 和&Web服务组合模型与算法&(编号:,9.12),以上项目的合作研究单位是香港大学和University of
Ontario Institute of Technology。
2013年开始,主持国家自然科学基金重点项目基于服务组合的&系统的系统&软件机理与方法(编号:,7.12)和国家自然科学基金面上项目&服务系统在线可靠性预测方法及关键技术研究&(编号:,0.12)。
此外,还主持和参加过国家级、省部级项目多项。通过以上项目的研究,在IEEE Transactions
on Software Engineering,IEEE Transactions on Services Computing,ACM Transactions
on Autonomous and Adaptive Systems,Journal of System
and Software,Journal of Web Semantics,IEEE Transactions
on Parallel and Distributed Systems,计算机学报,ICSOC, ICWS, SCC等重要期刊和重要国际会议均有论文发表。包括David Robertson等在内的多个知名研究组及IEEE TSC、TSE等著名期刊引用我们的工作。在Journal of Web
Semantics发表的论文曾经23次入选该期刊&最热门的25篇文章&,其中有四次列在首位。我们设计并实现了国际上第一个WS-CDL 执行引擎(http://wscomposition.seu.edu.cn),这项工作引起国际万维网组织的重视。WS-CDL执行引擎被国际上多个研究组索取、使用,包括万维网组织WS-CDL工作组(Steve
Ross-Talbot)。爱丁堡大学智能研究中心主任David Robertson在IEEE TRANS.介绍了我们在WS-CDL执行引擎上的开创性工作。
近年来,我们在基于机器学习的服务系统组合和大规模服务系统质量保障方面取得的研究成果,被国际同行跟踪研究。
主要研究方向为智能化软件方法与技术、大数据计算、云计算、服务计算等。具体内容包括:研究深度学习、强化学习、多Agent系统等人工智能与机器学习技术如何解决智能软件系统构建与运行过程中遇到的各种实际问题(如系统自适应、系统可靠性时间序列预测、大规模系统运行质量监控与优化等),面向大数据的个性化搜索,大数据分析与处理,云计算资源分配与管理,云服务发现与选择,云服务组合,服务组合系统优化,大规模推荐系统等。
王红兵主编,服务计算应用开发技术,机械工业出版社(ISBN 978-7-111-28041-5)2009.8
软件著作权
WS-CDL+执行引擎软件,(软件著作权登记)
国家发明专利
o 基于多智能体强化学习的大规模服务组合优化方法,已受理发明专利,.8,王红兵,王晓珺
o 基于概率图模型的服务组件可靠性在线时间序列预测方法,已授权国家发明专利,.1,王红兵,王磊
o 一种基于可靠性预测与QoS相结合的服务组合方法,已授权发明专利,.7,王红兵,孙海霞
o 面向服务的系统中的质量动态预警方法,已受理发明专利,.1,万程,王红兵
o 一种web服务组合生成方法,已受理发明专利,.1,王红兵,邹彬
o 基于用户偏好不完整和偏好冲突的web服务选择方法,已受理发明专利,.X,王红兵,孙文龙
o 一种基于定性和定量用户偏好选择可信web服务的方法,已受理发明专利,.5,王红兵,俞超
o 面向服务的需求分析方法,已受理发明专利,.3 ,王红兵,周书湘
o 一种用户偏好检索方法,已授权发明专利,.5,王红兵,王玉文,陈鑫,吴琴
o 一种Web服务组合方法,已授权发明专利,7, 王红兵,陈鑫,吴琴,王玉文
o 面向复杂系统中的MAXQ任务图结构的自动发现方法,已受理发明专利,.1,王红兵,李文雅
o 基于因果图的分层强化学习任务图进化方法,已受理发明专利,.3,王红兵,周建才
主持在研项目
o 服务系统在线可靠性预测方法及关键技术研究(国家自然科学基金面上项目0.12)
o 基于服务组合的&系统的系统&软件机理与方法(国家自然科学基金重点项目7.12)
1. Hongbing Wang ,Bin Zou,Guibing
Guo,Jie Zhang,Danrong
Yang,Integrating Trust with User Preference for
Effective Web Service Composition,IEEE
Transactions on Services Computing, DOI: 10.1109/TSC..
2. Hongbing Wang ,Chao
Yu,Lei Wang,Qi Yu,Effective
BigData-Space Service Selection over Trust and Heterogeneous QoS Preferences,IEEE
Transactions on Services Computing, DOI: 10.1109/TSC..
3. Hongbing Wang ,Xiaojun
Wang,Xingzhi Zhang,Qi Yu,Xingguo
Hu,Effective service composition using
multi-agent reinforcement, learning,Knowledge-Based
Systems,2016,92(15):151-168.
4. Hongbing Wang ,Zuling
Kang ,Lei Wang,Performance-Aware
Cloud Resource Allocation via Fitness-enabled Auction,IEEE
Transactions on Parallel and Distributed Systems, DOI:
10.1109/TPDS..
5. Hongbing Wang, Jie Zhang, Cheng Wan, Shizhi Shao,
Robin Cohen: Qualitative preference-based service selection for multiple
agents. Web Intelligence and Agent Systems 11(3): 263-282 (2013)
6. Hongbing Wang, Zuling Kang, Ning Zhou, Li Li: A
model checker for WS-CDL. Journal of Systems and Software 83(10):
7. Athman Bouguettaya, Surya Nepal, Wanita Sherchan,
Xuan Zhou, Jemma Wu, Shiping Chen, Dongxi Liu, Lily Li, Hongbing Wang, Xumin
Liu: End-to-End Service Support for Mashups. IEEE T. Services Computing 3(3):
250-263 (2010)
8. Zuling Kang, Hongbing Wang, Patrick C. K. Hung:
WS-CDL+ for web service collaboration. Information Systems Frontiers 9(4):
375-389 (2007)
9. Hongbing Wang, Joshua Zhexue Huang, Yuzhong Qu,
Junyuan Xie, Web services: Problems and Future Directions, Journal of Web
Semantics, Volume: 1, Issue: 3, April, 2004, pp. 309-320, 2004, Elsevier.
10. Hongbing Wang et al, A Solution to Intelligent
Services Selection, International Journal of Web Services Practices, Volume 2,
11. Hongbing Wang, Yifei Wang, Joshua Zhexue Huang, A
self-learning framework for services selection, International Journal of
Information Technology and Management, Volume 9, Number 1 / 2010 ,90 – 110
12. Hongbing Wang, Tiecheng Wang, Junyuan Xie, An
intelligent communication model between buyers and suppliers, Chinese Journal
of Computers, Volume 26, Issue 9, pp. , 2003.
Lei W Qi Yu; Zibin Z Michael L Athman Bouguettaya, Online
Reliability Prediction via Motifs-based Dynamic Bayesian Networks for
Service-Oriented Systems, IEEE Transactions on Software Engineering,Year: 2016,
Volume: PP, Issue: 99 Pages: 1 - 1, DOI: 10.1109/TSE..
14. Hongbing W
Lei W Qi Yu; Zibin Zheng, Learning the Evolution Regularities for Big
Service-Oriented Online Reliability Prediction , IEEE Transactions on Services
Computing,Year: 2016, Volume: PP, Issue: 99,Pages: 1 - 1, DOI:
10.1109/TSC.
15. Hongbing Wang,
Xin Chen, Qin Wu, Qi Yu, Xingguo Hu, Zibin Zheng, Athman Bouguettaya,
Integrating off-policy Reinforcement Learning with Multi-agent Techniques for
Adaptive Service Composition, ACM Transactions on Autonomous and Adaptive
Systems, 2017, Accepted.
16. Hongbing Wang,
Xiaojun Wang, Xingguo Hu, Xingzhi Zhang, Mingzhu Gu: A multi-agent
reinforcement learning approach to dynamic service composition. Inf. Sci. 363:
96-119 (2016)
17. Hongbing Wang,
Peisheng Ma, Qi Yu, Danrong Yang, Jiajie Li, Huanhuan Fei: Combining
quantitative constraints with qualitative preferences for effective
non-functional properties-aware service composition. J. Parallel Distrib.
Comput. 100: 71-84 (2017)
18. Wang H, Wang
H, Guo G, et al. Measuring similarity of users with qualitative preferences for
service selection[J]. Knowledge and Information Systems, .
1. Hongbing Wang,
Guicheng Huang, Qi Yu,Automatic Hierarchical Reinforcement Learning for
Efficient Large-scale Service Composition,ICWS-27,USA
2. Hongbing Wang,
Xingzhi Zhang, and Qi Yu. Integrating POMDP and SARSA(\lambda ) for Service
Composition with Incomplete Information. Service-Oriented Computing. 2016
3. Hongbing Wang,Bin Zou,Guibing
Guo,Jie Zhang,Zhengping
Yan,Optimal and Effective Web Service
Composition with Trust and User Preference,2015 IEEE
International Conference on Web Services (ICWS 2015),329-336,New York,-.
4. Hongbing Wang,
Suxiang Zhou, Qi Yu: Discovering Web Services to Improve Requirements
Decomposition. ICWS 6
5. Hongbing Wang, Bin Zou, Guibing Guo, Jie
Zhang, Zhengping Yang: Optimal and Effective Web Service Composition with Trust
and User Preference. ICWS 6
6. Qi Yu, Hongbing Wang, Liang Chen:
Learning Sparse Functional Factors for Large-Scale Service Clustering. ICWS
7. Hongbing Wang, Qin Wu, Xin Chen, Qi Yu:
Integrating Gaussian Process with Reinforcement Learning for Adaptive Service
Composition. ICSOC 7
8. Hongbing Wang,
Lei Wang, Qi Yu, Zibin Zheng: A Novel Online Reliability Prediction Approach
for Service-Oriented Systems. ICWS 9
9. Hongbing Wang, Cheng Wan: Quality
Failure Prediction for the Self-Healing of Service-Oriented System of Systems.
10. Hongbing Wang, Qin Wu, Xin Chen, Qi Yu,
Zibin Zheng, Athman Bouguettaya: Adaptive and Dynamic Service Composition via
Multi-agent Reinforcement Learning. ICWS 4
11. Hongbing Wang, Xin Chen, Qin Wu, Qi Yu,
Zibin Zheng, Athman Bouguettaya: Integrating On-policy Reinforcement Learning
with Multi-agent Techniques for Adaptive Service Composition. ICSOC 2014:
12. Hongbing Wang, Lei Wang, Chao Yu:
Integrating Trust with Qualitative and Quantitative Preference for Service
Selection. IEEE SCC 6
13. Qi Yu, Zibin Zheng, Hongbing Wang:
Trace Norm Regularized Matrix Factorization for Service Recommendation. ICWS
14. Lei Wang, Hongbing Wang, Qi Yu, Haixia
Sun, Athman Bouguettaya: Online Reliability Time Series Prediction for
Service-Oriented System of Systems. ICSOC 8
15. Hongbing Wang, Xiaojun Wang, Qi Yu:
Optimal Self-Healing of Service-Oriented Systems with Incomplete Information.
BigData Congress 4
16. Hongbing Wang, Xiaojun Wang: A Novel
Approach to Large-Scale Services Composition. APWeb 7
17. Hongbing Wang, Haixia Sun, Qi Yu:
Reliable Service Composition via Automatic QoS Prediction. IEEE SCC 2013:
18. Zuling Kang, Hongbing Wang: A Novel
Approach to Allocate Cloud Resource with Different Performance Traits. IEEE SCC
19. Hongbing Wang, Peisheng Ma, Xuan Zhou:
A Quantitative and Qualitative Approach for NFP-Aware Web Service Composition.
IEEE SCC 9
20. Hongbing Wang, Xiaojun Wang, Xuan Zhou:
A Multi-agent Reinforcement Learning Model for Service Composition. IEEE SCC
21. Hongbing Wang, Xuan Zhou, Wujin Chen,
Peisheng Ma: Top-k retrieval using conditional preference networks. CIKM 2012:
22. Hongbing Wang, Jie Zhang, Wenlong Sun,
Hongye Song, Guibing Guo, Xiang Zhou: WCP-Nets: A Weighted Extension to CP-Nets
for Web Service Selection. ICSOC 2
23. Hongbing Wang, Xuan Zhou, Xiang Zhou,
Weihong Liu, Wenya Li, Athman Bouguettaya: Adaptive Service Composition Based
on Reinforcement Learning. ICSOC
24. Hongbing Wang, Shizhi Shao, Xuan Zhou,
Cheng Wan, Athman Bouguettaya: Web Service Selection with Incomplete or
Inconsistent User Preferences. ICSOC/ServiceWave
25. Hongbing Wang, Jie Zhang, Cheng Wan,
Shizhi Shao, Robin Cohen, Junjie Xu, Peicheng Li: Web Service Selection for
Multiple Agents with Incomplete Preferences. Web Intelligence 2
26. Hongbing Wang, Junjie Xu, Peicheng Li:
Incomplete Preference-driven Web Service Selection. IEEE SCC (1)
27. Hongbing Wang, Qianzhao Zhou, Yanqi
Shi: Describing and Verifying Web Service Composition Using TLA Reasoning. IEEE
28. Wan Cheng, Hongbing Wang:
Uncertainty-aware QoS Description and Selection Model for Web Services. IEEE
29. Hongbing Wang, Weihong Liu: Web Service
Selection with Quantitative and Qualitative User Preferences. Web Intelligence
30. Hongbing Wang, Jie Zhang, Yangyu Tang,
Shizhi Shao: Collaborative Approaches to Complementing Qualitative Preferences
of Agents for Effective Service Selection. ICTAI 2011 : 51-58
31. Wan Cheng, Hongbing Wang: Web Service
decision-making model based on uncertain-but-bounded attributes. IEEE SCW 2007:
32. Hongbing Wang, Hui Liu, Chen Wang,
Patrick C. K. Hung: A New Approach to Describe Web Services. Web Intelligence
33. Hongbing Wang, Xuan Zhou, Xiang Zhou,
Weihong Liu, Wenya Li: Adaptive and Dynamic Service Composition Using
Q-Learning. ICTAI (1) 2
34. Hongbing Wang, Yanqi Shi, Xuan Zhou,
Qianzhao Zhou, Shizhi Shao, Athman Bouguettaya: Web Service Classification
Using Support Vector Machine. ICTAI (1)
35. Hongbing Wang, Xiaohui Guo: An Adaptive
Solution for Web Service Composition. SERVICES 0
36. Zuling Kang, Hongbing Wang, Patrick C.
K. Hung: WS-CDL+: An Extended WS-CDL Execution Engine for Web Service
Collaboration. ICWS 5
37. Athman Bouguettaya, Surya Nepal, Wanita
Sherchan, Xuan Zhou, Jemma Wu, Shiping Chen, Dongxi Liu, Lily Li, Hongbing
Wang, Xumin Liu: End-to-End Service Support for Mashups. IEEE T. Services
Computing 3(3): 250-263 (2010)
38. Zuling Kang, Hongbing Wang, Patrick C.
K. Hung: WS-CDL+ for Web service collaboration. Information Systems Frontiers
9(4): 375-389 (2007)
39. Hongbing Wang, Yifei Wang, Joshua
Zhexue Huang, A self-learning framework for services selection,International
Journal of Information Technology and Management, Volume 9, Number 1 / 2010
40. Weihong Liu, Hongbing Wang: An Approach
to Estimate Schema Quality of Web Service Composition. Web Intelligence/IAT
Workshops 9
41. Zuling Kang, Hongbing Wang: Verifying
WS-CDL-Based Web Services Collaboration by Model Checking. SERVICES I 2009:
42. Hongbing Wang, Chen Wang, Yan Liu: A
Logic-Based Approach to Web Services Composition and Verification. SERVICES II
43. Hongbing Wang, Xiaohui Guo:
Preference-Aware Web Service Composition Using Hierarchical Reinforcement
Learning. Web Intelligence/IAT Workshops 8
44. Hongbing Wang, Pingping Tang:
Preference-Aware Web Service Composition by Reinforcement Learning. ICTAI (2)
45. Hongbing Wang, Hui Liu, Xiaohui Guo:
Specify and Compose Web Services by TLA. ICWS 7
46. Hongbing Wang, Hui Liu, Xiaohui Guo: An
Efficient Approach to Compose Web Services. Web Intelligence/IAT Workshops
47. Hongbing Wang, Ping Tong, Phil
Thompson: QoS-Based Web Services Selection. ICEBE 7
48. Yifei Wang, Hongbing Wang, Xun Xu: Web
Services Selection and Composition based on the Routing Algorithm. EDOC
Workshops 2006: 69
49. Hongbing Wang, Yifei Wang, Joshua
Zhexue Huang, Xun Xu: SLF4SS: Facilitating Flexible Services Selection. IAT
Workshops 5
50. Yifei Wang, Hongbing Wang, Xun Xu: Web
Services Scheduling: Binding the Cost with the Time. SKG
51. Zuling Kang, Hongbing Wang:
Implementation and Application of Ontology Databases with User-Defined Rules
(UDR) Supported. SKG 2005: 82
详细论文发表情况可参考DBLP:
o 研究生:每年招收若干名研究生。希望进入本实验室的同学需要具有较好的数学和计算机基础,程序设计和英语写作能力较强。
o 博士生:每年按计划招收1-2名博士生。
欢迎符合上述条件的同学与我们联系,并期待你的加入!
o 青年教师:诚邀国内外对服务计算、云计算、大数据计算有兴趣的博士加入研究团队!
o 博士后:每年按计划招收2名,欢迎国内外对服务计算、云计算、大数据计算有兴趣的青年博士!
电子邮箱:hbw@seu.edu.cn
办公电话:(025)
联系电话:
通讯地址:江苏省南京市江宁区 东南大学(九龙湖校区)计算机学院科学与工程学院 邮编:211189&&&&&&我们终于来到了深度强化学习。
1. 强化学习和深度学习结合
&&&&&&机器学习=目标+表示+优化。目标层面的工作关心应该学习到什么样的模型,强化学习应该学习到使得激励函数最大的模型。表示方面的工作关心数据表示成什么样有利于学习,深度学习是最近几年兴起的表示方法,在图像和语音的表示方面有很好的效果。深度强化学习则是两者结合在一起,深度学习负责表示马尔科夫决策过程的状态,强化学习负责把控学习方向。
&&&&&&深度强化学习有三条线:分别是基于价值的深度强化学习,基于策略的深度强化学习和基于模型的深度强化学习。这三种不同类型的深度强化学习用深度神经网络替代了强化学习的不同部件。基于价值的深度强化学习本质上是一个 Q Learning 算法,目标是估计最优策略的 Q 值。 不同的地方在于 Q Learning 中价值函数近似用了深度神经网络。比如 DQN 在 Atari 游戏任务中,输入是 Atari 的游戏画面,因此使用适合图像处理的卷积神经网络(Convolutional Neural Network,CNN)。下图就是 DQN 的框架图。
2. Deep Q Network (DQN) 算法
&&&&&&当然了基于价值的深度强化学习不仅仅是把 Q Learning 中的价值函数用深度神经网络近似,还做了其他改进。
&&&&&&这个算法就是著名的 DQN 算法,由 DeepMind 在 2013 年在 NIPS 提出。DQN 算法的主要做法是 Experience Replay,其将系统探索环境得到的数据储存起来,然后随机采样样本更新深度神经网络的参数。
&&&&&&Experience Replay 的动机是:1)深度神经网络作为有监督学习模型,要求数据满足独立同分布,2)但 Q Learning 算法得到的样本前后是有关系的。为了打破数据之间的关联性,Experience Replay 方法通过存储-采样的方法将这个关联性打破了。
&&&&&&DeepMind 在 2015 年初在 Nature 上发布了文章,引入了 Target Q 的概念,进一步打破数据关联性。Target Q 的概念是用旧的深度神经网络
去得到目标值,下面是带有 Target Q 的 Q Learning 的优化目标。
&&&&&&下图是 Nature 论文上的结果。可以看到,打破数据关联性确实很大程度地提高了效果。
3. 后续发展
&&&&&&DQN 是第一个成功地将深度学习和强化学习结合起来的模型,启发了后续一系列的工作。这些后续工作中比较有名的有 Double DQN, Prioritized Replay 和 Dueling Network。
3.1 Double DQN
&&&&&&Thrun 和 Schwartz 在古老的 1993 年观察到 Q-Learning 的过优化 (overoptimism) 现象 [1],并且指出过优化现象是由于 Q-Learning 算法中的 max 操作造成的。令 (Q^{target}(s,a)) 是目标 Q 值;我们用了价值函数近似, 是近似 Q 值;令 Y 为近似值和目标之间的误差,即
Q-learning 算法更新步骤将所有的 Q 值更新一遍,这个时候近似值和目标值之间的差值
其中 。这时候我们发现,即使
也就是一开始是无偏的近似, Q Learning 中的 max 操作也会导致 E[Z] > 0。这就是过优化现象。为了解决这个问题,Thrun 和 Schwartz 提出了 Double Q 的想法。
&&&&&&Hasselt 等进一步分析了过优化的现象,并将 Double Q 的想法应用在 DQN 上,从而提出了 Double DQN。Double DQN 训练两个 Q 网络,一个负责选择动作,另一个负责计算。两个 Q 网络交替进行更新,具体算法如下所示。
下图是 Hasselt 在论文中报告的实验结果。从实验结果来看,Double DQN 拥有比 DQN 好的效果。
3.2 Prioritized Replay
&&&&&&DQN 用了 Experience Replay 算法,将系统探索环境获得的样本保存起来,然后从中采样出样本以更新模型参数。对于采样,一个常见的改进是改变采样的概率。Prioritized Replay [3] 便是采取了这个策略,采用 TD-err 作为评判标准进行采样。
&&&&&&下图是论文中采用的例子。例子中有 n 个状态,在每个状态系统一半概率采取 “正确” 或者一半概率 “错误”,图中红色虚线是错误动作。一旦系统采取错误动作,游戏结束。只有第 n 个状态 “正确” 朝向第 1 个状态,系统获得奖励 1。在这个例子训练过程中,系统产生无效样本,导致训练效率底下。如果采用 TD-err 作为评判标准进行采样,能够缓解这个问题。
&&&&&&论文报告了 Prioritized Replay 算法效果。从下图来看,Prioritized Replay 效果很好。
3.3 Dueling Network
&&&&&&Baird 在 1993 年提出将 Q 值分解为价值 (Value) 和优势 (Advantage) [4]。
这个想法可以用下面的例子说明 [5]。上面两张图表示,前方无车时,选择什么动作并不会太影响行车状态。这个时候系统关注状态的价值,而对影响动作优势不是很关心。下面两张图表示,前方有车时,选择动作至关重要。这个时候系统需要关心优势了。这个例子说明,Q 值分解为价值和优势更能刻画强化学习的过程。
&&&&&&Wang Z 将这个 idea 应用在深度强化学习中,提出了下面的网络结构 [5]。
这种网络结构很简单,但获得了很好的效果。
&&&&&& Dueling Network 是一个深度学习的网络结构。它可以结合之前介绍的 Experience Replay、 Double DQN 和 Prioritized Replay 等方法。 作者在论文中报告 Dueling Network 和 Prioritized Replay 结合的效果最好。
&&&&&&上次本来想把基于价值的深度强化学习的 Double DQN, Prioritized Replay 和 Dueling Network 也写了的,写到晚上 2 点。现在补上这部分内容。
&&&&&&从上面介绍来看,DQN、 Double DQN、Prioritized Replay 和 Dueling Network 都能在深度学习出现之前的工作找到一些渊源。深度学习的出现,将这些方法的效果提高了前所未有的高度。
&&&&&&文章结尾欢迎关注我的公众号 AlgorithmDog,每次更新就会有提醒哦~
[1] S. Thrun and A. Schwartz. Issues in using function approximation for reinforcement learning. In M. Mozer, P. Smolensky, D. Touretzky, J. Elman, and A. Weigend, editors, Proceedings of the 1993 Connectionist Models Summer School, Hillsdale, NJ, 1993. Lawrence Erlbaum.
[2] Van Hasselt, Hado, Arthur Guez, and David Silver. “Deep reinforcement learning with double Q-learning.” CoRR, abs/ (2015).
[3] Schaul T, Quan J, Antonoglou I, et al. Prioritized experience replay[J]. arXiv preprint arXiv:, 2015.
[4] Baird, L.C. Advantage updating. Technical Report WLTR-93-1146,
Wright-Patterson Air Force Base, 1993.
[5] Wang Z, de Freitas N, Lanctot M. Dueling network architectures for deep reinforcement learning[J]. arXiv preprint arXiv:, 2015.
强化学习系列之九:Deep Q Network (DQN)
此条目发表在分类目录,贴了标签。将加入收藏夹。
每周日更新,不关注下么?}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信