RL 总结与发展

RL 子系列到这边要告一段落了，整个系列文也接近尾声。RL 是个很有趣的主题，有很多内容可以介绍，但碍於篇幅限制，讲得略显仓促。

接下来就来总结一下我们在这个子系列学过的东西，以及一些 RL 未来发展的难题。

总结

RL 具有弹性的架构，让他能够应用在许多场合。但直到 deep learning 风潮的出现，在 2013 年 DL 和 RL 结合的 deep Q-network 训练出能玩 Atari 玩得比人类更好的 AI，RL 的未来性才又受到更多重视。

RL 在游戏与机器人领域自此都有了很多突破。2016 年 AlphaGo 在最复杂的游戏 —— 围棋中打败顶尖职业棋士，震撼世界。此後的 AlphaGoZero 完全靠着 RL 而不倚赖人类棋谱学习，棋力更胜 AlphaGo，也让人见识到 RL 深不可测的潜力。

虽然有此成就，但游戏毕竟是相对好模拟的环境。RL 在硬体控制系统的学习挑战又更多，而很多更实用的应用也都基於更复杂的环境。RL 能否在其他领域有更多突破，值得期待。

接着我们简单介绍 RL 的一些任务和未来发展。

RL Tasks

RL 的应用太多了，只要是在做决策，都可以用 RL 训练。这边列举一小部分：

Games
Robotics
- Motion control：学习走路、跑步、打球等等
Self-Driving Car
Healthcare
- Dose prediction：决定用药剂量
- Treatment recommendation：决定治疗方法
Recommendation System
Advertising
- Bidding & targeting
Resource Management
- Resource allocation：有限资源如何分配不同 computer cluster、thread 等等
Generative Models
- Image generation：将生成视为 action，生成图像的真实度视为 reward
- Text generation
Science
- Chemical reaction optimization：将一连串化学反应视为 action 进行优化
- Protein-protein interaction network construction
Social Learning
- Social behavior modeling：学习人类在社会中的行为
And many others

RL 发展

最後我们来看看 RL 未来发展和难题。

Real-World Simulation & Sample Complexity

RL 之所以在游戏界这麽成功，一部分原因是环境本身是虚拟的。如果要将 RL 带进机器人或自驾车，那麽一大难题就是如何让 agent 在真实环境中互动训练。总不可能让一台自驾车自己去荒野乱开，肯定没两三下就撞到稀巴烂；或是让机器人在空地学跑步，跌个一两下就要进厂维修了。所以目前这些任务都是先放在模拟环境中或藉由 human data 训练後，再移到真实环境中继续调整。

如何架构真实的模拟环境，虽然不算是 RL 训练中的一部分，却是对训练效果影响非常大的前置作业。例如在 [3] 中，作者藉由大量真实世界的影像，建构一个逼真的自驾车训练环境，训练出的 agent 是可以直接上路不需要额外在真实环境中调整。而有了真实的模拟环境，也更能激发 RL 的潜能，能从模仿人类到自己独立学会做决策，也更有机会学到人类还没学会的事。

另一个训练难题是 sample complexity，也就是需要多少 sample 才能训练好一个 model。Sample complexity 越小，就代表 RL 能被实际应用的可行性越高，成本越小。如何减小 sample complexity，增加 RL 学习效率，也是未来发展值得注重的一点。

Multi-Agent Reinforcement Learning

目前最多人探讨的 RL 大多属於 single-agent，也就是只有一个 agent 在环境中学习。但很多更复杂的任务里，会有不只一个 agent 在环境中，每个 agent 都要学习最大化自己的 reward，而行为的 policy 也跟其他 agent 息息相关。将 RL 应用在这些任务中就称为 multi-agent RL (MARL)。

MARL
—— MARL 三个不同 setting。[5]

MARL 大致上被应用在需要沟通、合作、或竞争这类的任务。例如一群无人机要沟通合作达成某项任务、围棋有竞争关系、甚至让一群人沟通发明新语言等等。真实世界里很多这类多人参与的任务，因此 MARL 也是未来很重要的一个发展重点。

Going Beyond Games

最後是我们一直提到的，如何把 RL 的成功从游戏带入更复杂更实用的领域。上一篇我们提到 RL 在不同领域应用的一些结果，例如广告投放、推荐系统、医疗系统等等。虽然有这些成果，但很多都只停留在学术 paper 里，尤其是在医疗这麽谨慎的领域。

RL 未来的发展，肯定会很注重在跨领域的成效，并为人类社会带来更多福祉。

参考资料

<<: 铁人赛29天工具分享

>>: [Day 30] LeetCode - 125 Valid Palindrome

Day 29 / DL x RL / RL 总结与发展

总结

RL Tasks

RL 发展

Real-World Simulation & Sample Complexity

Multi-Agent Reinforcement Learning

Going Beyond Games

参考资料

Day25 切版的时候，该注意图片的设定。

Day25 ( 高级 ) 放烟火 1 ( 往上发射 )

捉鳖神技 - 让USB传输见光死的方法

ASP.NET MVC 从入门到放弃(Day10) -C# get set 自动属性介绍

『为什麽我的Wifi这麽慢？』

第33天~还原资料库

[Day3]PHP的资料型态03

Day24

为什麽也需要有 CLASSPATH 呢？

Day9:今天来聊一下Parrot Security的Nmap