Day 29 / DL x RL / RL 总结与发展

RL 子系列到这边要告一段落了,整个系列文也接近尾声。RL 是个很有趣的主题,有很多内容可以介绍,但碍於篇幅限制,讲得略显仓促。

接下来就来总结一下我们在这个子系列学过的东西,以及一些 RL 未来发展的难题。

总结

RL 具有弹性的架构,让他能够应用在许多场合。但直到 deep learning 风潮的出现,在 2013 年 DL 和 RL 结合的 deep Q-network 训练出能玩 Atari 玩得比人类更好的 AI,RL 的未来性才又受到更多重视。

RL 在游戏与机器人领域自此都有了很多突破。2016 年 AlphaGo 在最复杂的游戏 —— 围棋中打败顶尖职业棋士,震撼世界。此後的 AlphaGoZero 完全靠着 RL 而不倚赖人类棋谱学习,棋力更胜 AlphaGo,也让人见识到 RL 深不可测的潜力。

虽然有此成就,但游戏毕竟是相对好模拟的环境。RL 在硬体控制系统的学习挑战又更多,而很多更实用的应用也都基於更复杂的环境。RL 能否在其他领域有更多突破,值得期待。

接着我们简单介绍 RL 的一些任务和未来发展。

RL Tasks

RL 的应用太多了,只要是在做决策,都可以用 RL 训练。这边列举一小部分:

  • Games
  • Robotics
    • Motion control:学习走路、跑步、打球等等
  • Self-Driving Car
  • Healthcare
    • Dose prediction:决定用药剂量
    • Treatment recommendation:决定治疗方法
  • Recommendation System
  • Advertising
    • Bidding & targeting
  • Resource Management
    • Resource allocation:有限资源如何分配不同 computer cluster、thread 等等
  • Generative Models
    • Image generation:将生成视为 action,生成图像的真实度视为 reward
    • Text generation
  • Science
    • Chemical reaction optimization:将一连串化学反应视为 action 进行优化
    • Protein-protein interaction network construction
  • Social Learning
    • Social behavior modeling:学习人类在社会中的行为
  • And many others

RL 发展

最後我们来看看 RL 未来发展和难题。

Real-World Simulation & Sample Complexity

RL 之所以在游戏界这麽成功,一部分原因是环境本身是虚拟的。如果要将 RL 带进机器人或自驾车,那麽一大难题就是如何让 agent 在真实环境中互动训练。总不可能让一台自驾车自己去荒野乱开,肯定没两三下就撞到稀巴烂;或是让机器人在空地学跑步,跌个一两下就要进厂维修了。所以目前这些任务都是先放在模拟环境中或藉由 human data 训练後,再移到真实环境中继续调整。

如何架构真实的模拟环境,虽然不算是 RL 训练中的一部分,却是对训练效果影响非常大的前置作业。例如在 [3] 中,作者藉由大量真实世界的影像,建构一个逼真的自驾车训练环境,训练出的 agent 是可以直接上路不需要额外在真实环境中调整。而有了真实的模拟环境,也更能激发 RL 的潜能,能从模仿人类到自己独立学会做决策,也更有机会学到人类还没学会的事。

另一个训练难题是 sample complexity,也就是需要多少 sample 才能训练好一个 model。Sample complexity 越小,就代表 RL 能被实际应用的可行性越高,成本越小。如何减小 sample complexity,增加 RL 学习效率,也是未来发展值得注重的一点。

Multi-Agent Reinforcement Learning

目前最多人探讨的 RL 大多属於 single-agent,也就是只有一个 agent 在环境中学习。但很多更复杂的任务里,会有不只一个 agent 在环境中,每个 agent 都要学习最大化自己的 reward,而行为的 policy 也跟其他 agent 息息相关。将 RL 应用在这些任务中就称为 multi-agent RL (MARL)

MARL
—— MARL 三个不同 setting。[5]

MARL 大致上被应用在需要沟通、合作、或竞争这类的任务。例如一群无人机要沟通合作达成某项任务、围棋有竞争关系、甚至让一群人沟通发明新语言等等。真实世界里很多这类多人参与的任务,因此 MARL 也是未来很重要的一个发展重点。

Going Beyond Games

最後是我们一直提到的,如何把 RL 的成功从游戏带入更复杂更实用的领域。上一篇我们提到 RL 在不同领域应用的一些结果,例如广告投放、推荐系统、医疗系统等等。虽然有这些成果,但很多都只停留在学术 paper 里,尤其是在医疗这麽谨慎的领域。

RL 未来的发展,肯定会很注重在跨领域的成效,并为人类社会带来更多福祉。

参考资料

  1. MIT 6.S191 Lecture Slides: Deep Reinforcement Learning
  2. Applications of Deep Learning and Reinforcement Learning to Biological Data
  3. (Amini et al., 2020) Learning Robust Control Policies for End-to-End Autonomous Driving from Data-Driven Simulation
  4. Multi-agent reinforcement learning and the future of AI
  5. (Zhang et al., 2019) Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms

<<:  铁人赛29天 工具分享

>>:  [Day 30] LeetCode - 125 Valid Palindrome

第33天~还原资料库

这个的上一篇:https://ithelp.ithome.com.tw/articles/10283...

[Day3]PHP的资料型态03

PHP的资料型态 Object 对象 要创建一个新的对象 object,使用 new 语句实例化一个...

Day24

9.5节提到判断方法(predicate function)的概念,简单来说就是许多容器类别: 如...

为什麽也需要有 CLASSPATH 呢?

前一篇提到,我们在聊 PATH 是说电脑要知道可以执行 java 指令的程序放在哪里(路径), 那 ...

Day9:今天来聊一下Parrot Security的Nmap

Nmap是一款用於网路发现和安全稽核网路安全工具,Nmap是Network Mapper的简称 Nm...