Day 27 - 强化学习 Reinforcement Learning(1)

马可夫决策过程 Markov decision process MDP

在概率论和统计学中，马可夫决策过程（英语：Markov Decision Processes，缩写为MDPs）提供了一个数学架构模型，用於面对部份随机，部份可由决策者控制的状态下，如何进行决策，以俄罗斯数学家安德雷·马尔可夫的名字命名，是马尔科夫链的一种扩展。link
在经由动态规划与强化学习以解决最佳化问题的研究领域中，MDP是一个有用的工具。广泛应用於机器人学，自动化控制，经济学和制造业的一种工具。
MDP的一个重要观念：”未来只取决於当前” link
- 为什麽强化学习会跟MDP有关呢？我们先看什麽是State(状态)
- 因为我们的大脑一开始并不知道环境的状态是怎麽样，所以只能从以前所经历的observation，action，reward跟现在所得到的observation, reward来去当作现在的状态
- 那如果我们要去估计下一个状态(St+1)是怎麽样的，是不是就要把S1~St的所有状态给考虑进去，这样模型便会非常的大，这时候Markov假说就有用了，Markov说的：未来只取决於当前，所以我们可以假设下一个状态只跟现在这个状态有关，有这个假设就可以把模型给缩小，不过这个假设也只是理想的状况下。
  因此我们可以把强化学习想像成是MDP的一种模型，因为我们从现在的状态来知道未来的状态，未来知道了，相对的，我们要找到最好的动作也变得有可能了。所以RL就变成是解MDP的一种模型了。

强化学习 Video

强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基於环境而行动，以取得最大化的预期利益。其灵感来源於心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。

强化学习和标准的监督式学习之间的区别在於，它并不需要出现正确的输入/输出对，也不需要精确校正次优化的行为。强化学习更加专注於在线规划，需要在探索（在未知的领域）和遵从（现有知识）之间找到平衡。

强化学习其实就是训练一个AI 可以通过每一次的错误来学习，就跟我们小时候学骑脚踏车一样，一开始学的时候会一直跌倒，然後经过几次的失败後，我们就可以上手也不会跌倒了。

wiki

应用

Robot 学习:
- Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization
  https://www.youtube.com/watch?v=hXxaepw0zAw
Game
- AlphaGo围棋
- Tetric (俄罗斯方块)
- 五子棋
对话系统：
- 有些已经把RL用在对话系统上，利用互动式学习，随着时间不断的提升对话系统
医疗：
- 利用RL来寻找最佳的治疗方案
Google auto ML：
- 使用RL来为计算机视觉和语言建模生成神经网路架构
自动驾驶