RL 不只会打电动？

RL 比较知名的应用场合和研究成果大部分都分布於游戏、自驾车、和机器人领域。事实上 RL 可以有非常广的应用，今天就来介绍三篇比较不一样的 RL 应用，或许更能启发大家将 RL 使用在自己的任务上。

RL for Real-Time Ads Bidding

当一个使用者进入页面准备看到广告时，各个广告主会开始即时竞标这个广告栏位，竞标成功即可投放广告。一个公司的 real-time ads bidding（广告即时竞价）做得好不好，攸关他们的收入来源，但要做得好背後需要复杂的 algorithm 来达成。

这篇 paper 利用 RL 来进行 real-time ads bidding。Formulation 如下：

—— RL formulation 示意图。

当然训练 environment 会基於历史 data，否则让 agent 直接进入市场训练成本太高。

Paper 中使用 neural network 帮助在 large-scale 的环境中 approximate value function，并使用 model-based learning 来做学习。

最後实验在两个 real-world dataset 上，分别超越了 state-of-the-art performance 达 16.7% 和 7.4%，甚至实际放在真实环境中跑，取得了点击率多 44.7% 的大幅进步。

相信看到这样的成果，业界肯定都开始请 ads 团队慢慢导入 RL 了！

Recommentation system（推荐系统）一直是很多产品很重要的一环。新闻、贴文、影片推荐等等，其实也可以用 RL 来试试。

这篇 paper 用 RL 来改善传统 news recommendation 中只在乎当下点击率而不考虑长远对用户的影响，或是一再推荐同一篇新闻的毛病。

RL formulation 如下：

—— RL formulation 示意图。

Paper 中使用类似 DQN 的架构来训练，并特别着重有足够的 exploration 来避免重复推荐同一则新闻，因此除了传统 $\epsilon$ -greedy，还加入了 explore network 来加强 exploration。

最後让 agent 训练在 6 个月的新闻推荐互动历史 data 上，并放在真实环境中跑了 1 个月。两个阶段的点击率、ranking quality、和多样程度对比 baseline performance 都超越了不少。

RL 在 recommendation system 这个非常重要的领域越来越受到重视，未来肯定有更多有趣的发展可以期待。

机器学习在医疗领域通常很难应用，因为 data 可能太私密不易取得或太少不好训练，有些任务又对精准度要求极高。RL 因为不需要 data 来训练，或许是个让机器学习深入医疗领域的好选择。

这篇 paper 运用 RL 来决定化疗和临床试验要投入的用药剂量。Formulation 大致如下：

Agent：假医生。
Environment：用现有的 TGI（Tumor Growth Inhibition，肿瘤抑制率）model 来模拟。这个 model 可以预测用药後肿瘤体积的改变。
State：病人的 MTD（Mean Tumor Diameter，肿瘤大小）历史轨迹。
Action：投药剂量。Paper 中将剂量 discretize。
Reward：MTD 大小改变。

—— RL formulation 示意图。

Paper 中用了 deep Q-learning 将 model 训练在不同的医疗限制和目标之下，并将结果跟专业医生的 policy 比较。结果上来说，在没有太多限制和额外目标的情况下，policy 效果可以媲美专业医生。这也表示 RL 是可以用在协助医疗的任务上的。

但这个 model 只能够媲美而不能超越专业医师判断。如此一来其实无法取得患者的信任，不太可能实际运用，只能当作是一个前端的研究结果吧。

在医疗界中，不知道是不是真的有这样子运用 RL model 在帮助做决策，毕竟如果没有百分之百的精准度，那麽百分之百会起争议。但 RL 在医疗界的应用依然是个很有趣的问题，值得对医疗有兴趣的人多多探索。