Day 28 / DL x RL / RL 不只会打电动?

RL 比较知名的应用场合和研究成果大部分都分布於游戏、自驾车、和机器人领域。事实上 RL 可以有非常广的应用,今天就来介绍三篇比较不一样的 RL 应用,或许更能启发大家将 RL 使用在自己的任务上。

RL for Real-Time Ads Bidding

(Cai et al., 2017) Real-Time Bidding by Reinforcement Learning in Display Advertising

当一个使用者进入页面准备看到广告时,各个广告主会开始即时竞标这个广告栏位,竞标成功即可投放广告。一个公司的 real-time ads bidding(广告即时竞价)做得好不好,攸关他们的收入来源,但要做得好背後需要复杂的 algorithm 来达成。

这篇 paper 利用 RL 来进行 real-time ads bidding。Formulation 如下:

  • Agent:bidding agent。
  • Environment:广告市场和使用者。
  • State:对於广告投放决策有影响的因素,例如预算、使用者资讯等等。
  • Action:广告竞标金额。
  • Reward:如果竞标成功,会损失投放金额,但或许能获得使用者的点击。

RL formulation
—— RL formulation 示意图。

当然训练 environment 会基於历史 data,否则让 agent 直接进入市场训练成本太高。

Paper 中使用 neural network 帮助在 large-scale 的环境中 approximate value function,并使用 model-based learning 来做学习。

最後实验在两个 real-world dataset 上,分别超越了 state-of-the-art performance 达 16.7% 和 7.4%,甚至实际放在真实环境中跑,取得了点击率多 44.7% 的大幅进步。

相信看到这样的成果,业界肯定都开始请 ads 团队慢慢导入 RL 了!

RL for News Recommendation

(Zheng et al., 2018) DRN: A Deep Reinforcement Learning Framework for News Recommendation

Recommentation system(推荐系统)一直是很多产品很重要的一环。新闻、贴文、影片推荐等等,其实也可以用 RL 来试试。

这篇 paper 用 RL 来改善传统 news recommendation 中只在乎当下点击率而不考虑长远对用户的影响,或是一再推荐同一篇新闻的毛病。

RL formulation 如下:

RL formulation
—— RL formulation 示意图。

Paper 中使用类似 DQN 的架构来训练,并特别着重有足够的 exploration 来避免重复推荐同一则新闻,因此除了传统 https://chart.googleapis.com/chart?cht=tx&chl=%5Cepsilon-greedy,还加入了 explore network 来加强 exploration。

最後让 agent 训练在 6 个月的新闻推荐互动历史 data 上,并放在真实环境中跑了 1 个月。两个阶段的点击率、ranking quality、和多样程度对比 baseline performance 都超越了不少。

RL 在 recommendation system 这个非常重要的领域越来越受到重视,未来肯定有更多有趣的发展可以期待。

RL for Healthcare

(Yauney et al., 2018) Reinforcement Learning with Action-Derived Rewards for Chemotherapy and Clinical Trial Dosing Regimen Selection

机器学习在医疗领域通常很难应用,因为 data 可能太私密不易取得或太少不好训练,有些任务又对精准度要求极高。RL 因为不需要 data 来训练,或许是个让机器学习深入医疗领域的好选择。

这篇 paper 运用 RL 来决定化疗和临床试验要投入的用药剂量。Formulation 大致如下:

  • Agent:假医生。
  • Environment:用现有的 TGI(Tumor Growth Inhibition,肿瘤抑制率)model 来模拟。这个 model 可以预测用药後肿瘤体积的改变。
  • State:病人的 MTD(Mean Tumor Diameter,肿瘤大小)历史轨迹。
  • Action:投药剂量。Paper 中将剂量 discretize。
  • Reward:MTD 大小改变。

RL formulation
—— RL formulation 示意图。

Paper 中用了 deep Q-learning 将 model 训练在不同的医疗限制和目标之下,并将结果跟专业医生的 policy 比较。结果上来说,在没有太多限制和额外目标的情况下,policy 效果可以媲美专业医生。这也表示 RL 是可以用在协助医疗的任务上的。

但这个 model 只能够媲美而不能超越专业医师判断。如此一来其实无法取得患者的信任,不太可能实际运用,只能当作是一个前端的研究结果吧。

在医疗界中,不知道是不是真的有这样子运用 RL model 在帮助做决策,毕竟如果没有百分之百的精准度,那麽百分之百会起争议。但 RL 在医疗界的应用依然是个很有趣的问题,值得对医疗有兴趣的人多多探索。

参考资料

  1. Applications of Reinforcement Learning in Real World
  2. 10 Real-Life Applications of Reinforcement Learning
  3. A review of recent reinforcement learning applications to healthcare

<<:  Day 28 - 从大学肄业,联成电脑,到 Microsoft MVP 得奖,从零开始的软件工程师

>>:  第 29 天 - RxSwiftExt

第二十二天:试写 Gradle Plugin

在使用了 Gradle 这麽多天後,您应该会发现,几乎所有的专案都至少会用到几个 Plugin 来增...

Day28 - 云端交易主机 - GCP云端平台申请&架设(Windows)

云端交易主机 - GCP云端平台申请&架设(Windows) 考虑到大部分使用者仍然习惯 W...

正则表达式搜集、DOM、Clean Code

1. 正则表达式搜集 (1) 0~20字元限制 /^\S{0,20}$/ a. 非空白开头 b. {...

Day4 官方 Demo 说明

今天我们要藉由官方所提供的 Demo,来介绍几个关键实体与流程的运作。再开始本篇 Demo 安装前,...

[Day 11] 建立 Baseline — 开启机器学习专案的第一步

A chain is only as strong as its weakest link. ― ...