Day 12 强化学习 (Reinforcement Learning)

强化学习什麽是?

简称RL,在没有以往资料的前提下,将模型放到使用环境中,透过一些操作观察环境状态,并且接受环境的正回馈与负回馈,动态调整模型。

浅谈强化学习

把机器比拟做小孩,需要自行去学习找出规律(EX:Alpha GO)。机器要用什麽方法学习?就像人类一样,要帮机器找个老师,只是这个老师比较严格,只会帮机器打分数,而机器只要记住如何得到高分的方式,以及如何避免得到低分,就能得到最优的结果。
强化学习算法:

  • Q-learning
  • Sarsa
  • Deep Q Network
  • Policy Gradients
  • Model based RL

今天先学Q-learning,假设明天要考试,我有 A.打LOL 跟 B.读书 两条路,在不知道後果的前提下,我当然选择A,等到我爸妈回来後,发现我没读书,所以海扁我,因此产生了阴影,所以我把A当成是负面行为,把B当成是正面行为,在做决定前会先想像後果,判断该选A还是B,将选择的次数变多跟不断更新回馈,找出最好的结果,大概就是Q-learning的概念,举例不好请见谅。


<<:  GitHub Action 实作持续交付 - 常见代理程序架构与部署至 IIS

>>:  [2021铁人赛 Day-03] ARM and 嵌入式开发板

day 14 - drone 的go-test & golangci-lint

自己的产出自己负责!每次交付专案之前我都会想到这句话, 是不是该再检查一下 程序码已经成功的buil...

【Day14】特殊性营运流程篇-POS

#odoo #开源系统 #数位赋能 #E化自主 消费者来到实体商店消费,在与熟识的服务人员闲聊过程中...

【Day4】[资料结构]-链结串列Linked List-实作

链结串列(Linked List)建立的方法 append: 在尾部新增节点 insertAt: 在...

Swift纯Code之旅 Day27. 「画面最後的温柔 - 大胎头」

前言 窝齁齁齁齁齁,现在整个专案的画面本上美的像一幅毕卡索的画一样(? 但是呢,还差那麽一个不完美,...

【DAY 5】主管签名好难追怎麽办? Power Automate - 核准

哈罗 ~ 大家好 ~ 欢迎回来 ~ 相信征战职场的大家,一定会有个苦恼的问题,那就是每次老板签公文都...