Day 12 强化学习 (Reinforcement Learning)

强化学习什麽是?

简称RL，在没有以往资料的前提下，将模型放到使用环境中，透过一些操作观察环境状态，并且接受环境的正回馈与负回馈，动态调整模型。

浅谈强化学习

把机器比拟做小孩，需要自行去学习找出规律(EX:Alpha GO)。机器要用什麽方法学习?就像人类一样，要帮机器找个老师，只是这个老师比较严格，只会帮机器打分数，而机器只要记住如何得到高分的方式，以及如何避免得到低分，就能得到最优的结果。
强化学习算法:

Q-learning
Sarsa
Deep Q Network
Policy Gradients
Model based RL

今天先学Q-learning，假设明天要考试，我有 A.打LOL 跟 B.读书两条路，在不知道後果的前提下，我当然选择A，等到我爸妈回来後，发现我没读书，所以海扁我，因此产生了阴影，所以我把A当成是负面行为，把B当成是正面行为，在做决定前会先想像後果，判断该选A还是B，将选择的次数变多跟不断更新回馈，找出最好的结果，大概就是Q-learning的概念，举例不好请见谅。

<<: GitHub Action 实作持续交付 - 常见代理程序架构与部署至 IIS

>>: [2021铁人赛 Day-03] ARM and 嵌入式开发板

Day 12 强化学习 (Reinforcement Learning)

强化学习什麽是?

浅谈强化学习

Day26 订单 -- 重新付款2

[Day 7] .Net WhenAll 底层(2)

Angular 深入浅出三十天：表单与测试 Day05 - 如何写出优秀的测试？

【C#】Structural Patterns Flyweight Mode

【Day09】Blocking & Non-Blocking 的差异

day 14 - drone 的go-test & golangci-lint

【Day14】特殊性营运流程篇-POS

【Day4】[资料结构]-链结串列Linked List-实作

Swift纯Code之旅 Day27. 「画面最後的温柔 - 大胎头」

【DAY 5】主管签名好难追怎麽办？ Power Automate - 核准