简称RL,在没有以往资料的前提下,将模型放到使用环境中,透过一些操作观察环境状态,并且接受环境的正回馈与负回馈,动态调整模型。
把机器比拟做小孩,需要自行去学习找出规律(EX:Alpha GO)。机器要用什麽方法学习?就像人类一样,要帮机器找个老师,只是这个老师比较严格,只会帮机器打分数,而机器只要记住如何得到高分的方式,以及如何避免得到低分,就能得到最优的结果。
强化学习算法:
今天先学Q-learning,假设明天要考试,我有 A.打LOL 跟 B.读书 两条路,在不知道後果的前提下,我当然选择A,等到我爸妈回来後,发现我没读书,所以海扁我,因此产生了阴影,所以我把A当成是负面行为,把B当成是正面行为,在做决定前会先想像後果,判断该选A还是B,将选择的次数变多跟不断更新回馈,找出最好的结果,大概就是Q-learning的概念,举例不好请见谅。
<<: GitHub Action 实作持续交付 - 常见代理程序架构与部署至 IIS
>>: [2021铁人赛 Day-03] ARM and 嵌入式开发板
自己的产出自己负责!每次交付专案之前我都会想到这句话, 是不是该再检查一下 程序码已经成功的buil...
#odoo #开源系统 #数位赋能 #E化自主 消费者来到实体商店消费,在与熟识的服务人员闲聊过程中...
链结串列(Linked List)建立的方法 append: 在尾部新增节点 insertAt: 在...
前言 窝齁齁齁齁齁,现在整个专案的画面本上美的像一幅毕卡索的画一样(? 但是呢,还差那麽一个不完美,...
哈罗 ~ 大家好 ~ 欢迎回来 ~ 相信征战职场的大家,一定会有个苦恼的问题,那就是每次老板签公文都...