大脑如何精准学习 (3) 错误回馈

「错误」的定义

重复上章节对「好奇心」的心理假设:

  • 大脑只有在感知到预测实际认知缺口时,才会启动学习。
  • 因此,如果不去发现错误,大脑就没有学习。

在展开细节前,先澄清一下,这里指的「错误」是指「大脑中流动的内在讯号」,而不是一定要在真实世界惨遭失败。

「惊讶」是学习的驱力

着名的「狗听到铃声会流口水」的制约实验,把这个实验背後的机制讲清楚一点:

  • 大脑计算感官输入 (铃声) 的加权总值,作出了预测 (期待後面会有食物)
  • 大脑计算这个预测,和实际刺激 (真的有食物) 的差别,
    • 这个差别称为「预测误差 prediction error」,是理论的核心概
    • prediction error 会测量每一次刺激带来的惊讶程度
  • 大脑会用这个惊讶讯号,校正内在表徵:
    • 内在模式依刺激强度和预测误差的比例作调整,使下一次的预测更接近真实性

简言之,大脑用感官输入时来预测後面刺激(食物)出现的机率

延伸的意义是:

  • 学习只有在大脑选择恰当输入(注意力)时,才会发生
  • 大脑用「输入」来产生预测(此即 active engagement)
  • 并评估这些预测的正确性 (error feedback)

这些心理机制被运用在人工神经网路里,在几乎所有的 AI 学习监督系统中都有应用,也就是「对反应给予清楚明显的回馈」。

在类神经网路中,学习就是降低不可预料性。大脑用 Input 来做预测,再根据惊讶、不可能性和错误程度来调整预测。

学习和联结 (associative) 无关

在上述理论浮现之前,有很长一段时间,大家认为大脑的学习是联结式的,学习是建立 A 和 B 的联结,因此从 A 可以想到 B。

这些略过作者的陈述,总之,已有清楚的实验证明,学习和 association 无关,和惊讶有关。

答对时,会有学习吗?

会的,例如我们问一个你完全不知道的题目。毕卡索的 last name 是 Diego 还是 Rodrigo。

假设你猜 Diego,这时候你自信心很低。也就是你不确定。

而得到答案後,发现你竟然猜对了!此时的回馈还是会提供你的讯息!

你在乱猜时,答对机率是 50%;後来你才知道原来是 100%,这之间仍然有 50%的缺口。因此,你的大脑仍然会将讯号散播出去,并更新你的知识。

大脑 & 错误讯号 & 惊讶反应

大脑的所有区域可以送出且交换错误讯号。例如用音符 & 旋律的例子,

  • 听到音符 CCG 时,听觉皮质送出一个低层次的错误讯号,因为 G 和 C 不同,所以产生惊讶反应
  • 讯号到底高一点的层次时,判断出了原来这个音符组合是「一闪一闪亮晶晶」的旋律,所以 G 引发的惊讶,在这个层次消失了
  • 此时 G 没有再往上激发下前额叶皮质的惊讶。

不过,如果改成 CCC 组合:

  • 这个单调的组合,在下层的听觉皮质区域,没有引起任何的讯号
  • 但在高一点的层次产生了惊讶,因为高层次知道有 CCG 组合,结果来了个 C

→ 只有得到「惊讶、出乎意料」的讯息时,才会被转呈到高层次的皮质。

大脑的每个区域都有这种发射错误讯号的机制。

预测 & 期待

当你建立一个预测,「期待某件事发生」时,你的报酬回路/多巴胺回路产生了反应。

接下来,多巴胺回路开始预测「会不会有错误」?如果你「预测自己会获得报酬」,多巴胺也会起反应。

意思是:自己批判自己,也会有学习效果,不必等到外在世界给你回馈。

这是为什麽 AI 应用中,要解决复杂问题时,普遍会用第一个神经网路去批判另一个神经网路。

回馈不是处罚

我们不处罚 AI,我们只是告诉他哪里错了,并且放上标记。

後设分析清楚指出,回馈品质是决定成功的因素之一。

设立清楚的学习目标,并且让学生慢慢达成。

错误回馈不是「应该要怎麽做」

有一个讨论是「告诉学生『应该要怎麽做』,是不是讨论告诉他们『做错了』」

对於逻辑完美的人,上述状况才会成立,逻辑完美人会知道在 A 选 B 的题目中,两者的机率是 50%

但对孩子来说,对二选一的题目,他们不会明显推论「选择我选 A ,老师说我错了,那麽正确答案就是 B」,但他们很容易就可以接收到「我做错了」的讯息。

总之,对成人来说,报酬和处罚,两者的讯息反应是等量的。而对青少年来说,因为青春期费洛蒙的影响,他们对报酬的期待远大於错误。因此,对青少年沟通时,绝对不能混淆 error feedback 和处罚,一定要给予中性的回馈。

回馈一定要明确

「打分数」最大的问题,是因为他不明确,分数是一堆不同错误的总和,所以他的讯息度不明确,无法成功引发 error feedback 反应。

分数要伴随详细的评估,才会有效。

电玩设计中,当难度提高时,永远会有「重新挑战」的机制,但学校的体验中,老师通常不会让学生重新考试,而是在下一周追加新的习题。这种设计造成了灾难。

数学焦虑徵候群

在「坏成绩造成大脑情绪系统巨大伤害」的相关研究中,数学焦虑已经被大量测量,我们清楚看到痛苦和恐惧的神经回路被活化了,和大脑深处的杏仁核建立连结,产生情绪海啸,摧毁计算、短期记忆和学习的能力。

从老鼠的实验中,我们更看到突触冻结,形成僵硬的神经网路。

以上神经机制,对应到心理学说的 fixed mindset。反之则是 growth mindset.

要培养 growth mindset,在回馈时要避免指出「什麽是好」,需要建构奖励的是

  • 下苦功
  • 试着说出自己的看法,即使错了也没关系
  • 关注自己每天的进步

「考试」非常有效,前提是成功引发 error feedback 机制,不要引发处罚和莫名其妙的分数。

读书 & 测验穿插,效果最好

active engagement + error feedback,两者混搭,效果最好。

花太多时间写笔记、读课本,但一直迟迟不测验,效果会和「有做测验」的组别差很多。

间隔效应

把训练过程间隔开来,比一次集中的效果好 3 倍以上。

集中一次学习,会在重复中减低大脑活动。但分成很多天来学,则可以保持新奇感,也就是大脑的活化程度。

理想的间隔

关於理想的间隔,一种说法是「睡一觉以後」,

但比较仔细的心理研究认为,最佳间隔要看「你想要保留记忆多久」。例如想要记忆 10 个月,那每 2 个月拿出来温习,效果最持久。

也就是 20% 长度间隔。

在有长期间隔後,重复温习同一份资料,我们说服大脑「这份资料很重要,将来会用到」,此时,记忆的机制,会把记忆投射到未来。

上述研究很容易落实在课堂中。理论上,「从头到尾温习」的效果比较好,所以期末考优於月考,但在实践上,期末考比较容易引发「临时抱佛脚」,而不是「每天间隔温习」,这是理想与现实的落差。

重复同样的东西

一直重复同样的东西,会学得更多吗?→ 会,只要不确定性存在,就会产生学习。除非已经 100% 精通。不停重复才会形成固化(consolidation),此时才会真正让资讯进入潜意识,让心智自动化。


<<:  DAY29 - 做专案的心态

>>:  快速浏览文章的重点大进击

[Lesson26] Kotlin - Inheritance

如果类别要被继承,可以使用 open 修饰 open class Person(var name :...

Azure - Day1 储存体帐户 (Storage Accounts)

Home -> 资源群组(Resource Groups) -> 储存体帐户(Stor...

聊天软件上的 WebRTC

为什麽要用 WebRTC 我们的 App 是聊天软件,一开始只有文字对话,那时用 socket.io...

Leetcode 挑战 Day 01 [前言与 1. Two Sum]

前言 我是一位程序设计的初学者,对程序设计非常有兴趣,希望在这个系列的Leetcode挑战中能提升自...

Day 12 ( 中级 ) 翻转大黄蜂音效 ( 二代板 )

翻转大黄蜂音效 ( 二代板 ) 教学原文参考:翻转大黄蜂音效 ( V2 ) 这篇文章是针对 micr...