[铁人12:Day 29] 「AI 的未来十年」摘要 5:固有知识框架

知识表达

符号处理其中的一个关键技术是「知识表达 (knowledge representation)」,它是一个非常困难的工作,而到目前为止还没有令人满意的成果。

在 AI 的历史里,在这方面投入最大的专案,是由 Lenat 等人於 1984 年倡议的 CYC 专案 (CYC: Using common sense knowledge to overcome brittleness and knowledge acquisition bottlenecks.)。他们试图将心理学、政治学、经济学、生物学等等领域中的常识,以严谨的逻辑形式建构出来,以突破知识获得的瓶颈。在数以千计的人年 (person-years) 投入後,至今仍未能看到成功的商业应用,许多人已将其视为失败的案例。

CYC 专案耗费了数十年的时间以及庞大的人力,试图以人工的方式将人类的知识以机器能够理解的格式表达出来。但终究成果有限。相较於 CYC 投入的人力及其有限的成果,GPT-2 (and GPT-3) 表现不得不让人觉得惊艳!GPT 似乎毫不费「人力」地将海量输入资料内的「知识」提取出来。

GPT 的问题是,它只能算是一个「文字使用」的模型,而非一个「知识及概念」的模型 (it is a model of word usage, not a model of ideas)!它所表现类似智慧的行为其实只是文字语句的统计结果。

由 CYC 的耗费时间人力,以及 GPT 的肤浅,Marcus 得到的结论是:

我们需要一个像 CYC 那种以符号及抽象概念为主的知识系统,但是绝不能再试图以人工的方式建立它,我们要找出系统化及自动化的方法,必须像 GPT 一般,无须人力介入即能处理海量的资料。
This brings me to the second major claim of the current paper: systematic ways to induce,represent, and manipulate large databases of structured, abstract knowledge, often in causal nature, are a prerequisite to robust intelligence

新的知识系统

这个知识系统必须有下列的特质:

1. 它必须要有学习能力 (Most is likely to be learned)
世界随时都有新的知识产生,它必须能够撷取新知识的抽象概念,及其因果关系。

2. 这个知识系统其中一部份,要包含以「符号」方式表达的社会文化常识。
这类的知识需界定变数之间定量的关系 (quantified relationships)。例如:对於所有的人类 x, y, z,如果 x 是 z 的孙子,那麽必定有个 y 他是 x 的父母 (parent) 也是 z 的子女 (child)。

3. 这个知识系统其中一部份,要包含「高阶的抽象概念」
现有的知识表达形式,比较容易表达像是「出生於」 BORN (ABRAHAM LINCOLN, KENTUCKY) ,以及「首府」 CAPITAL (KENTUCKY, FRANKFORT) 这类的知识,但是对於「如果瓶子破了,他的内容物会溢出来」这类高阶的概念,还没有适当的表示方法。新的知识系统必须要克服这一点。

4. 规则 (rules) 及例外 (exceptions) 必须共存 (Rules and exceptions must co-exist)
知识系统必须能同时兼容规则及例外状况,并能处理统计及机率性的知识。例如:「蚊子会传染疟疾,但不是每一只蚊子都会」这类的知识必须能有效的表达。

5. 这个知识系统其中一部份,要包含「因果关系」,并支援「违实推论 (counterfactual reasoning)」
人们知道美国每一州有一个首府,也知道它由当州居民及政府的某些政治行为决定出来的 (因果关系),更知道在特定的状况下此首府是可能被更改的 (违实推论)。

6. 补足网路上无法获得的知识
有很多知识 (由其是常识) 并不常出现在网路上,因为它们被视为理所当然,普通到人们不会去谈论它们 (例如掉落的瓶子会破)。

7. 这个知识系统必须包含广博的知识
要看懂一篇小说或一场电影,所需的知识是极其多的,这个知识系统必须有这样的广度。

8. 克服将知识应用於实务的困难
这个部份目前尚无有效的解决方法。

9. 这个知识系统必须包含必要的「先备知识 (prior knowledge)」
就像人类与生俱来就拥有一个本能一般,这个知识系统在自动学习之前,也应具备有先备知识。

固有的知识框架 (Innate Frameworks for Knowledge)

AI 系统是否应该具有「先备知识」?这是一个非常有争议的话题。现今的 AI 及机器学习的主流意见,是非常排斥「先备知识」的,他们认为绝大部份的知识都应由「学习」而来。而 Marcus 和一些少数的研究人员,则认为先备知识是强固型 AI 系统所必须具备的特性!

我们暂且抛开争议,来看看 Marcus 提出的「固有的知识框架 (Innate Framework for Knowledge)」的相关论述。

Marcus 强调:

我们需要一些核心知识, 利用这些核心知识来监督及指导我们学习其他的知识。
We need some core knowledge in order to direct the rest of what we learn.

强固型的 AI 系统应该不是从无到有,全部由学习而来的。我们应该建立一个新的学习系统,一开始它就必须包括了固有的知识框架,这个知识框架具备处理「时间 (time)」、「空间 (space)」、以及「因果关系 (causality)」的基本能力,这些基本能力一方面能加速往後系统的学习速度;另一方面能限制系统学习的结果 (constrain the hypotheisi space),让系统更值得信赖。

这个知识框架的格式为何有待讨论,它可能是类似 CYC 的格式,也可能是一个新发明,无论如何,它是一个强固型 AI 系统的先决条件。


<<:  [Day28]用Canvas打造自己的游乐场-labyrinth 收尾

>>:  【Day30】最後一天的回顾笔记:我们没做到,但也做到了!

[Day 30] LeetCode - 125 Valid Palindrome

本篇同步发布於Blog:[解题] LeetCode - 125 Valid Palindrome 平...

Day_29:让 Vite 来开启你的Vue之 跌入深坑_ Suspense非同步元件(续上集)

Hi Dai Gei Ho~ 我是Winnie ~ 不知道大家记不记得,在昨天文章中我们提到了 如果...

依赖注入

依赖注入与测试 昨天介绍了 Laravel 的 Service Container ,其主要的功能就...

[13th-铁人赛]Day 5:Modern CSS 超详细新手攻略 - Selector (一)

今天再来深度研究一下CSS的语法!我要介绍的是CSS中的选择器,选择器是最重要的语法之一,决定了要改...

DAY7 第一周回顾

第一个礼拜我们经历了动机前言跟介面与prototype的设计,那该来看看我这次的专案的各项设计吧! ...