最近关于人工智能(AI)的讨论很多,不可避免的涉及到一些术语和概念。但是,要用简单易懂的方式向非专业人士解释,是很有挑战性的。作者尝试将AI与人类的学习和成长进行对比,通过AI与熟悉事物的对比,简要介绍AI的原理、进展和意义。欢迎阅读~

自ChatGPT出现后,AI领域再次引起广泛关注。

最近关于AI的讨论层出不穷,不可避免的涉及到一些“样本、预训练、大模型”等概念和术语。

但是,用通俗易懂的方式向非专业人士解释这些概念是相当具有挑战性的。

但这对自己和他人都是很有价值的。

就像爱因斯坦说的,“如果你不能简单地解释,那你就理解得不够好(如果你不能简单地解释,那就意味着你理解得不够好)”。

今天我尝试将AI与人类的学习和成长进行对比,通过AI与熟悉事物的对比,简要介绍AI的原理、进展和意义。

1.“牙牙学语、蹒跚学步”vs“涌现”照顾过孩子的父母会有这样的感觉,有一天突然发现孩子会说话、会走路了。

这个过程不像是“0%、1%、2%……98%、99%、100%”,而是某一天突然变了。

模型的“涌现”是指模型在大量训练数据和复杂模型结构的支持下,突然表现出高性能和新能力。

简单来说就是“量变引起质变”的过程。

当训练样本足够大,算法迭代到一定阶段,模型的能力会突然提高。

“涌现”能力的前提是大量的持续输入。

孩子从出生开始,虽然听不懂,不会说话,但父母要不断地和孩子互动,和他说话。在积累的过程中,总有一天孩子的说话能力会“崭露头角”。

模型的开发过程是相似的。一开始,你可能什么都不知道。即使你能言善辩,也可能表现出“智障”或者“严重胡说八道”。

但在不断的大样本训练和迭代算法的过程中,总有一天它能像ChatGPT和GPT-4一样达到惊人的理解、推理和表达能力。

2.“读万卷书,走万里路,与万人谈”vs“预训,微调”

孩子会说话会走路后,人的学习正式开始。

一个人的学习和成长,通常是从基础教育和广泛学习开始,然后发展到某一领域的专业和深入学习。

我们不仅要广泛阅读,从书中学到很多东西,而且要实践和与他人交流。

在这个过程中,我们学以致用,得到反馈,对大脑中的知识进行修正和提炼,即从“知识到智慧”,实现“知行合一”。

在掌握了基础知识和技能之后,人们需要找到自己的专业领域。

在校期间,硕士生、博士生、教授都需要选择一个细分领域进行深入研究。

每个人也需要找到自己的行业和职业。

对于像GPT这样的大型模型,它们的开发也是通过类似的过程。

首先使用“大规模数据集”进行“预训练”,然后通过强化学习(RLHF)使用标记样本和人类反馈进行微调和迭代。

模型的预训练是指在大量未标记数据上训练模型,学习基础知识。

就像婴儿期和从小学到高中的很多学习。它不局限于某个领域,而是需要广泛、海量的信息输入。

微调是指用特定任务上的标注数据对模型进行微调,以更好地适应特定任务。

这就好比人在读了很多书之后,需要去实践,从实践中得到反馈,成长。

许多伟人和名人,如毛泽东、列宁、马斯克、查理·孟格等。,非常喜欢读书,也愿意和别人交流,在实际工作中多多实践。

只有这样,我们才能获得足够的知识,塑造他人的智慧。

3.“撒娇”vs“过度拟合”我们经常会看到一些“孩子因为琐事做傻事”的新闻,这通常是“撒娇”的结果,类似于模型中的“过度拟合”现象。

所谓机器学习,就是让机器从样本中学习,从而“拟合”规则,进而掌握技能。

在训练模型时,如果样本过于单一或者特征选择不当,很容易出现过拟合。

过拟合是指模型将训练样本中的特殊情况误认为一般情况。

这样,当面对新样本时,模型无法做出正确的处理。

同样,过度拟合导致的心灵(模型)脆弱,无法正确处理现实世界中的各种挫折(预测不准,概括能力差),也容易导致不幸的结果。

所以要让孩子面对各种情况,并给予反馈,让孩子了解和适应现实世界。

4.“职业教育/基础教育”vs“大模式,小模式”人的教育有两种。一个是从小教他一门手艺。比如“做饭、开车、当铁匠、木匠”等等,让他成为专业人士。此外,首先是漫长的基础教育,然后是高等和专业教育。先打好基础,再选专业方向。模特和人一样。你给他什么,他就会有什么样的产出,他就会有什么样的知识和技能。在大模型之前,大家熟知的猫狗识别、指纹识别、人脸识别等模型都是做具体的事情,类似于职业教育。

这样的模式可以称之为“小模式”。一方面是模型的尺寸小,另一方面是模型的能力范围比较窄。像GPT这样的模型之所以被称为大模型,不仅是因为训练数据集大,训练出来的模型规模大,还因为模型的能力范围广,仿佛“上知天文,下知地理”。读万卷书是大模型,开发一般智力。只读菜谱,练习烹饪技巧,都是小模式,发展特定技能。

5、“脑容量、字典、书籍”vs“大模型”我们可以从以下三个方面来直观地理解大模型。

首先,拿脑容量做个比喻。模型的大小就像动物的脑容量,脑容量越大通常意味着智慧越高。拥有更多神经元和神经元之间连接的大脑可以存储更多的知识。

其次,以字典为比喻。如果一种语言的字典里只有十个单词,那么这种语言所能表达的意义就会非常有限。但是,如果字典里有几万个单词,就能表达更丰富的信息。

最后,用书打个比方。为什么大模型更强大?

以GPT三号为例,其型号有800GB,即8000亿字节,大致相当于4000亿字。假设一本书有20万字,相当于200万本书。

可以说,这“浓缩”的200万本书,基本上可以涵盖人类几乎所有的知识,没有重复。

需要认识到,几千年来,人类知识的记录和传承基本上都是通过语言和书籍来进行的。)

所以可以看出,足够大的模型可以覆盖足够多的知识。

大模特有大智慧。

6.「写作能力的训练」vs「语言模型」常规的语言模型能力相对有限,如分词、词性判断等,最多能完成翻译等任务。

GPT作为一个“大型语言模型(Large Language Model,LLM)”,之所以如此强大,是因为它一开始就没有特定的目的。不是预设模型来完成某项任务,而是对模型进行广泛的输入和训练。

培养学生的写作能力有两个途径。

一个是提高写作能力,让孩子看各种写作技巧的书,参加各种写作培训班。但是,这样急切的方法,效果其实并不理想。

另一方面,一些家长鼓励孩子养成阅读的习惯,广泛阅读。

这样,孩子的阅读能力、知识面、思维能力都会大大提高,写作能力自然也会提高。

而且由于阅读速度和理解能力的增长,孩子阅读和审题的速度和准确率也会提高,从而提高数学、物理、化学等其他学科的成绩。

更重要的是,读书不仅可以提高成绩,还可以塑造一个人的世界观和气质,增强内心的力量。

可以说会对一个人的一生产生深远的影响。

所以不要急功近利,要培养“大榜样”。有了大模型,各种能力自然会出现。

7、“思维能力、写作能力”vs“性格预测”人们常说人如其言。一个人的文笔能体现出他的思维能力、表达能力等综合素质。

模型也是如此。ChatGPT的能力体现在它的答案上,体现在输出的单词上。

首先需要说明的是,ChatGPT在回答问题的时候是一个字一个字跳出来的,不是因为网速的原因,而是因为模型是这样工作的:它根据当前的情况不断推断下一个应该输出的单词(输出概率最大的单词)。

因此,“准确预测下一个要输出的字符”是模型能力的关键。

让我举一个例子来更好地理解这个概念的重要性。

假设有一部推理小说,情节跌宕起伏,线索错综复杂。

小说结尾有一句话:“凶手是_ _ _ _ _。”

如果AI在读这个的时候能输出正确的字符,证明这个模型非常强大。

表面上是性格,实际上是聪明。

8.“变形金刚”和“变形金刚”GPT是“生成式预训练变形金刚”的缩写,其中变形金刚是一种深度学习架构,特指一种基于自我注意机制的神经网络结构。

这个概念很关键,但是真的很难理解。

现在,试着解释一下。

可以用电影《变形金刚》做类比。

变形金刚分解一个汽车零件,然后变成一个人。

这个过程就像《变形金刚》中“编码解码”的过程。

将输入序列(如汽车)解码成不同的部件(零件),并记忆部件之间的连接关系(通过自我注意机制),然后根据相关信息组装输出序列(如人形机器人)。

在这个过程中,Transformer可以捕获输入序列中的长距离依赖,从而实现更高效、更准确的序列处理。

9.“终身学习”vs“机器学习”人与人最大的区别在于,有学习能力的人要跟上社会发展,不仅要在学生时代努力学习,更重要的是在日常工作生活中不断学习,终身学习。机器之所以这么厉害,AI之所以这么厉害,是因为人在不断学习。

更何况机器的记忆和学习速度是人的几百倍。

看看我们,一边担心“我会不会被AI取代”,一边懒洋洋地整天拿着手机打游戏刷视频。

懒惰的人类,努力吧!

10.“人脑,道”vs“可释”科技发展到今天,人类对大脑有了一定的了解,但还远未彻底、透彻。

同样,深度神经网络技术创建的AI模型也存在“可解释性”的问题。

虽然模型很强大,可以识别猫狗,可以回答问题,可以写代码,可以画图,但是即使是模型的开发者也无法准确解释某个结果是如何产生的。

可以说,人类用大脑开发出了原理未知的大型模型。

老子说,道可不凡。

AI也是如此。

过于简单的模型不具备强大的功能。

专栏作家

朱柏宁,微信微信官方账号:8: 35,人人都是产品经理专栏作家。前百度品牌总监、蚂蚁产品总监,《自我沟通》作者,现专注于人工智能和产品设计。

本文原载于《人人都是产品经理》。未经许可,禁止转载。

题图来自Unsplash,基于CC0协议。

本文仅代表作者本人,大家都是产品经理。平台只提供信息存储空间服务。