2023-04-09 09:18
来源:澎湃新闻
∙ 未来2% >
字号
·“我们现在仍旧在加紧迭代MOSS,预计将于4月中旬开源。整体而言,MOSS基于公开的中英文数据训练,目前已经拥有200亿参数,具有和人类对话的能力,并可以通过与人类交互实现迭代优化。但与此同时,尽管对语言的理解能力和ChatGPT已经非常相近,但是目前MOSS的整体完成度却并不高,主要原因在于MOSS在部署和训练上投入的资本还非常有限。”

复旦大学计算机科学技术学院教授、MOSS系统负责人邱锡鹏。
近日,在复旦大学管理学院主办的“Beyond ChatGPT:大型语言模型引发的时代变革”复旦科创先锋论坛上,复旦大学计算机科学技术学院教授、MOSS系统负责人邱锡鹏从技术和原理的角度深度解构ChatGPT模型,并介绍了国内首个类ChatGPT模型MOSS的相关细节。
ChatGPT为什么这么强?
ChatGPT是2022年底由美国OpenAI公司发布的人工智能模型,60天内月活用户直接破亿,成为史上用户增长最快的消费级应用,其主要功能就是与人类直接对话,比尔·盖茨称赞它是继PC和互联网之后技术上的又一次全新突破。
ChatGPT所展现出的令人惊艳的对话、理解与表达能力,让越来越多人意识到人工智能已经迎来了全新的里程碑,并且有望作为一个至关重要的基座系统,以前所未有的速度渗透进各行各业,持续引爆未来世界的数字经济体系。
那么,ChatGPT背后的技术原理到底是什么呢?
在正式解答这个问题之前,邱锡鹏认为,首先有必要先了解一下“语言模型”(Language Model)。语言模型,即利用计算机去重新建模人类语言,把自然语言转化为机器能够理解并判断的语言的一种机制。
人类的自然语言是十分灵活的,它一方面有规则,另一方面又随时可以打破规则,甚至存在巨大的歧义性,任何一句话,放在不同的情景下,大家对其理解都会大不相同,这就给建模造成了极大的困难与挑战。
人们可以利用概率判断来进行语句处理。如果这个句子符合自然语言的规律,就赋予它一个比较高的概率,反之,则赋予它一个比较低的概率。不过这样的话,新的问题又产生了:应该怎么去赋予句子以概率?
据邱锡鹏介绍,这就需要我们从互联网上获取海量的文本数据。但这也是一个难题,这个概率空间很大,难以直接建模。目前的解决方案是通过把整个句子的联合概率拆解成其中每个词的条件概率的连乘,大幅降低语言模型的建模难度。这样语言模型就转换为给定上文预测下文的机器学习任务。

语言模型,即利用计算机去重新建模人类语言,把自然语言转化为机器能够理解并判断的语言的一种机制。
一个好的语言模型,要想预测得越准,就越需要充分理解人类语言和世界常识。比如让模型预测鸡蛋是圆的而不是方的,本身便隐含着一定的生活常识。此外,在语言学上还有一个非常难的问题叫“指代”,比如说,“你”“我”“他”是代词,但是到底指的是谁却不知道,有些中文场景下,预测时甚至连代词都直接省略了,这就需要通过上下文补全,才能够把下一个词预测得更加准确。

只要见的公式足够多,模型也还是能够捕捉到“×”是什么规则,“+”是什么规则,从数据中完成自我学习。
再比如说“12×3+9=?”,则需要预测这个数学公式的结果。但是在训练时未必会告诉模型“×”代表什么意思,“+”代表什么意思,只是输入大量数学公式让它自己训练。然而只要见的公式足够多,模型也还是能够捕捉到“×”是什么规则,“+”是什么规则,从数据中完成自我学习。
为什么能够自我学习?这里面有一个信息压缩的概念,比如说有一万亿个词,可以把它原封不动保存在硬盘上,也可以用10亿个参数的神经网络把所有的语料知识记住。这就迫使神经网络不单要把这些浅层的知识存下来,还要把其中所蕴含的知识、规律累计下来,因为有很多信息是冗余的。道理很简单:把规律记下来就可以胜过很多浅层的文字。通过这样的方式,迫使语言模型努力发现这些文字背后所蕴含的各种各样的规律,从而使这个模型更好地理解人类语言和世界知识。
另外,在大型语言模型使用的神经网络构架方面,邱锡鹏提到Transformer,这个词的本意是变压器,有输入和输出,是一个类似于双塔式的结构。带入到语言模型里面,就是进去一个句子,出来另一个句子,给定上句预测下句的特定网络模型。

Transformer这个词的本意是变压器,有输入和输出,是一个类似于双塔式的结构。
如今Transformer已经在整个人工智能领域成为了最主流的架构体系。除了能力强之外,还有一个非常重要的原因在于它的架构设计对于GPU(图形处理器)运算特别友好。因为Transformer架构和卷积、循环神经网络不一样,卷积、循环神经网络都是在GPU诞生之前设计的,然后再去实现GPU加速。而Transformer则出现在GPU之后,所以设计方面就可以天然地充分考虑最大限度利用GPU能力,更容易做到大规模语言模型的效果。
不过,要想让模型的预测更准确,就势必需要大量的参数对其进行训练,以帮助大规模语言模型充分理解人类语言规则及其逻辑关系。目前在Transformer的加持之下,研究人员已经可以把模型规模做到百亿级、千亿级。这就是如今的大型语言模型(Large Language Model)。在大型语言模型当中,可以通过输入一些上文,经过语言模型背后的仿人类神经元构成的Transformer神经网络加工处理,从而实现对下一个词的预测,并输出相应文本。
“而在训练过程当中,科学家发现,计算量大概在10的22次方之后,模型能力会完成从量变到质变的飞跃,呈现出惊人的爆发式增长,我们通常也将其称之为‘涌现能力’。”邱锡鹏说。

计算量大概在10的22次方之后,模型能力会完成从量变到质变的飞跃,呈现出惊人的爆发式增长,我们通常也将其称之为“涌现能力”。
涌现能力背后隐藏着哪些关键技术?
“大型语言模型在达到百亿级规模后开始获得‘涌现能力’,而涌现能力的背后,则进一步隐含着三个非常重要的技术:情景学习、思维链和指令学习,这也是ChatGPT得以在人工智能领域叱咤风云的关键原因。”邱锡鹏说。

涌现能力的背后隐含着三个非常重要的技术:情景学习、思维链和指令学习。
情景学习(In-context Learning)深刻改变了传统机器学习范式,只需要通过一系列精心设计的条件语句(Prompt),对任务进行详细描述,然后再辅以一些情景例子,就能够让模型参考着既定例子完成特定任务。
邱锡鹏举了个例子,如果现在想要开发一个电影评论的情感分类器,去统计某部电影的评分到底是正面居多还是负面居多,那么就可以设计一个条件语句,先对任务进行描述,比如:“这是一个电影评论情感分类器。评论:‘我喜欢这部电影!’这条评论是正面的。评论:‘我不知道,它还行吧。’这条评论是中立的。评论:‘真是浪费时间,不推荐这部电影。’这条评论是负面的。”那么模型就会自动结合上下文进行学习并预测。这种模式跟传统的将知识直接储存在参数里,显然是不太一样的,也在一定程度上揭示了为什么ChatGPT通常是以多轮对话的形式来呈现。
事实上,对于ChatGPT来说,每一次接受人类发来的对话,它都会把之前的聊天历史全部作为上文,输入给语言模型,然后由语言模型续写出一个下文,反馈给用户。这样让一个大型语言模型直接和人类进行交互,从产品创新的角度确实是非常有智慧和远见。

情景学习(In-context Learning)深刻改变了传统机器学习范式。
模型能力可以通过扩大参数规模来提升,但是谷歌的研究员却另辟蹊径,想了一个更好的方法:将模型具有把一个复杂问题分解为多步推理的简单问题,让模型能够明白并学习人类到底是怎么一步一步推导到这个答案的,这个就叫做思维链(Chain-of-Thought)。
“大型语言模型经过海量预训练之后,已经见过了很多推理方式,我们只需要一步一步引导,就可以让它按照你想要的方式去推理。”邱锡鹏说,思维链方式进一步解放了模型潜力,让本来模型不会解的一个个复杂问题,可以有办法分解成很多简单问题,然后通过逐一解决简单问题,最终使得复杂问题同样迎刃而解。
至于自然指令学习(Learning from Natural Instructions),传统上,机器学习都需要大量标记数据,才能让机器学习模型从数据当中实现学习。但是标数据本身又非常繁琐,人类总归是希望语言模型最好能够直接从指令中进行学习,能够直接听懂人的意图。
而事实也证明,这个思路是可行的,甚至人类只需要在少量的任务上进行指令化,在经历大概40多个任务指令化之后对模型进行适度微调,就很容易泛化到上百、上千种任务,即使那些任务可能从来没有见过,它也仍旧能够很好地进行应对。
邱锡鹏认为,现在技术领域唯一存在的问题可能是:很多现有任务的指令化,尚未真正能够与人类实现“对齐”。尽管自然指令学习大幅提升了泛化能力,但是对人类真实意图的理解仍然有着很大差异,OpenAI(ChatGPT的开发机构)就希望收集真实的人类意图,让专家来写答案,从而更好地与人类偏好进行匹配。“在这个过程当中,人的参与意义非常重要,使得机器在迭代中始终保持和人类的价值观、思维方式对齐,也避免了机器自己迭代起来有可能会离人类的偏好和初衷越来越远。”邱锡鹏说。


雷达卡




京公网安备 11010802022788号







