史上最大AI语言模型——GPT-3又迭代了,现在有1750亿个参数。45TB数据,会编故事,还会三位数加减法
OpenAI表示,通过GPT-3,他们证明了无需梯度更新,无需微调,规模更大的语言模型就可以大大改善无关任务和小样本(few-shot)学习的性能,达到最先进微调方法的水准。
在部分任务中,甚至超越了最先进微调方法。
达到这样的效果,不需要梯度更新,不需要微调。只需要指定任务、展示少量演示,来与模型文本交互,就能使其完成任务。
这样一来,一方面,对于新任务,就不需要重新收集大量带标签的数据。另一方面,可以避免微调阶段出现过拟合,导致模型泛化能力下降的问题。而实现的关键,总结起来就是:大力出奇迹。