语言模型是无监督多任务学习者。
摘要
自然语言处理任务,如问题回答、机器翻译、阅读理解和摘要,通常通过在特定任务的数据集上进行监督学习来解决。我们证明,当在一个名为WebText的包含数百万网页的新数据集上训练时,语言模型开始在没有任何明确监督的情况下学习这些任务。当基于文档和问题进行条件设置时,语言模型生成的答案在CoQA数据集上达到55 F1,在4个基线系统中,有3个实现了性能匹配或超越,而无需使用127,000+的训练样本。语言模型的容量对于零样本任务迁移的成功至关重要,增加容量可以在任务之间以对数线性方式提高性能。我们的最大模型,GPT-2,是一个拥有15亿参数的Transformer,在没有借助训练数据的零样本情况下,在8个测试的语言建模数据集中的7个上实现了顶尖水平的表现,但在适应WebText方面仍有不足。模型生成的样本展示了这些改进,包含连贯的文本段落。这些发现表明,我们有望构建能够通过自然场景中的示例来学习执行任务的语言处理系统。
1. 导言
如今,机器学习系统在所训练任务上表现优异,这得益于大型数据集、高容量模型和监督学习的相互结合(Krizhevsky等人,2012)(Sutskever等人,2014)(Amodei等人,2016)。然而,当面临数据分布(Recht等人,2018)和任务规格的微小变化(Kirkpatrick等人,2017)时,这些系统表现出脆弱性和敏感性。当前的系统更像是狭义的专家,而非胜任多项任务的通才。我们希望发展更具通用性的系统,能够执行许多任务,最终无需为每个任务手动创建和标注训练数据集。
创建机器学习系统的主要方法是收集展示目标任务正确行为的训练示例数据集,训练一个系统以模仿这些行为,然后在独立且相同分布(IID)的保留样本上测试其性能。这种方法在培养狭义专家方面取得了良好成果。然而,字幕模型(Lake等人,2017)、阅读理解系统(Jia和Liang,2017)以及图像分类器(Alcorn等人,2018)在处理多样性、多种类的输入数据的不稳定行为,凸显了这种方法的局限性。
我们怀疑,现有系统泛化能力不足的主要原因在于,人们普遍在单一领域的数据集上进行单任务训练。要使用当前架构实现健壮的系统,很可能需要在各种领域和任务上进行训练和性能评估。最近,已经提出了一些基准测试,如GLUE(Wang等人,2018)和decaNLP(McCann等人,2018),以便开始研究这一问题。
多任务学习(Caruana,1997)是一个有前景的框架,可以用来提高整体性能。然而,在自然语言处理领域,多任务训练仍然处于初级阶段。最近的研究报告显示,性能改进有限(Yogatama等人,2019),迄今为止最具野心的两项研究分别在10个和17个「(数据集,目标)对」上进行了训练(McCann等人,2018)(Bowman等人,2018)。从元学习的角度看,每个「(数据集,目标)对」都是从数据集和目标的分布中抽样出来的单个训练样本。当前的机器学习系统需要数百到数千个样本才能形成具有良好泛化能力的函数。这表明,多任务训练可能需要与当前方法相同数量的有效训练对,以实现其潜在的优势。要继续扩大数据集的创建和目标设计的规模,可能需要使用当前技术付出巨大努力。这促使我们探索进行多任务学习的其他设置。
目前在语言任务上表现最佳的系统采用了预训练和有监督微调相结合的方法。这种方法有着悠久的历史,逐渐朝着更灵活的迁移形式发展。起初,研究者学习词向量并将其作为特定任务架构的输入(Mikolov等人,2013年)(Collobert等人,2011年),接着迁移到循环网络的上下文表示(Dai & Le,2015年)(Peters等人,2018年)。近期的研究表明,不再需要特定任务的架构,迁移多个自注意力模块就足够了(Radford等人,2018年)(Devlin等人,2018年)。
尽管如此,这些方法仍然需要有监督训练来完成任务。当只有极少量或没有监督数据时,另一方面的研究表明语言模型在执行特定任务方面具有潜力,例如常识推理(Schwartz等人,2017年)和情感分析(Radford等人,2017年)。
在本文中,我们将这两个研究方向联系起来,继续朝更通用的迁移方法发展。我们证明语言模型在零样本设置下可以执行下游任务,无需任何参数或架构的修改。我们通过强调语言模型在零样本环境下执行各种任务的能力,展示了这种方法的潜力。依据不同的任务,我们取得了具有前景、竞争力和最先进水平的成果。
6. 讨论
许多研究致力于学习(Hill等人,2016)、理解(Levy & Goldberg,2014)以及严格评估(Wieting & Kiela,2019)有监督和无监督预训练方法的表征。我们的研究结果表明,无监督任务学习是一个值得进一步探讨的有前景的研究方向。这些发现或许有助于解释预训练技术在下游NLP任务中为何取得广泛成功,因为我们证明,在某种程度上,这些预训练技术中的其中一种已经开始直接学习执行任务,而不需要监督适应或修改。
在阅读理解方面,GPT-2在零样本环境中的表现与有监督的基准相当。然而,在其他任务如摘要方面,尽管从质量上看GPT-2已经执行了这个任务,但从定量指标来看,其表现仍然处于初级阶段。虽然这一研究结果具有启示性,但从实际应用角度来看,GPT-2的零样本性能仍然远远无法满足实际需求。
我们已经研究了WebText语言模型在许多典型NLP任务上的零样本性能,然而仍有许多其他任务值得评估。无疑,有很多实际任务中,GPT-2的性能仍然不比随机选择优秀。甚至在我们评估过的常见任务中,如问答和翻译,只有当语言模型具备足够的容量时,它们才能开始超过简单的基线。
尽管零样本性能在许多任务上为GPT-2的潜在表现建立了基准,但在微调之后的上限并不明确。在一些任务中,GPT-2的完全生成式输出与当前在许多问答和阅读理解数据集上表现卓越的基于抽取式指针网络(Vinyals等人,2015)的输出有显著差异。考虑到GPT在微调方面的过往成功,我们计划探讨在decaNLP和GLUE等基准上的微调,特别是,目前尚不明确GPT-2额外的训练数据和容量是否足以克服BERT(Devlin等人,2018年)中提到的单向表示的低效问题。
总结
当一个大型语言模型在一个足够庞大且多样的数据集上进行训练时,它能在众多领域和数据集中表现出色。GPT-2在8个经过测试的语言建模数据集中的7个上实现了零样本的顶尖性能。模型在零样本设置下能够完成的任务类型之多样,暗示着通过训练高容量模型来最大化足够多样化的文本语料库的似然性,开始学会执行大量令人惊叹的任务,而无需显式监督。