标签: Google

  • Google和OpenAI的大模型发展历程

    Google和OpenAI的大模型发展历程

    图片来自清华大学范玉顺教授《人工智能与大模型的发展和应用》报告内容

    Google

    • 2017年6月: 谷歌大脑团队发表论文《Attention is all you need》,首次提出了基于自注意力机制的Transformer模型,并首次将其用于自然语言处理。
    • 2018年10月: 提出BERT模型,发布了两套BERT模型,参数总数分别为110M和340M。
    • 2019年10月: 发布了110亿参数的预训练模型T5。
    • 2021年1月: 推出1.6万亿参数的Switch Transformer。
    • 2021年5月: 发布了1370亿参数的LaMDA。
    • 2022年4月: 发布了5400亿参数的PaLM。
    • 2023年12月: 推出多模态大模型Gemini。

    OpenAI

    • 2017年6月: 基于谷歌的那篇《Attention is all you need》文章开始发展。
    • 2018年6月: 推出1.17亿参数的GPT-1模型。
    • 2019年2月: 推出15亿参数的GPT-2模型。
    • 2020年5月: 发布了1750亿参数的GPT-3。
    • 2022年3月: 发布InstructGPT,回答更加真实。
    • 2022年11月: 发布ChatGPT。
    • 2023年11月: 推出GPT-4 Turbo,可输入128K个Token。
    • 2024年1月: 推出GPT应用商店。
  • AGI经典文章:Attention Is All You Need

    AGI经典文章:Attention Is All You Need

    Attention Is All You Need 主要介绍了Transformer模型,这是一个完全基于注意力机制的新型网络架构。

    文章核心要点
    Transformer架构:多头注意力机制:通过并行化的多头注意力机制,使模型可以在不同的子空间上同时关注信息,提高了模型的表达能力和训练效率。位置编码:由于Transformer模型没有循环结构,需要通过位置编码(Positional Encoding)注入位置信息,使模型能够捕捉序列中的位置信息。
    注意力机制的类型:缩放点积注意力(Scaled Dot-Product Attention):通过缩放点积来计算注意力得分,以缓解点积值过大导致的梯度消失问题;自注意力(Self-Attention):使得序列中的每个位置都可以与序列中的其他位置进行交互,从而捕捉全局信息。
    计算效率:Transformer模型相比RNN具有更高的并行计算能力和更低的计算复杂度,特别是在处理长序列时表现优异。
    模型应用:Transformer在多个自然语言处理任务中表现出色,如机器翻译、文本生成等,显著超过了当时的最先进模型。
    训练细节:使用标准的WMT 2014英德和英法数据集进行训练,并采用字节对编码(Byte-Pair Encoding)对句子进行编码,提高了模型的通用性和性能。

    摘要
    当前的序列转换模型大多基于复杂的循环神经网络(RNN)或卷积神经网络(CNN),包括编码器和解码器。最优的模型通常通过注意力机制将编码器和解码器连接在一起。我们提出了一种新的简单网络架构——Transformer,完全基于注意力机制,完全放弃了循环和卷积。两个机器翻译任务的实验表明,这些模型在质量上更优,同时具有更高的并行性,训练时间显著减少。我们的模型在WMT 2014英德翻译任务中达到28.4的BLEU分数,比现有最优结果(包括集成)提高了超过2个BLEU。在WMT 2014英法翻译任务中,我们的模型在八个GPU上训练3.5天后,建立了新的单模型最先进BLEU分数41.8,仅为文献中最优模型训练成本的一小部分。我们证明了Transformer在其他任务中的良好泛化能力,通过将其成功应用于英语成分解析任务。

    全文阅读
    https://arxiv.org/pdf/1706.03762