LLMs是黑盒AI系统,使用极大数据集上的深度学习来理解和生成新文本。现代LLMs的形成始于2014年,当时在一篇题为《通过联合学习对齐和翻译进行神经机器翻译》的研究论文中引入了注意力机制——一种旨在模仿人类认知注意力的机器学习技术。2017年,随着另一篇论文《注意力就是你所需要的》中引入了transformer模型,注意力机制得到了进一步完善。
当今一些最著名的语言模型都是基于transformer模型的,包括生成式预训练transformer系列的LLMs和基于transformer的双向编码器表示(BERT)。
ChatGPT运行在OpenAI的一系列语言模型上,仅在2022年发布后的两个月内就吸引了超过1亿用户。自此之后,许多竞争模型纷纷问世。其中一些属于谷歌和微软等大公司;另一些则是开源的。
该领域的不断发展难以追踪。以下是过去和现在一些最具影响力的模型。其中包括为当今领导者铺平道路的模型以及未来可能产生重大影响的模型。
本文是以下系列文章的一部分:
生成式AI是什么?你需要知道的一切
- 还包括:
- 2024年8大生成式AI工具类别
- AI会取代工作吗?可能受影响的9种职业类型
- 2024年最佳大型语言模型19选
当前顶级LLMs
以下是当今最相关的大型语言模型。它们进行自然语言处理并影响未来模型的架构。
BERT
BERT是谷歌在2018年推出的LLMs系列。BERT是一个基于transformer的模型,可以将数据序列转换为其他数据序列。BERT的架构是一系列transformer编码器,具有3.42亿个参数。BERT首先在一个大数据集上进行预训练,然后针对特定任务进行微调,包括自然语言推理和句子文本相似性。它被用于改进2019年谷歌搜索的查询理解。
Claude
Claude LLM专注于宪法AI,通过一系列原则指导AI输出,使AI助手变得有用、无害且准确。Claude由Anthropic公司创建。Claude LLM的最新迭代是Claude 3.0。
Cohere
Cohere是一个企业AI平台,提供多个LLMs,包括Command、Rerank和Embed。这些LLMs可以根据特定公司的用例进行定制训练和微调。创建Cohere LLM的公司由《注意力就是你所需要的》的作者之一创立。Cohere的一个优势是它不依赖于单一的云——这与绑定到Microsoft Azure的OpenAI不同。
Ernie
Ernie是百度的大型语言模型,为Ernie 4.0聊天机器人提供支持。该机器人于2023年8月发布,已吸引超过4500万用户。据传Ernie拥有10万亿个参数。该机器人在普通话中表现最佳,但也具备其他语言的能力。
Falcon 40B
Falcon 40B是由技术创新研究所开发的基于transformer的因果解码器模型。它是开源的,并在英语数据上进行训练。该模型还有两种较小变体可供选择:Falcon 1B和Falcon 7B(分别有10亿和70亿个参数)。Amazon已将Falcon 40B在Amazon SageMaker上可用。它还在GitHub上免费提供。
Gemini
Gemini是谷歌的LLMs系列,为同名聊天机器人提供支持。该模型取代了为聊天机器人提供支持的Palm模型,并在模型切换后将Bard重命名为Gemini。Gemini模型是多模态的,意味着它们可以处理图像、音频和视频以及文本。Gemini还集成在许多谷歌应用程序和产品中。它有三种尺寸——Ultra、Pro和Nano。Ultra是最大且功能最强大的模型,Pro是中端模型,Nano是最小的模型,专为设备上的任务设计以提高效率。Gemini在大多数评估基准测试中表现优于GPT-4。
Gemma
Gemma是谷歌的一系列开源语言模型,与Gemini使用相同的资源进行训练。Gemma有两种尺寸可供选择——一个20亿参数模型和一个70亿参数模型。Gemma模型可以在个人计算机上本地运行,并在多个评估基准测试中超越类似大小的Llama 2模型。
GPT-3
GPT-3是OpenAI的大型语言模型,拥有超过1750亿个参数,于2020年发布。GPT-3使用仅解码器的transformer架构。2022年9月,微软宣布独家使用GPT-3的基础模型。GPT-3比其前身大10倍。GPT-3的训练数据包括Common Crawl、WebText2、Books1、Books2和Wikipedia。
GPT-3是OpenAI公开参数计数的GPT系列模型的最后一款。GPT系列于2018年首次推出,随附OpenAI的论文《通过生成式预训练改进语言理解》。
GPT-3.5
GPT-3.5是GPT-3的升级版,参数更少。GPT-3.5使用人类反馈的强化学习进行微调。GPT-3.5是支持ChatGPT的GPT版本。据OpenAI称,有多个模型可供选择,其中GPT-3.5 turbo功能最强大。GPT-3.5的训练数据扩展到2021年9月。
它还集成到Bing搜索引擎中,但随后被GPT-4取代。
GPT-4
GPT-4是OpenAI的GPT系列中最大的模型,于2023年发布。与其他模型一样,它也是一个基于transformer的模型。与其他模型不同,其参数计数尚未向公众公开,但有传言称该模型拥有超过170万亿个参数。OpenAI将GPT-4描述为多模态模型,意味着它可以处理和生成语言和图像,而不仅仅局限于语言。GPT-4还引入了一个系统消息,允许用户指定语气和任务。
GPT-4在多个学术考试中展示了人类水平的性能。在模型发布时,一些人推测GPT-4接近人工通用智能(AGI),这意味着它与人一样聪明或更聪明。GPT-4为Microsoft Bing搜索提供支持,在ChatGPT Plus中可用,并将最终集成到Microsoft Office产品中。
GPT-4o
GPT-4 Omni(GPT-4o)是OpenAI继GPT-4之后的继任者,与前一个模型相比提供了多项改进。GPT-4o为ChatGPT创造了更自然的人类交互,是一个大型多模态模型,接受包括音频、图像和文本在内的各种输入。这些对话让用户像正常人类对话一样参与,实时交互性还可以捕捉到情绪。GPT-4o可以在互动中查看照片或屏幕,并就它们提出问题。
GPT-4o可以在232毫秒内做出响应,类似于人类的响应时间,并且比GPT-4 Turbo更快。GPT-4o模型是免费的,将可用于开发者和客户产品。
Lamda
Lamda(用于对话应用的语言模型)是由Google Brain在2021年宣布的一系列LLMs。Lamda使用仅解码器的transformer语言模型,并在大量文本数据上进行预训练。2022年,当时的谷歌工程师Blake Lemoine公开声称该程序具有意识,使LaMDA获得了广泛关注。它建立在Seq2Seq架构之上。
Llama
大型语言模型Meta AI(Llama)是Meta在2023年发布的LLM。最大版本拥有650亿个参数。Llama最初仅向经批准的研究人员和开发人员发布,但现在是开源的。Llama提供较小的版本,使用、测试和实验所需的计算资源较少。
Llama使用transformer架构,并在多种公共数据源上进行训练,包括来自CommonCrawl、GitHub、Wikipedia和Project Gutenberg的网页。Llama被有效泄露并产生了许多后代,包括Vicuna和Orca。
Mistral
Mistral是一个拥有70亿个参数的语言模型,在所有评估基准测试中均优于类似大小的Llama语言模型。Mistral还有一个专门用于遵循指令的微调模型。其较小的尺寸使其适用于业务目的的自托管和高效性能。它在Apache 2.0许可证下发布。
Orca
Orca由Microsoft开发,拥有130亿个参数,这意味着它小到可以在笔记本电脑上运行。它通过模仿LLM实现的推理过程来改进其他开源模型的进步。Orca以显著更少的参数达到与GPT-4相同的性能,并在许多任务上与GPT-3.5不相上下。Orca建立在130亿参数