当OpenAI在2022年11月发布ChatGPT时,它展示了生成性人工智能在商业中的潜力。到2024年,大型语言模型(LLM)领域迅速扩展,出现了许多适用于不同用例的模型。
在如此众多的LLM中,选择合适的模型可能会很具挑战性。组织必须比较模型的大小、准确性、代理功能、语言支持和基准性能等因素,并考虑成本、可扩展性、推理速度以及与现有基础设施的兼容性等实际因素。
选择LLM时需要考虑的因素
在选择LLM时,评估各种模型方面以及其旨在解决的用例至关重要。
全面评估模型可以更清晰地了解它们的整体有效性。例如,一些模型提供先进的功能,如多模态输入、功能调用或微调,但这些功能可能在可用性或基础设施需求上存在权衡。
在决定LLM时,需考虑的关键方面包括模型在各种基准上的表现、上下文窗口大小、独特功能和基础设施要求。
性能基准
当GPT-4在2023年3月发布时,OpenAI自豪地宣称该模型在MMLU、TruthfulQA和HellaSwag等基准测试中表现强劲。其他LLM供应商在推出新模型或更新时也同样提到基准性能。但这些基准到底意味着什么呢?
- MMLU。即大规模多任务语言理解,MMLU在57个不同学科(包括数学、历史和法律)上评估LLM。它不仅测试记忆,还测试知识的应用,通常需要大学水平的理解才能正确回答问题。
- HellaSwag。即“更难的结尾、更长的上下文和低样本活动用于对抗生成的情境”,HellaSwag测试LLM在响应提示时应用常识推理的能力。
- TruthfulQA。该基准测量LLM避免生成虚假或误导信息(即幻觉)的能力。
- NIHS。即“干草堆中的针”,该指标评估模型处理长上下文检索任务的能力。它评分LLM从一段冗长文本(“干草堆”)中提取特定信息(“针”)的能力。
在这些基准及其他类似基准中,MMLU是最广泛用于衡量LLM整体性能的指标。尽管MMLU提供了模型质量的良好指示,但它并未涵盖推理和知识的每个方面。为了全面了解LLM的性能,评估模型在多个基准上的表现是非常重要的,以查看它们在不同任务和领域中的表现。
上下文窗口大小
评估LLM时,另一个需要考虑的因素是其上下文窗口:它一次可以处理的输入量。不同的LLM具有不同的上下文窗口——以token为单位,token代表小块文本——供应商们不断升级上下文窗口大小以保持竞争力。
例如,Anthropic的Claude 2.1于2023年11月发布,具有200,000个token的上下文窗口,约150,000个单词。然而,尽管相比于之前的版本容量有所增加,用户指出Claude在处理大量信息时表现往往下降。这表明更大的上下文窗口并不一定意味着更好的处理质量。
独特模型特性
虽然性能基准和上下文窗口大小涵盖了一些LLM的能力,但组织还必须评估其他模型特性,例如语言能力、多模态性、微调、可用性以及与其需求相符的其他特定特性。
以谷歌的Gemini 1.5为例。下表列出了其一些主要特性。
因素 | Gemini 1.5 Pro |
多语言 | 是 |
多模态 | 是 |
微调支持 | 是 |
上下文窗口 | 最多2百万token(约150万单词) |
功能调用 | 是 |
JSON模式 | 是 |
可用性 | 仅限云服务 |
MMLU得分 | 81.9 |
虽然Gemini 1.5具有一些令人印象深刻的特性——包括在发布时是唯一能够处理高达2百万token的模型——但它仅作为谷歌的云服务提供。这可能对使用其他云提供商、希望在其基础设施上托管LLM或需要在小型设备上运行LLM的组织来说是一个缺点。
幸运的是,许多LLM支持本地部署。例如,Meta的Llama 3系列模型提供多种模型大小和功能,为有特定基础设施要求的组织提供更多灵活性。
GPU要求
选择LLM时,评估其基础设施要求是另一个重要组成部分。
较大的模型需要更多的GPU VRAM才能在组织的基础设施上有效运行。一个普遍的经验法则是将参数数量(以十亿为单位)乘以2,以估算模型所需的GPU VRAM。例如,一个具有10亿参数的模型大约需要2GB的GPU VRAM才能有效运行。
以下表格展示了几种Llama模型的特性、能力和GPU要求。
模型 | 上下文窗口 | 特性 | GPU VRAM要求 | 用例 | MMLU得分 |
Llama 3.2 1B | 128K tokens | 多语言文本 | 低(2 GB) | 边缘计算,移动设备 | 49 |
Llama 3.2 3B | 128K tokens | 多语言文本 | 低(4 GB) | 边缘计算,移动设备 | 63 |
Llama 3.2 11B | 128K tokens | 多模态(文本 + 图像) | 中等(22 GB) | 图像识别,文档分析 | 73 |
Llama 3.2 90B | 128K tokens | 多模态(文本 + 图像) | 高(180 GB) | 高级图像推理,复杂任务 | 86 |
Llama 3.1 405B | 128K tokens | 多语言,最先进的能力 | 非常高(810 GB) | 一般知识,数学,工具使用,翻译 | 87 |
在考虑GPU要求时,组织选择的LLM将高度依赖于其预期的用例。例如,如果目标是在标准用户设备上运行具有视觉功能的LLM应用,Llama 3.2 11B可能是一个不错的选择,因为它支持视觉任务,同时仅需适中的内存。然而,如果应用是针对移动设备,Llama 3.2 1B可能更合适,因为它的内存需求较低,能够在较小的设备上运行。
LLM比较工具
有许多在线资源可以帮助用户理解和比较各种LLM的能力、基准分数和成本。
例如,Chatbot Arena LLM排行榜为不同模型提供了整体基准分数,目前GPT-4o是领先模型。但请注意,Chatbot Arena的众包方法在AI社区的某些角落受到批评。
众包的LLM评估平台Chatbot Arena结合了用户投票和性能基准来评估其排行榜上的流行LLM选项。
Artificial Analysis是另一个资源,汇总了各种LLM的不同指标。它展示了模型的能力和上下文窗口,以及它们的成本和延迟。这使用户能够评估性能和操作效率。
Artificial Analysis比较摘要评估LLM的性能因素,相对于其他模型的平均水平,详细列出MMLU、定价和速度等指标。
通过使用Artificial Analysis的比较功能,用户不仅可以评估特定LLM的指标,还可以看到它与其他可用LLM的比较。
Marius Sandbu是挪威Sopra Steria的云传播者,主要专注于终端用户计算和云原生技术。