You dont have javascript enabled! Please enable it!

如何选择适合您需求的法学硕士

在2022年11月发布ChatGPT时,它展示了生成性在商业中的潜力。到2024年,大型语言模型(LLM)领域迅速扩展,出现了许多适用于不同用例的模型。

在如此众多的LLM中,选择合适的模型可能会很具挑战性。组织必须比较模型的大小、准确性、代理功能、语言支持和基准性能等因素,并考虑成本、可扩展性、推理速度以及与现有基础设施的兼容性等实际因素。

选择LLM时需要考虑的因素

在选择LLM时,评估各种模型方面以及其旨在解决的用例至关重要。

全面评估模型可以更清晰地了解它们的整体有效性。例如,一些模型提供先进的功能,如多模态输入、功能调用或微调,但这些功能可能在可用性或基础设施需求上存在权衡。

在决定LLM时,需考虑的关键方面包括模型在各种基准上的表现、上下文窗口大小、独特功能和基础设施要求。

性能基准

当GPT-4在2023年3月发布时,OpenAI自豪地宣称该模型在MMLU、TruthfulQA和HellaSwag等基准测试中表现强劲。其他LLM供应商在推出新模型或更新时也同样提到基准性能。但这些基准到底意味着什么呢?

  • MMLU。即大规模多任务语言理解,MMLU在57个不同学科(包括数学、历史和法律)上评估LLM。它不仅测试记忆,还测试知识的应用,通常需要大学水平的理解才能正确回答问题。
  • HellaSwag。即“更难的结尾、更长的上下文和低样本活动用于对抗生成的情境”,HellaSwag测试LLM在响应提示时应用常识推理的能力。
  • TruthfulQA。该基准测量LLM避免生成虚假或误导信息(即幻觉)的能力。
  • NIHS。即“干草堆中的针”,该指标评估模型处理长上下文检索任务的能力。它评分LLM从一段冗长文本(“干草堆”)中提取特定信息(“针”)的能力。

在这些基准及其他类似基准中,MMLU是最广泛用于衡量LLM整体性能的指标。尽管MMLU提供了模型质量的良好指示,但它并未涵盖推理和知识的每个方面。为了全面了解LLM的性能,评估模型在多个基准上的表现是非常重要的,以查看它们在不同任务和领域中的表现。

上下文窗口大小

评估LLM时,另一个需要考虑的因素是其上下文窗口:它一次可以处理的输入量。不同的LLM具有不同的上下文窗口——以token为单位,token代表小块文本——供应商们不断升级上下文窗口大小以保持竞争力。

例如,Anthropic的Claude 2.1于2023年11月发布,具有200,000个token的上下文窗口,约150,000个单词。然而,尽管相比于之前的版本容量有所增加,用户指出Claude在处理大量信息时表现往往下降。这表明更大的上下文窗口并不一定意味着更好的处理质量。

独特模型特性

虽然性能基准和上下文窗口大小涵盖了一些LLM的能力,但组织还必须评估其他模型特性,例如语言能力、多模态性、微调、可用性以及与其需求相符的其他特定特性。

以谷歌的Gemini 1.5为例。下表列出了其一些主要特性。

因素Gemini 1.5 Pro
多语言
多模态
微调支持
上下文窗口最多2百万token(约150万单词)
功能调用
JSON模式
可用性仅限云服务
MMLU得分81.9

虽然Gemini 1.5具有一些令人印象深刻的特性——包括在发布时是唯一能够处理高达2百万token的模型——但它仅作为谷歌的云服务提供。这可能对使用其他云提供商、希望在其基础设施上托管LLM或需要在小型设备上运行LLM的组织来说是一个缺点。

幸运的是,许多LLM支持本地部署。例如,Meta的Llama 3系列模型提供多种模型大小和功能,为有特定基础设施要求的组织提供更多灵活性。

GPU要求

选择LLM时,评估其基础设施要求是另一个重要组成部分。

较大的模型需要更多的GPU VRAM才能在组织的基础设施上有效运行。一个普遍的经验法则是将参数数量(以十亿为单位)乘以2,以估算模型所需的GPU VRAM。例如,一个具有10亿参数的模型大约需要2GB的GPU VRAM才能有效运行。

以下表格展示了几种Llama模型的特性、能力和GPU要求。

模型上下文窗口特性GPU VRAM要求用例MMLU得分
Llama 3.2 1B128K tokens多语言文本低(2 GB)边缘计算,移动设备49
Llama 3.2 3B128K tokens多语言文本低(4 GB)边缘计算,移动设备63
Llama 3.2 11B128K tokens多模态(文本 + 图像)中等(22 GB)图像识别,文档分析73
Llama 3.2 90B128K tokens多模态(文本 + 图像)高(180 GB)高级图像推理,复杂任务86
Llama 3.1 405B128K tokens多语言,最先进的能力非常高(810 GB)一般知识,数学,工具使用,翻译87

在考虑GPU要求时,组织选择的LLM将高度依赖于其预期的用例。例如,如果目标是在标准用户设备上运行具有视觉功能的LLM应用,Llama 3.2 11B可能是一个不错的选择,因为它支持视觉任务,同时仅需适中的内存。然而,如果应用是针对移动设备,Llama 3.2 1B可能更合适,因为它的内存需求较低,能够在较小的设备上运行。

LLM比较工具

有许多在线资源可以帮助用户理解和比较各种LLM的能力、基准分数和成本。

例如,Chatbot Arena LLM排行榜为不同模型提供了整体基准分数,目前GPT-4o是领先模型。但请注意,Chatbot Arena的众包方法在AI社区的某些角落受到批评。

如何选择适合您需求的法学硕士

众包的LLM评估平台Chatbot Arena结合了用户投票和性能基准来评估其排行榜上的流行LLM选项。

Artificial Analysis是另一个资源,汇总了各种LLM的不同指标。它展示了模型的能力和上下文窗口,以及它们的成本和延迟。这使用户能够评估性能和操作效率。

如何选择适合您需求的法学硕士

Artificial Analysis比较摘要评估LLM的性能因素,相对于其他模型的平均水平,详细列出MMLU、定价和速度等指标。

通过使用Artificial Analysis的比较功能,用户不仅可以评估特定LLM的指标,还可以看到它与其他可用LLM的比较。

Marius Sandbu是挪威Sopra Steria的云传播者,主要专注于终端用户计算和云原生技术。

© 版权声明

外贸建站推广

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...