如何选择适合您需求的法学硕士

AI技术10个月前更新 💋陈先生

74 0 0

当OpenAI在2022年11月发布ChatGPT时，它展示了生成性人工智能在商业中的潜力。到2024年，大型语言模型（LLM）领域迅速扩展，出现了许多适用于不同用例的模型。

在如此众多的LLM中，选择合适的模型可能会很具挑战性。组织必须比较模型的大小、准确性、代理功能、语言支持和基准性能等因素，并考虑成本、可扩展性、推理速度以及与现有基础设施的兼容性等实际因素。

选择LLM时需要考虑的因素

在选择LLM时，评估各种模型方面以及其旨在解决的用例至关重要。

全面评估模型可以更清晰地了解它们的整体有效性。例如，一些模型提供先进的功能，如多模态输入、功能调用或微调，但这些功能可能在可用性或基础设施需求上存在权衡。

在决定LLM时，需考虑的关键方面包括模型在各种基准上的表现、上下文窗口大小、独特功能和基础设施要求。

性能基准

当GPT-4在2023年3月发布时，OpenAI自豪地宣称该模型在MMLU、TruthfulQA和HellaSwag等基准测试中表现强劲。其他LLM供应商在推出新模型或更新时也同样提到基准性能。但这些基准到底意味着什么呢？

MMLU。即大规模多任务语言理解，MMLU在57个不同学科（包括数学、历史和法律）上评估LLM。它不仅测试记忆，还测试知识的应用，通常需要大学水平的理解才能正确回答问题。
HellaSwag。即“更难的结尾、更长的上下文和低样本活动用于对抗生成的情境”，HellaSwag测试LLM在响应提示时应用常识推理的能力。
TruthfulQA。该基准测量LLM避免生成虚假或误导信息（即幻觉）的能力。
NIHS。即“干草堆中的针”，该指标评估模型处理长上下文检索任务的能力。它评分LLM从一段冗长文本（“干草堆”）中提取特定信息（“针”）的能力。

在这些基准及其他类似基准中，MMLU是最广泛用于衡量LLM整体性能的指标。尽管MMLU提供了模型质量的良好指示，但它并未涵盖推理和知识的每个方面。为了全面了解LLM的性能，评估模型在多个基准上的表现是非常重要的，以查看它们在不同任务和领域中的表现。

上下文窗口大小

评估LLM时，另一个需要考虑的因素是其上下文窗口：它一次可以处理的输入量。不同的LLM具有不同的上下文窗口——以token为单位，token代表小块文本——供应商们不断升级上下文窗口大小以保持竞争力。

例如，Anthropic的Claude 2.1于2023年11月发布，具有200,000个token的上下文窗口，约150,000个单词。然而，尽管相比于之前的版本容量有所增加，用户指出Claude在处理大量信息时表现往往下降。这表明更大的上下文窗口并不一定意味着更好的处理质量。

独特模型特性

虽然性能基准和上下文窗口大小涵盖了一些LLM的能力，但组织还必须评估其他模型特性，例如语言能力、多模态性、微调、可用性以及与其需求相符的其他特定特性。

以谷歌的Gemini 1.5为例。下表列出了其一些主要特性。

因素	Gemini 1.5 Pro
多语言	是
多模态	是
微调支持	是
上下文窗口	最多2百万token（约150万单词）
功能调用	是
JSON模式	是
可用性	仅限云服务
MMLU得分	81.9

虽然Gemini 1.5具有一些令人印象深刻的特性——包括在发布时是唯一能够处理高达2百万token的模型——但它仅作为谷歌的云服务提供。这可能对使用其他云提供商、希望在其基础设施上托管LLM或需要在小型设备上运行LLM的组织来说是一个缺点。

幸运的是，许多LLM支持本地部署。例如，Meta的Llama 3系列模型提供多种模型大小和功能，为有特定基础设施要求的组织提供更多灵活性。

GPU要求

选择LLM时，评估其基础设施要求是另一个重要组成部分。

较大的模型需要更多的GPU VRAM才能在组织的基础设施上有效运行。一个普遍的经验法则是将参数数量（以十亿为单位）乘以2，以估算模型所需的GPU VRAM。例如，一个具有10亿参数的模型大约需要2GB的GPU VRAM才能有效运行。

以下表格展示了几种Llama模型的特性、能力和GPU要求。

模型	上下文窗口	特性	GPU VRAM要求	用例	MMLU得分
Llama 3.2 1B	128K tokens	多语言文本	低（2 GB）	边缘计算，移动设备	49
Llama 3.2 3B	128K tokens	多语言文本	低（4 GB）	边缘计算，移动设备	63
Llama 3.2 11B	128K tokens	多模态（文本 + 图像）	中等（22 GB）	图像识别，文档分析	73
Llama 3.2 90B	128K tokens	多模态（文本 + 图像）	高（180 GB）	高级图像推理，复杂任务	86
Llama 3.1 405B	128K tokens	多语言，最先进的能力	非常高（810 GB）	一般知识，数学，工具使用，翻译	87

在考虑GPU要求时，组织选择的LLM将高度依赖于其预期的用例。例如，如果目标是在标准用户设备上运行具有视觉功能的LLM应用，Llama 3.2 11B可能是一个不错的选择，因为它支持视觉任务，同时仅需适中的内存。然而，如果应用是针对移动设备，Llama 3.2 1B可能更合适，因为它的内存需求较低，能够在较小的设备上运行。

LLM比较工具

有许多在线资源可以帮助用户理解和比较各种LLM的能力、基准分数和成本。

例如，Chatbot Arena LLM排行榜为不同模型提供了整体基准分数，目前GPT-4o是领先模型。但请注意，Chatbot Arena的众包方法在AI社区的某些角落受到批评。

众包的LLM评估平台Chatbot Arena结合了用户投票和性能基准来评估其排行榜上的流行LLM选项。

Artificial Analysis是另一个资源，汇总了各种LLM的不同指标。它展示了模型的能力和上下文窗口，以及它们的成本和延迟。这使用户能够评估性能和操作效率。

Artificial Analysis比较摘要评估LLM的性能因素，相对于其他模型的平均水平，详细列出MMLU、定价和速度等指标。

通过使用Artificial Analysis的比较功能，用户不仅可以评估特定LLM的指标，还可以看到它与其他可用LLM的比较。

Marius Sandbu是挪威Sopra Steria的云传播者，主要专注于终端用户计算和云原生技术。

# AI技术

文章版权归作者所有，未经允许请勿转载。如有侵犯您的版权，请及时联系我们→侵删通道。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

如何选择适合您需求的法学硕士

选择LLM时需要考虑的因素