You dont have javascript enabled! Please enable it!

AI 参数:解释它们在 AI 模型性能中的作用

近期,AI的进展主要得益于拥有数十亿甚至数万亿参数的大型语言模型(LLM)。这些AI参数——用于训练和调整LLM及其他模型的变量——在生成性AI的发展中发挥了关键作用。更多的参数使得像ChatGPT这样的新生成性AI应用能够生成类人内容,这在几年前是无法实现的。有时,参数也被称为特征或特征计数。

将AI模型的能力与参数数量相关联似乎是合理的,就像我们将汽车的马力进行比较一样。然而,在某些情况下,更多的参数并不一定更好,它们可能增加额外的开销或产生新的问题,如过拟合。

此外,增加AI模型参数数量的方式有很多种,而这些方式并不总是能带来相同的改进。例如,谷歌的Switch Transformers扩展到了数万亿个参数,以测试参数数量的极限,但在一些常见用例中,它们不一定比公司的较小模型更好。因此,在评估不同的AI模型时,考虑其他指标变得十分重要。

SSA & Company的首席数据科学家John Blankenbaker表示,关于如何量化这些大规模大型语言模型的性能,仍然没有定论。他指出,模型变得更大似乎确实使它们能够更忠实地再现训练输出,因此某些性能指标会有所改善。但他补充说,参数与智能之间的关联被许多不切实际的想法所模糊。

本文是

企业中的人工智能指南

  • 其中还包括:
  • AI如何推动收入?这里有10种方法
  • 8个AI无法替代的工作及其原因
  • 2024年AI和机器学习的十大趋势

AI 参数:解释它们在 AI 模型性能中的作用John Blankenbaker

“这些模型被调优得听起来像是知道自己在说什么,而实际上对世界一无所知。我不相信‘涌现'属性,例如意识,已经出现或可能出现,尽管似乎有很多人说,‘等我们拥有十倍的参数再说吧。'”

最后,对于大多数企业来说,参数这一术语本身具有反直觉的特性,使事情变得更加复杂。参数不是单词、特征或数据单位。它更像是一个巨大的鲁布·戈德堡机器中的旋钮,与您试图解决的问题松散连接。此外,在LLM中理解的参数概念与回归模型中的参数有所不同。

AI 参数:解释它们在 AI 模型性能中的作用Sanjay Srivastava

Genpact的首席数字战略家Sanjay Srivastava表示,LLM的崛起重置了期望。“就在几年前,我们认为布尔参数模型很大。今天我们最小的[LLM]模型有75亿个参数。”

什么是AI参数?

理解AI参数的一种方法是想象一个神经网络的卡通表示,里面有许多相互连接的旋钮。当您向神经网络提供输入(例如一句话或一幅图像)时,这些旋钮控制着大量非常简单的计算,通过许多称为层的中间步骤将输入转换为输出。当您想训练这样的网络时,您会反复向它提供输入和期望的输出,并使用实际输出与期望输出之间的差异作为调整旋钮的指南,以使网络在未来对该输入-输出对表现得更好。

出于历史原因,每个旋钮的值被称为参数。Blankenbaker指出,这与线性回归中的参数不同,在那里,劳动小时前的系数可能具有完全负担的劳动率解释。相反,LLM中参数的值是衡量它在巨大计算的一小部分中是否增强或抑制其输入的指标。单独来看,每个参数并不能告诉我们网络的功能或性能。

AI 参数:解释它们在 AI 模型性能中的作用Christine Livingston

Protiviti的AI与物联网实践的董事总经理Christine Livingston认为,将参数视为模型中的权重是有帮助的,这些权重可以调整并提供灵活性。模型的大小不仅仅是参数的数量,还包括训练数据集的大小。此外,值得注意的是,更多的参数可能导致模型过拟合,从而在全新的信息上表现不佳。

UST的首席AI架构师Adnan Masood观察到,参数影响模型的精度、准确性和数据管理要求,因为它们是基于用于训练模型的数据构建的。例如,在需求预测模型的情况下,参数帮助它权衡历史销售数据、季节性、经济指标、市场趋势、促销活动、定价策略、产品生命周期阶段和外部因素的重要性。

AI 参数:解释它们在 AI 模型性能中的作用Adnan Masood

然而,在LLM的情况下,其庞大的规模使得关注特定参数几乎不可能。开发人员更关注模型的整体因素,例如模型的目的、性能指标、预期用例、潜在限制、偏见和伦理考虑。理解基础数据集的收集、预处理和清理步骤、数据集特征、数据源、可能的偏见、许可和数据的预期用例有助于提高模型的透明度。

参数与单词与标记的关系

参数、标记和单词的含义有时被混淆,但这些术语的意思是不同的。说GPT-3是基于1750亿个参数进行训练的,并不意味着它是为了支持1750亿个单词而训练的。相反,模型参数是在训练过程中学习到的值。参数是从根据单词排列推断出的标记中学习的。

从实际的角度来看,Masood表示,标记是单词的一部分。典型的单词到标记的比率是3比4,即100个标记大约是75个单词。现在,所有这些标记变成嵌入(单词的向量化版本),模型在其上进行训练。

这种训练产生了权重和偏置的参数。权重是决定输入特征与模型输出预测之间连接的重要性或强度的参数。偏置是额外的偏移参数,允许模型将输出预测向上或向下移动一个常数值。

“所以,当我们说1750亿个参数时,我们指的就是这些权重和偏置,”Masood表示。这些偏置在每个神经元应用激活函数以获取结果之前,添加到输入的加权和中。

参数对开发者和用户的重要性

当人们说一个AI模型有数十亿个参数,而另一个有数万亿个参数时,这对用户和开发者意味着什么?Masood表示,更多的参数通常意味着模型具有更高的学习数据的能力,但这也意味着复杂性、训练时间和计算资源的增加。

较大的模型,即参数更多的模型,由于其更强的学习能力,在某些情况下可能更准确。然而,它们通常更难以编程、存储、微调和运行,需要更多的计算能力、内存和专业知识。对于用户来说,性能可能更好,但响应时间可能更慢,推理和训练成本更高。对于开发者来说,部署更大的模型可能需要更多的训练资源。对于审计员来说,这意味着黑箱模型不易于解释、透明和可审计的AI。

确实,Masood发现,较小的模型通常更适合特定领域的任务(如金融、零售、医疗、视觉等),因为它们具有更好的泛化能力、更快的训练和推理、更易于解释以及较低的数据要求。这些模型是在特定领域数据集上定制训练的,降低了过拟合的风险,并可以有效地用有限数据进行训练。

AI 参数:解释它们在 AI 模型性能中的作用

GPT-4,一个LLM,在参数数量上超越了所有前任。

对于基于边缘的推理,这些模型非常适合时间敏感或资源受限的环境。它们更容易适应,这使得开发者能够微调以满足特定领域的独特需求,从而在决策过程中实现良好的性能、可解释性和透明性。

Blankenbaker同意,大型模型的运行成本可能更高,但大多数用户将通过API访问它们,因此成本将包含在其中。对于那些需要在边缘设备上运行模型的用户,有迹象表明可以通过消除不太重要的参数来修剪模型,而不会严重影响性能。Neural Magic是一家似乎强烈支持这种方法的公司。

微调参数的挑战

最大模型面临的最大挑战之一是必须为特定领域进行调优。Livingston表示,大型模型在响应中没有领域特异性,且对深入理解问题领域或行业的关注较少。它们也可能会遭受过拟合,这意味着它们在训练周期中的测试表现非常好,但在接触新信息时可能表现不佳。

Masood表示,这导致了训练运行的“保姆”,负责寻找意外的惊喜,例如越狱、领域外问答、分布偏移以及微调与上下文提示之间的平衡。

更好的指标

将特征计数作为AI模型性能的常用同义词来默认化是很诱人的,但对于大多数企业用例来说并不实用。

“有各种更好的替代方案可以比较不同AI模型的优缺点,专注于全面和整体的评估方法,”Masood表示。“没有严肃的学术或专业人士会仅仅依靠参数数量来判断一个模型。”

一个替代方案是斯坦福大学的HELM(语言模型的整体评估),它考虑了多个因素,如准确性、校准、鲁棒性、公平性、偏见、毒性和效率。除了HELM,行业从业者还利用像Pile、GLUE、SuperGLUE、MMLU、LAMBADA和Big-Bench Benchmark等基准,以及像SBERT和USE/GOOG这样的句子嵌入方法来评估LLM在特定任务上的表现。

“这些基准至关重要,因为它们帮助我们更全面地理解AI模型的性能,不仅关注准确性,还关注公平性、速度、成本、透明性和伦理考虑等关键因素,”Masood表示。

更好的是,一组评估方法的结合可以帮助企业在选择特定任务的AI模型时做出更明智的决策,在性能、资源需求和伦理方面取得适当的平衡。

Livingston建议企业通过小型原型评估模型,以实现他们想要启用的特定用例。“你可能会看到一些意想不到的结果,”她说。

模型架构也是处理敏感数据和训练数据消耗时的一个考虑因素。微调或调整模型以适应特定用例的能力也是一个关键考虑因素。

未来趋势

三大重要趋势正在塑造我们对参数作为AI性能衡量标准的思考。

首先,AI开发者在提高AI模型性能方面取得了显著进展,而不必增加参数数量。一项对2012年至2023年间231个模型的元分析发现,后续版本的LLM所需的计算能力平均每八个月减半。这表明创新的速度远远快于摩尔定律,后者著名地观察到芯片中的晶体管数量每18个月翻一番。

第二,研究人员开始探索新的神经网络方法,这些方法相对于参数数量可能会看到更显著的质量改善。例如,最近的研究表明,Kolmogorov-Arnold Networks(KANs)可能是当前常用的多层感知机方法的有希望的替代方案。研究人员发现,在与物理相关的问题上,KAN方法可以用一万分之一的参数实现类似的性能。尽管如此,KAN的训练也更加困难,因为它们需要串行运行的CPU,而不是与MLP并行运行的GPU。

第三,研究人员和供应商开始开发代理AI框架,这些框架在多个特定领域的AI代理之间处理任务。一个很好的例子是Salesforce的新Agentforce生态系统。在这种架构中,针对特定领域或任务训练的LLM可能会超越具有更大参数数量的通用LLM。目前尚不清楚如何计算每个代理的参数数量或它们在多个交互中的总和,以便与单一的单片LLM进行比较。

George Lawton是一位驻伦敦的记者。在过去的30年里,他撰写了超过3000篇关于计算机、通信、知识管理、商业、健康及其他感兴趣领域的报道。

© 版权声明

外贸建站推广

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...